跳转到主要内容
Chinese, Simplified

数据清理是实现业务决策和操作中可能使用的最高数据质量的更大努力的一部分。它需要整个企业的组织努力和参与,如果做得正确,可以帮助提供有价值的见解和决策分析。与数据清理相关的一些其他好处包括:

  • 简化的业务实践
  • 提高生产力
  • 更快的销售周期
  • 更好的分析

考虑到许多业务的数据量不断增长,数据清理需要自动化。正确的数据工具可以填补这些空白,并在一些问题有机会成为真正的问题之前自动管理它们。这最终可以帮助企业提高工作效率和利润。

 

为您的组织选择合适的数据清理工具对于为您的投资获得最大效用至关重要。为了帮助你做出决定,这篇文章回答了以下问题:
 

  • 选择正确的数据清理工具有哪些标准?
  • 数据质量工具的主要功能是什么?
  • 为数据清理开发了哪些主要工具?

选择数据质量工具的标准

正确的数据清理实践可以在整个组织中产生巨大的积极影响,因此花时间选择正确的工具来支持它是值得的。对于大型或复杂的数据集,也可以考虑将整个过程外包给第三方。

 

选择工具时应包括的一些标准包括:

 

  • 价格:是订阅费还是一次性费用?有没有会导致价格上涨的附加条款?
  •  
  • 支持:强大的支持团队是决策的重要因素。
  •  
  • 可用性:不仅是在分析用途方面,还是在为安装/实现工作的IT用户方面,业务用户是否需要这些?
  •  
  • 可伸缩性:您的工具是否能够跟上您的数据源的增长和发展;以及升级和更改到底有多容易
  •  
  • 特征:
  •  
    • 审计能力:能够看到何时何地对记录进行了更改对于内部和外部审计以及法规遵从性问题非常重要。
    • 兼容性/集成:拥有一个工具,可以处理业务用于日常活动的所有数据源。
    • 云与内部部署:基于云的选择为硬件资源有限的小型企业提供了更多选择。
    • 元数据支持:元数据对于避免“洞察缺口”非常重要,因为有价值的数据可能被用于分析,而这些数据可能与数据科学家和其他业务用户分离
    • 与不同来源的兼容性:可以从多少来源获取数据?运行任何进程或准备这些进程需要多长时间?
    • 批处理能力:能够提前编程定期数据清理实践有助于确保数据的持续质量

不同规模企业的考虑因素

您的业务规模将在帮助您选择正确的工具方面发挥重要作用。有三大类有不同的需求:

  • 拥有10名或更少员工的小型企业:这种规模的企业通常不需要大量的数据清理工具。
  • 拥有10-100名员工的中型企业:在中型企业,企业开始遇到一个有趣的问题,即有足够的数据需要工具和努力来保持数据的整洁,但组建一个完整的团队并不现实。因此,重要的是要选择一个强大的工具,可以帮助填补'差距'。
  • 拥有100-500名员工的大型企业:在这个级别上,进出一个组织的数据量通常会要求一个专门的团队来确保数据质量。然而,选择一个高质量的工具有助于简化他们的工作,使他们能够专注于与质量相关的关键任务。

数据质量工具的常见功能

无论您最终为您的组织选择什么工具,都可以在各种工具中找到一些常见的功能:

 

  • 数据分析:扫描数据以发现模式、缺失值、字符集和其他基本特征。这将使工具能够在以后将数据识别为不规则的。
  • 数据消除:删除重复数据和不符合所需配置文件的数据。
  • 数据转换:对于有价值的错误数据,可以通过纠正打字错误、标准化和规范化数值(介于最小值和最大值之间)将其转换为“良好”数据。
  • 数据标准化:将数据转换成一种通用格式,以便于分析。
  • 数据协调:与标准化类似,这种做法从一系列来源获取数据,并将其转换为通用格式。标准化是一致性,协调是一致性。

数据质量工具概述

市场上可用的数据清理工具的数量每天都在增长。一些常见的供应商包括:

Name Founded Status Number of Employees
OpenRefine 2012 Open source N/A
Trifacta Wrangler 2012 Private 11-50
TIBCO Clarity 1997 Private 1,001-5,000
IBM Infosphere Quality Stage 1911 Public 10,001+
Foxtrot 2014 Private 11-50
Symphonic Source Cloudingo 2010 Private 11-50
Quadient Data Cleaner 2014 Public 1,001-5,000
Data Ladder 2006 Private 11-50
Winpure 2003 Private 11-50
Nmondal Solutions Datamartist 2008 Private 2-10
Tableau 2003 Public 1,001-5,000
MoData 2015 Private 11-50
Talend Data Preparation 2005 Public 1,001-5,000

选择一个数据质量工具看起来很吓人,但是经过一些仔细的研究和可信的第三方的建议,它最终可以成为获得高质量数据的最有效方法之一.

 

原文:https://research.aimultiple.com/data-quality-tools/

本文:http://jiagoushi.pro/node/1473

讨论:请加入知识星球【超级工程师】或者微信【it_training】或者QQ群【11107767】

Tags
 
Article
知识星球
 
微信公众号
 
视频号