【数据治理】提高数据质量的五个步骤

如果说软件正在吞噬世界,那么数据就是热量的来源。正如有好的卡路里和坏的卡路里一样,并不是所有的数据都是相等的。随着越来越多的公司使用数据来推动决策过程,获得高质量的数据是一个至关重要的因素。

你可能认为数据科学是最近才出现的。但实际上,它从20世纪80年代就开始了,以数据仓库等概念的形式出现。如果你在互联网上搜索,寻找关于提高数据质量的建议,你会读到一些长期存在的概念,比如准确度和及时性的度量。此外,您还可以找到关于如何使用Python或R清理数据的最新战术建议。我们如何更好地浏览这些令人眼花缭乱的信息?

我是来帮忙的。下面是您今天可以采取的五个步骤,以获得更好的数据质量。

第一步:定义有用性指标

 

无论是为了帮助管理层更快地做出更好的决策,还是为了帮助基层员工做出更好的反应,您的数据都必须是有用的。因此,您必须定义“有用数据”的外观。

以下是我们用来定义有用数据的最常用指标:

  • 准确度
  • 精密度
  • 完整性
  • 有效性
  • 相关性
  • 及时性
  • 被理解的能力
  • 诚信

然后,您可以使用这些指标作为检查表来帮助指导数据质量控制:

  • 准确度是否可以接受?(准确度)
  • 粒度是否足够?(精度)
  • 我们收集到足够的数据了吗?(完整性)
  • 我们过滤掉不相关的信息了吗?(相关性)
  • 数据模型是否将数据连接到健全的结构?(有效期)
  • 我们是批量分析还是实时分析?(及时性)
  • 我们是否清理了数据并使其更具可读性?演示怎么样?(理解能力)
  • 我们需要做更多的核对吗?更频繁?跨越时间?(受信任)

因此,您有许多选项来定义有用数据的外观。

 

有时少就是多。例如,Pinterest意识到,当他们有意降低精确度时,他们的新视觉AI功能更有用:

 

这就是Pinterest从avocados中学到的教训。精确匹配是Google搜索的特色,Google搜索针对特定问题进行了优化,比如“你怎么烤鱼?”?“–完美的连接。Pinterest用户倾向于提出更含糊的问题:他们可能一周搜索几次“海鲜晚餐点子”。对他们来说,不完全匹配不是错误。这是灵感。-Fast公司设计文章

 

对于用户来说,这种不完美的匹配是一个特性,而不是一个bug。所以你不需要完美的数据就能得到好的结果。目标是有用,而不是完美。

 

第2步:分析

分析意味着您分析信息,以便阐明数据的结构、内容、关系和派生规则。这是关键的一步。用户倾向于从直观的角度理解数据是如何相互关联的。不幸的是,机器目前仍然需要精确的指令。因此,您需要对手头的数据进行分析,并通过数据分析软件使其为用户服务。

首先阐明不同的数据点是如何相互关联的。您希望如何对它们进行分组和组织?出于显示目的,您希望对要派生的数据应用哪些规则?这些是您在数据分析中应用的典型步骤。

但不要认为这是一劳永逸的一步。通常,您在构建模型之前会执行更深入的分析。之后,您仍然可以继续执行详细的分析。这是因为连续的详细分析有助于确定提取的适当数据和应用于数据集的适当过滤器。

有时,即使在数据加载阶段之后,您也可能希望继续执行分析。这有助于确保正确清理数据并将其转换为符合您的要求。

你可以这样想:

data-quality-profiling-work

如果你做得对,你的项目的分析工作量应该会随着时间的推移而减少.

data-quality-data-modeling

此图表显示了分析工作的性质如何随着项目的进展而变化。

 

第三步:标准化

 

制定数据标准化政策是提高数据质量的另一个关键步骤。标准有助于改善沟通。

良好的沟通意味着两个不同的当事人可以快速而完整地理解对方,而不会产生太多的混淆。这也适用于向受众传达数据。

有两种标准化:外部标准化和内部标准化。外部标准(在组织外部)适用于常用的数据类型。例如,如果要表示datetime,可以选择一个广泛接受的国际标准,如ISO-8601。我建议你不要无谓地发明自己的标准,也不要选择晦涩难懂的标准。记住,您的目标是轻松有效地传递数据。因此,您应该明智地选择外部标准。

有时,你需要发明自己的内部标准。这需要更多的工作,但它们是定制的,以适合您公司的具体情况。内部标准也有助于改善公司的沟通。但它们可能有另一个用途。想象一下,您的企业有一个革命性的业务流程,它允许您以两倍于竞争对手的速度发货。这是一个巨大的竞争优势。您将希望整个公司都能在这一革命性的过程中工作,它所使用的数据也是如此。为了避免出现垃圾输入、垃圾输出的情况,您可能还需要确保在数据中应用相同的词汇表。一致的内部标准将帮助您的员工保持一致,并在您创建的新范式中工作。

设置标准策略文档

 

通常,组织只需要建立一个包含标准的策略文档,然后就可以使用它了。这还不够好。我的经验告诉我,你会想包括背后的标准本身的原因。这是有帮助的,因为人们来来往往,但文档仍然存在。有时,这些标准可能会过时或妨碍组织在未来实现其目标。

 

遵守和执行标准是另一个问题。你可能想寻求软件的帮助。规则引擎是确保数据符合您制定的标准的好方法。通常,不可能将所有业务规则都放在一个软件中。您可能最终需要几个部分,特别是当您有一个长而复杂的流程工作流时。因此,在标准策略文档中有一个单一的真实来源可以帮助您的工作流和各种软件与所选的标准保持一致。

步骤4:匹配或链接

所以,假设您已经正确定义了有用数据的外观。您已经执行了分析,并且您的模型正确地反映了现实。标准已经选定并得到适当执行。但是如果你的听众仍然没有得到他们认为会得到的有用的见解呢?此时需要添加匹配和链接功能。

回想一下,我们之前在第2步:分析中讨论了关系和数据结构。您需要向您的受众展示您在数据中发现的关系。当关系就绪时,您的受众将能够对数据执行各种各样的操作,根据需要对数据进行上卷、下钻、切片和切分。换句话说,他们将通过在线分析处理获得商业智能。

想象一下,销售数据与客户人口统计有关。想象一下,它也与产品库存有关。现在,所有三个不同的数据源都链接在一起。你可以根据产品、交易时间或人口统计预测趋势和购买模式。这是同一组数据,但现在可以用三种不同的方式进行分析。

第五步:监控

一个好的数据分析师的工作永远不会完成。您需要不断地监视接收到的数据和生成的输出的变化。现场的新竞争者可能会带来变化。或者监管有变化。技术进步也可能导致您改变数据分析过程。摩尔定律永不停息。

你可能听说过软件会衰退。数据也会衰减。由于持续分析而产生的新发现可能会导致您更改策略。可能需要引入新的标准。

持续监控数据至关重要。这可以确保您不会意外地用不正确或不一致的数据点污染数据仓库。您可以使用软件来帮助减轻监视方面的工作量。当监控软件发现异常情况(如错误输入的数据)时,该软件将向负责收集或清理数据的部门发送通知。

下一步是什么?

现在您已经知道了可以采取的五个步骤来提高数据质量,请再次检查列表。看看哪些步骤突出了你需要加强的地方。记下你已经做得很好的步骤。然后,制定一个季度审查流程,以确保持续评估数据质量控制。这样,你就会看到你的立场和你可以改进的地方。

 

另外,请查看我们关于成功实现数据治理的技巧。

原文:https://www.cprime.com/resources/blog/five-steps-to-better-data-quality/

本文:http://jiagoushi.pro/node/1478

讨论:请加入知识星球【超级工程师】或者微信【it_training】或者QQ群【11107767】