跳转到主要内容
Chinese, Simplified

Metacat作为Netflix支持的所有数据存储的真实性和元数据访问层的单一来源。

什么是Metacat?

Metacat是一个在Netflix上构建的联邦服务,提供了一个统一的REST/Trift接口来访问其各种数据存储的元数据。它试图使数据易于发现、处理和管理。

Metacat有三个主要目标:

  • 所有元数据系统的联合视图
  • 统一的API可从各种来源访问元数据
  • 针对数据集的任意业务和用户元数据存储的解决方案

A centralized service that all compute engines could use to access the different data sets. Image source:A centralized service that all compute engines could use to access the different data sets. Image source:

Netflix为什么要建立Metacat?

数据,而不是元数据,可能是Netflix作为一家公司最有价值的战略资产,它为他们所做的一切提供动力。从手表推荐到根据用户口味变化的缩略图,无所不包。因此,在一段时间后,处理如此庞大的大数据成为一项挑战,这是很自然的。

Netflix运营的庞大数据池分布在多个平台上,如Amazon S3、Druid、Redshift和MySql等。Netflix构建了Metacat,以保持所有平台的无缝互操作性。

Joris Evers在2013年表示,Netflix大约有3300万个不同版本,当时全球有3300万订户。2021年初,他们拥有超过2.03亿付费用户!

Metacat在Netflix的数据基础设施中的地位如何?

Metacat填补了Netflix数据堆栈中的一个重要空白,介于他们的PIG ETL系统和Hive之间。它提供了一个统一的API来发现和访问Netflix生态系统中各种数据源(如Amazon S3、Druid、Redshift和MySql)的元数据。

Netflix的数据架构有三个主要服务:执行服务、元数据服务(Metacat)和事件服务

Big data that Netflix runs on is spread across multiple platforms. Image Source

Metacat的功能是什么?

Metacat功能可以简单地分类如下:

  • 数据抽象和互操作性
  • 业务和用户定义的元数据存储
  • 数据发现
  • 数据更改审核和通知

数据抽象和互操作性

Metacat表现为一个通用的抽象层,因此可以通过Netflix使用的多个查询引擎(Pig、Spark、Presto和Hive)访问数据集。

业务和用户定义的元数据存储

Metacat有助于记录有关数据资产的业务和用户定义的元数据。从而确保为数据用户提供数据资产中的更多信息,以及如何处理这些信息的标准规则。

数据发现

Metacat通过Elastic Search返回模式元数据和业务/用户定义元数据,这有助于通过文本搜索进行查询。还启用了自动完成、自动建议和标签,以便更快地识别感兴趣的数据。

数据更改审核和通知

任何元数据更改或更新都由Metacat捕获。对于可能需要数据管理员、生产者和消费者注意的此类事件,将启用推送通知。

The Metacat Architecture. Source

Metacat是您的数据堆栈中缺失的部分吗?

Metacat是开源的,并且正在不断增强,但它可以高度定制Netflix的数据堆栈和管道,并且没有任何可用的公共文档。其他第三方使用Metacat构建自己的元数据引擎和数据发现平台的信息也不多。

如果你也在考虑是否为你的团队构建或购买数据目录和发现平台,你可能想尝试像Atlan这样的现成工具,它们具有Metacat、Atlas或Amundsen等开源工具的所有功能和复杂性,但所有数据用户都可以轻松使用,而不仅仅是工程师。

Netflix Metacat:相关阅读

原文地址
https://atlan.com/metacat-netflix-open-source-metadata-platform/
本文地址

Tags

Article

微信

知识星球

微信公众号

视频号