跳转到主要内容

【数据治理】开源数据质量软件

5星评论
没有投票
Last modified
星期日, 一月 31, 2021 - 20:35

下表列出了可用的开放源码数据质量软件发行版,涵盖了数据质量评估的某些方面。

 

纳入标准

  • 在其中一个存储库中可公开访问的任何开放源代码发行版。为简洁起见,当存储库包含许多不同的工具时,只提供一个链接
  • 库/框架不必只关注数据质量,因为功能经常与数据清理或探索性数据分析捆绑在一起。
  • 数据质量评估在广泛不同的环境/工作流程(从验证excel表到大数据管道,离线/在线等)中非常重要,因此该列表包含了不同的集合
  • star/issue/fork计数作为成熟度的粗略衡量标准。使用风险自负

开源数据质量软件

Open Source Data Quality Software
1. Name 2. Description 3. Language 4. Online Docs 5. URL 6. Stars 7. Issues 8. Forks

awslabs/

deequ

Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets Scala   github 1328 90 256

data-cleaning/

validate

validate: Data cleaning for statistical purposes R docs github 236 21 18

datacleaner/

DataCleaner

DataCleaner Community Edition Java docs github 371 172 136

daveoncode/

pyvaru

pyvaru: Rule based data validation library for python Python docs github 14 1 3

great-expectations/

great_expectations

Great Expectations helps data teams eliminate pipeline debt, through data testing, documentation, and profiling Python docs github 3127 147 348

OpenRefine/

OpenRefine

openRefine is a tool for working with messy data Java docs github 7735 595 1376

pandas-profiling/

pandas-profiling

pandas-profiling generates profile reports from a pandas DataFrame Python docs github 6338 44 962
pyeve/cerberus cerberus is a lightweight, extensible data validation library for Python Python docs github 2246 33 202

ResidentMario/

missingno

missingno is a missing data visualization module for Python Python   github 2540 15 334

WeBankFinTech/

Qualitis

Qualitis is a data quality management platform that supports quality verification, notification, and management for various datasources Java docs github 208 16 107

whylabs/

whylogs-python

whylogs-python is a Python implementation of whylogs Python docs github 191 10 7

 

原文:https://www.openriskmanual.org/wiki/Open_Source_Data_Quality_Software

本文:

讨论:请加入知识星球【超级工程师】,微信【it_training】或者QQ群【11107767】

Article

标签(Tags)

企业架构(35) 数据分析(35) Power BI(32) 微服务(31) 微服务架构(30) Data Analysis(30) 商务智能(30) BI(30) 认证考试(30) 微软认证(30) DA-100(28) 应用安全(27) 考试题(26) 物联网(25) 敏捷(25) Enterprise Architecture(24) 试题(20) 首席架构师(19) 首席架构师推荐(19) 云计算(19) 网络安全(18) 技术架构(17) 机器学习(17) 试卷(17) SAFe(16) 大数据(15) Kafka(15) 规模化敏捷(14) enterprise security architecture(14) 企业安全架构(14) 前端架构(14) microservice(13) 业务架构(13) 数据架构(13) IOT(13) 安全运营(13) 容器云(12) 敏捷建模(12) 服务网格(12) 数据分析师(12) 事件驱动架构(12) 区块链(12) 数据安全(12) 数据湖(11) 应用架构(10) AWS(10) 数据科学(10) 人工智能(10) Kubernetes(10) 产品管理(9) BI数据分析师(9) NGINX(9) 数字化转型(9) 深度学习(9) 软件架构(9) 架构师(9) machine learning(9) 商务智能分析师(8) CIO(8) 技术选型(8) 安全战略(8) 软件测试(8) ArchiMate(8) PostgreSQL(8) Azure(8) Cloud Computing(8) Big Data(8) API(8) MSA(8) MDM(8) 技术趋势(7) 容器云架构(7) 核心实践(7) 无服务器架构(7) JavaScript框架(7) Vue(7) React(7) 参考架构(7) DevOps(7) 数据仓库(7) Data Lake(7) Envoy architecture(7) 容器(7) 主数据架构(7) microservices(7) 技术架构师(7) digital transformation(7) 投资组合管理(6) 安全架构(6) 集成架构(6) 合同测试(6) 工控协议(6) ICS(6) Micro Service Architecture(6) Envoy架构(6) 事件驱动(6) 数字化(6) 微服务架构师(6) strategy(6) 安全工具(6) application security principle(6) Angular(6) Postgresql架构(6) 网络架构(6) agilemodeling(6) 首席架构师精选(6) 高管洞察与创新(6) 云安全(6) 合约测试(5) Event Hub(5) 应用安全原则(5) Enterprise Portfolio Management(5) WAF(5) 编程语言(5) JavaScript Frameworks(5) 用户体验(5) 云原生(5) Agile(5) Python(5) IT战略(5) 企业敏捷性(5) 数字化业务(5) API Gateway(5) 项目管理(5) Digital business(5) 工业控制系统(5) Microservice Architecture(5) ICP(5) 软件架构师(5) 数据挖掘(5) Data Architecture(5) 主数据管理(5) 性能(5) Architecture Overview(5) Best Practices(5) Data Warehouse(5) k8s(5) 战略(5) IoT(5) 解决方案(5) 工业物联网(5) 数据科学家(5) 敏捷数据(4) 领导力(4) IPS(4) 领域驱动设计(4) DDD(4) 性能调优(4) 微前端(4) Vue.js(4) Docker(4) 敏捷核心实践(4) 应用组合管理(4) Agile Core Practice(4) 程序员(4) 数据可视化(4) 前端开发(4) 前端架构师(4) 前端开发工程师(4) 容器云架构师(4) 职业发展(4) executive insights and innovation(4) enterprise agility(4) 数据湖架构师(4) 开源合规(4) 敏捷模型(4) 业务转型(4) 企业微服务架构(4) 消费者驱动的合同测试(4) JWT(4) security(4) 企业架构师(4) architecture(4) 应用架构师(4) blockchain(4) 存储架构(4) GDPR(4) Cloud(4) RESTful(4) 最佳实践(4) 分布式计算(4) 数据湖架构(4) Service Mesh(4) BDD(4) 解决方案架构师(4) Event-Driven(4) SCADA(4) 云原生架构(4) 去中心化(4) IoT(4) IoT(4) Deep Learning(4) EA(3) technology(3) NFR(3) 安全(3) 应用现代化(3) Big Data(3) Spark(3) Microservice(3)