开源数据质量库（Deequ）

2024-12-28

842

Deequ由亚马逊开源的数据质量库，基于Scala和Spark构建，用于定义数据质量规则并执行它们，特别适用于大数据环境，能够处理大规模的数据集。

主要使用Scala编程语言，构建在Apache Spark之上，能够利用Spark的分布式计算引擎来定义和执行数据质量检查。

采用Apache-2.0 license开源协议。

一、核心功能

1.数据完整性检查：确保数据不存在缺失值，例如检查某列是否所有行都有数据，或者某张表的所有必填字段是否都有值，保证数据的非空、唯一性和一致性等。

2.数据值检查：验证数据值是否在预期的范围内，比如检查某列数据是否为非负数，是否包含特定的值等，还可以检查数据的格式是否符合要求，如日期格式、邮箱格式等。

3.数据分布检查：分析数据的分布情况，像中位数、分位数等统计指标，确保数据的分布符合预期，有助于发现数据中的异常值或数据倾斜等问题。

4.自定义约束：允许用户根据具体的业务规则和数据特点，定义自己的数据质量约束，以满足特定的质量要求。

二、工作流程

1. 定义约束阶段

- 约束类型

- 完整性约束：例如，`MustBeComplete`约束用于确保数据集中的特定列没有缺失值。这可以通过指定列名来实现，如`val completenessConstraint = Constrain(\"column_name\", MustBeComplete)`。这种约束在数据质量管理中非常重要，因为缺失值可能会导致数据分析结果的偏差或模型训练的不准确。

- 数据格式约束：`MatchesRegex`约束可用于检查数据是否符合特定的正则表达式模式。比如，检查一个表示电子邮件地址的列中的数据是否符合电子邮件的格式要求，`val emailFormatConstraint = Constrain(\"email_column\", MatchesRegex(\"^[a-zA - Z0 - 9_.+-]+@[a-zA - Z0 - 9 -]+\\.[a-zA - Z0 - 9-.]+$\"))`。

- 数值范围约束：`IsInRange`约束能够验证数据是否在给定的数值范围内。例如，对于一个表示年龄的列，可以定义`val ageRangeConstraint = Constrain(\"age_column\", IsInRange(0, 120))`，确保年龄值在合理的区间内。

- 通过DSL（领域特定语言）定义：Deequ提供了一种DSL来方便地定义这些约束。用户可以将多个约束组合在一起，构建一个复杂的数据质量检查规则集。例如，下面是一个简单的规则集，包含了完整性和格式约束：

```scala

import com.amazon.deequ.constraints.ConstraintSuggestionRunner

import com.amazon.deequ.constraints.Constraints

import com.amazon.deequ.verification.VerificationSuite

import com.amazon.deequ.verification.VerificationResult

import org.apache.spark.sql.SparkSession

object DataQualityCheck {

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder().appName(\"DataQualityCheck\").getOrCreate()

val data = spark.read.csv(\"data.csv\")

val constraints = Constraints()

.addConstraint(Constraints.MustBeComplete(\"column1\"))

.addConstraint(Constraints.MatchesRegex(\"column2\", \"^[a-zA - Z]+$\"))

val verificationSuite = VerificationSuite()

.onData(data)

.addConstraints(constraints)

val result: VerificationResult = verificationSuite.run()

}

```

2. 数据剖析阶段

- 数据统计指标计算：Deequ会对输入的数据集进行剖析，计算各种数据质量指标。这包括近似计数（approximate count distinct），用于估计列中不同值的数量；完整性指标，计算每列有值的比例；最大值、最小值、平均值等统计指标。例如，对于一个数值列，Deequ会计算其最小值和最大值，以了解数据的范围。这些指标的计算是基于数据集的样本或者全量数据（取决于数据大小和配置），为后续的约束验证提供基础数据。

- 数据分布分析：它还会分析数据的分布情况，如计算分位数（quartiles、percentiles）。通过了解数据的分布，能够更好地评估数据质量。例如，如果数据的分布严重偏离预期，可能表示数据收集过程存在问题或者数据受到了异常因素的影响。这种分布分析对于发现数据中的异常值或者数据倾斜等问题非常有帮助。

3. 约束验证阶段

- 验证过程：根据定义的约束条件，Deequ对数据集进行验证。它会将计算得到的数据质量指标与定义的约束进行比较。例如，如果定义了一个列的完整性约束为90%，而实际计算得到的完整性指标只有80%，那么就会判定该约束不满足。对于每个约束，都会有一个验证结果，表明数据是否满足该约束。

- 错误和警告生成：如果数据不满足约束，Deequ会生成相应的错误或警告信息。这些信息包含了不满足约束的具体细节，如哪个约束没有满足、涉及的列或数据范围等。例如，在数据格式约束验证中，如果发现某些数据不符合指定的正则表达式格式，会记录这些不符合格式的数据行的位置和具体内容，方便用户定位和解决问题。

4. 结果输出阶段

- 输出形式：验证结果以直观的方式输出，常见的输出形式是数据框或者日志。在数据框形式中，每一行代表一个约束，列中包含约束的名称、是否满足、违反约束的详细信息等。日志输出则会详细记录数据质量检查的过程和结果，包括每个阶段的时间戳、执行的操作、发现的问题等。这种输出方式方便用户查看和分析数据质量问题，用户可以根据输出的结果采取相应的措施，如数据清洗、修正数据收集流程等。

三、优势

1.处理大规模数据：基于Apache Spark的分布式计算能力，能够高效地处理大规模数据集，满足企业级数据质量检查的需求。

2.早期错误检测：通过在数据管道中嵌入数据质量检查，可以及早发现数据中的错误和不一致性，避免错误数据对下游应用或机器学习算法造成影响，提高数据的可靠性和可用性。

3.灵活定制：支持用户自定义数据质量约束和分析规则，能够适应各种不同的数据质量需求和业务场景。

4.自动建议约束：根据数据集的特征自动建议适用的数据质量约束，帮助用户快速发现潜在的数据质量问题，并为定义约束提供参考，减少了人工定义约束的工作量和难度。

5.度量存储与查询：可以持久化计算得出的数据度量，并支持查询，方便用户对数据质量进行长期的监控和分析，跟踪数据质量的变化趋势。

6.增量计算和分区更新：支持对不断增长的数据集进行增量度量计算，以及在分区数据上更新度量，提高了数据质量检查的效率和灵活性，适用于实时数据处理和动态数据集的场景。

四、应用场景

1.数据湖管理

- 数据质量监控：数据湖通常存储着海量的、多源异构的数据。Deequ可以帮助监控数据湖中的数据质量，确保数据的完整性、准确性和一致性。例如，检查数据湖中各表的关键列是否存在缺失值，数据格式是否符合预期等，从而保证数据湖中的数据在被使用时的可靠性。

- 数据治理：作为数据治理的重要环节，Deequ可用于定义和执行数据质量规则，确保数据符合企业的标准和政策。通过定期的数据质量检查，发现数据湖中的数据质量问题，并及时采取措施进行治理，如数据清洗、数据转换等，提高数据的质量和价值。

2.数据仓库

- ETL过程中的数据质量保证：在数据从数据源抽取、转换并加载到数据仓库的ETL过程中，Deequ可以嵌入其中，对每一步的数据进行质量检查。例如，在数据抽取后检查数据的完整性，在转换过程中检查数据的一致性和准确性，确保只有符合质量要求的数据才能进入数据仓库，避免错误数据对后续数据分析和决策的影响。

- 定期数据质量检测：数据仓库中的数据会随着时间不断更新和积累，Deequ可用于定期对数据仓库中的数据进行全面的质量检测。通过分析数据的分布、检查数据的约束条件等，发现数据中的异常和潜在问题，如数据的偏态分布、数据的重复等，以便及时进行数据修复和优化，保证数据仓库数据的高质量。

3.实时数据处理

- 实时数据质量监控：在实时数据处理系统中，如流计算平台，Deequ可以实时监控数据流的质量。例如，对于实时产生的日志数据、传感器数据等，Deequ能够实时检查数据的完整性、数据值是否在合理范围内等，及时发现并处理数据异常，确保实时数据的可靠性和可用性，为实时决策提供准确的数据支持。

- 数据管道中的质量保障：在构建数据管道时，将Deequ集成到数据管道的各个环节，可以在数据流动的过程中自动进行数据质量检查。当数据不符合质量要求时，可以及时采取相应的措施，如数据过滤、数据修正等，保证数据在整个管道中的质量和一致性，提高数据处理的效率和准确性。

4.机器学习

- 数据预处理阶段的质量控制：在机器学习的项目中，数据质量对模型的性能和准确性有着至关重要的影响。Deequ可以在数据预处理阶段，对原始数据进行全面的质量检查和清洗，确保输入到机器学习模型中的数据具有较高的质量。例如，检查数据的缺失值、异常值、数据的一致性等，并进行相应的处理，为后续的特征工程和模型训练提供可靠的数据基础。

- 模型训练和评估过程中的数据质量监测：在模型训练和评估过程中，Deequ可以持续监测数据的质量，确保训练数据和测试数据的分布一致，数据的质量符合模型的要求。通过对数据质量的实时监测，可以及时发现数据质量问题对模型性能的影响，并采取相应的措施进行调整和优化，提高机器学习模型的性能和稳定性。

5.金融行业

- 风险评估和信用评级：金融机构在进行风险评估和信用评级时，需要依赖大量的高质量数据。Deequ可以用于检查和确保这些数据的质量，如客户的基本信息、财务数据、交易记录等的完整性和准确性。通过对数据质量的严格把控，提高风险评估和信用评级的准确性，降低金融风险。

- 合规性检查：金融行业对数据的合规性有着严格的要求，Deequ可以帮助金融机构检查数据是否符合相关的法规和监管要求。例如，检查数据的隐私保护措施是否到位，数据的使用是否符合合规性要求等，确保金融机构在数据处理和使用过程中的合规性，避免因数据违规而带来的法律风险。

6.电子商务行业

- 订单数据处理：在电子商务企业中，订单数据的准确性和及时性对于业务的正常运营至关重要。Deequ可以用于检查订单数据的完整性，如订单号、客户信息、商品信息、订单金额等是否完整准确，确保订单数据在处理过程中的质量，避免因订单数据错误而导致的业务问题。

- 用户行为数据分析：电子商务企业通过分析用户行为数据来了解用户需求、优化营销策略等。Deequ可以对用户行为数据进行质量检查，如用户的浏览记录、购买记录、搜索记录等数据的准确性和一致性。通过确保用户行为数据的质量，提高数据分析的准确性和可靠性，为企业的决策提供有力支持。

点赞数：11