符合业务目标的数据战略建设

数据血缘元模型:架起业务与技术的桥梁

在当今数据驱动的商业环境中,数据血缘(Data Lineage)已成为确保数据透明性、可追溯性和合规性的关键工具。数据血缘不仅帮助组织理解数据的来源、流转和变化,还为数据治理、数据质量管理、审计和业务决策提供了坚实的基础。本文将深入探讨数据血缘元模型的结构,从业务层到物理层,逐层解析其核心组件和逻辑,并结合实际应用场景,帮助读者全面掌握数据血缘的构建与应用。

一、数据血缘元模型的结构

数据血缘元模型是描述数据血缘模型的元数据框架,它通过不同抽象层(业务层、概念层、逻辑层和物理层)来记录数据的流转路径。每个层次都有其独特的组件和元数据元素,共同构成了完整的数据血缘体系。数据血缘元模型的核心目标是通过分层结构,确保数据从业务需求到技术实现的完整映射,从而支持数据的全生命周期管理。

微信图片_20250225144234.png

数据血缘元模型的结构

■ 业务层

业务层是数据血缘的起点,其核心是满足业务利益相关者的需求。业务层的主要任务是将业务需求与数据流转路径进行映射,确保数据的业务价值得以体现。业务层的主要组件包括:

  • 业务能力:业务能力描述了组织的核心能力,描述业务能力的两个元数据是:业务能力层次、实现维度;业务能力层次分为战略能力、核心能力和支持能力;而流程、工具、角色及数据等可以实现业务能力。
  • 流程:流程是实现业务能力的具体活动,可以分解为子流程或活动链,通过使用流程来记录业务、技术和操作元数据。
  • 角色:在数据血缘场景中,角色可以分配给各种对象,例如组织、特定人员和IT系统/应用程序。
  • 业务主题域(数据):业务主题域是描绘业务能力所需数据的蓝图。以客户管理为例,其业务主题域聚焦于客户数据的方方面面。业务主题域是在最高抽象级别上描述数据的元数据元素。
  • IT资产:对于数据血缘来说,“IT资产”是指IT系统、应用程序、数据库和ETL工具。

微信图片_20250225144412.png

业务层的概念图

在业务层数据血缘组件中,最首要的是业务能力。流程支持一个或多个业务能力,角色和IT资产支持流程的实现,角色使用IT资产完成工作,业务能力定义了业务主题域。

业务层的关键作用:

通过业务能力、流程和角色的映射,明确数据的业务价值。

通过IT资产和业务主题域的定义,确保数据与业务需求的一致性。

■ 概念层

概念层是数据血缘的中间层,其主要任务是定义数据实体及其之间的关系。概念层通过语义模型,确保业务术语和定义的一致性,为逻辑层的数据建模提供清晰的业务上下文。

4edb9775-2aac-4e78-ab5a-0bef3f70676b.png

概念层模型的概念图

概念层包括数据实体和它们之间的关系。业务规则标识了不同数据实体之间的约束。数据实体具有唯一业务术语和相应定义。业务术语和定义在概念层内容中保持唯一。

在概念层中,业务元数据元素描述数据血缘的组件,包括:

  • 所有者
  • 所有者是负责描述和维护组件的角色。
  • 创建、修改、删除日期
  • 表示对象生命周期的阶段状态
  • 关系类型

概念层的核心价值:

  • 通过语义模型,解决传统概念模型在业务术语和定义上的不足。
  • 为逻辑层的数据建模提供清晰的业务上下文。

■ 逻辑层

逻辑层是数据血缘的核心建模层,其主要任务是将概念层的数据实体和业务规则转化为具体的数据模型。逻辑层通过定义数据实体、数据属性和业务规则,确保数据的准确性和一致性。逻辑层主要包括以下组件:

  • 数据实体:是逻辑数据模型中的元数据对象,用于标识、描述或度量业务主题如客户、订单等。
  • 数据属性:是逻辑数据模型中的元数据组件,用于标识、描述或度量数据实体。如客户姓名、订单金额等。
  • 数据元素:数据元素是一个“在语境中不可分割的数据单元”。这意味着数据实体和数据属性在不同语境中都会是数据元素。数据实体是概念业务模型中的数据元素,而数据属性是逻辑模型中的数据元素。

output (2).png

逻辑层的概念图

数据血缘在逻辑层的首要组件是数据实体。一个数据实体有一个或多个数据属性;同一抽象层的数据实体和数据属性相互间有对应关系;业务规则定义了适用于数据元素或数据属性组合的条件和限制;数据实体和数据属性都在具体内容中有唯一业务术语和定义。

在逻辑层中,业务元数据和技术元数据都可以描述数据血缘的组件:

  • 业务元数据:逻辑模型本身就是元数据对象,因此对于逻辑模型及组成它的元数据对象,都需要记录其所有者。
  • 技术元数据:根据DAMA-DMBOK2(31),应将以下元数据元素识别为数据属性
    -数据实体或属性的标识符和名称
    -数据值域:这是数据元素的所有允许值清单。
    -数据类型:数字、日期和时间是数据类型实例。

逻辑层的关键特点:

  • 数据实体和数据属性之间的关系清晰可见。
  • 业务规则定义了数据的转换和验证逻辑,确保数据的准确性和一致性。

■ 物理层

物理层是数据血缘的技术实现层,其主要任务是将逻辑层的数据模型转化为具体的数据库结构和ETL作业。物理模型的关键需求之一是有能将逻辑数据模型和物理数据模型之间的元数据对象连接在一起。例如,如果采用关系数据库,数据实体应对应于一个或多个数据表,数据属性对应于一个或多个数据列,如图所示:

微信图片_20250224130221.png

物理层的概念图

各种自动型数据血缘解决方案可能记录各种各样的物理层的元数据组件。例如SAS数据血缘应用程序能记录SAS应用程序中使用的400多个元数据对象,因此,元数据组件、组件间的关系类型,以及描述组件的元数据元素等记录内容,会因企业的实际情况及需要记录的物理层数据血缘的选择而变化。

二、业务规则:数据血缘的核心挑战

业务规则是数据血缘中最复杂的组件之一,其挑战主要体现在:

  • 术语多样性:不同语境下,业务规则的定义和表示方式不同。
  • 层次依赖性:业务规则在概念层、逻辑层和物理层有不同的表现形式。
  • 技术实现:隐式规则(如嵌入程序逻辑的规则)难以记录和分析。

业务规则的分类:

概念层:约束是定义特定数据实体的特征或描述不同数据实体间关系的规范。

逻辑层:根据业务规则目的,至少可以分为两种类型:转换规则和验证规则。

  • 转换规则:数据间的转换规范,定义一个数据属性或一组数据属性应该进行的转换方式,以创建新的数据属性。通常,新创建数据属性的值与原始数据属性的值不同。转换规则的例子有计算、聚合等。
  • 验证规则:一种控制数据属性的值与预定的质量需求间的对应规范。验证规则可以应用于单个数据属性或一组数据属性。

物理层:逻辑层确定的转换或验证规则在物理层转变为用编程语言编写的程序代码。物理层的业务规则可以在(数据链)不同位置上执行,有显式规则和隐式规则两类。隐式业务规则是指那些嵌入在程序逻辑中的业务规则。显式业务规则存储在一个数据库中。

7a55062f-3819-414a-953d-531a0d9a4093.png

业务规则的概念图

三、总结

数据血缘元模型通过业务层、概念层、逻辑层和物理层的逐层细化,为企业提供了全面的数据流转视图。它不仅帮助满足法规需求,还支持业务变更、数据质量管理和审计需求。然而,记录和管理业务规则仍然是数据血缘的最大挑战,需要企业在技术和业务层面投入更多资源。

随着数据技术的不断发展,数据血缘将更加智能化和自动化,为企业提供更高效的数据管理解决方案。未来,数据血缘将不仅仅是数据治理的工具,更将成为企业数字化转型的核心驱动力。

共 1 页 1 条数据