数据治理:元数据的概念详解

1. 元数据的概念

  • 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
  • 元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。
  • 元数据,可以理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如:
    • 数据的所属域
    • 数据取值范围
    • 数据间的关系
    • 业务规则
    • 数据的来源。
  • 元数据相当于企业数据的DNA,它可以告诉开发者,有用的数据在哪里,能提供一份数据结构定义和元素的详细示意图,数据来龙去脉、关系,使应用开发过程更有效,提供数据的参照性、引用性、血缘分析、影响分析、变化分析等。
  • 元数据,是一种进行数据资产的梳理和盘点的有效工具,方便企业对自身内部的数据资产进行管理;
    • 对于 RMDB 库来说,元数据(字典)是属于数据库本身的一些数据,包含数据库名、数据库字符集、表名、表的大小、表的记录行数、表的字符集、表的字段、表的索引、表的描述、字段的类型、字段的精度、字段的描述等。
    • 但要注意:对于来自 information_schema 的数据库内部数据,如表的大小、表的行数可能不是非常精准,仅做数量级的参考。

      注意:业务数据才会有元数据这个概念,系统日志、备份数据是没有元数据这个概念的。

元数据是企业数据资源的应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据战略规划、数据模型设计、数据标准管理、主数据管理、数据质量管理、数据安全管理以及数据的全生命周期管理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。

2. 元数据的种类

  • 技术元数据
  • 业务元数据
  • 操作元数据
  • 管理元数据

3. 技术元数据

3.1. 数据结构

    • 名称
    • 字符集
    • 名称
    • 描述
    • 字符集
    • 行数
    • 容量
  • 字段
    • 名字
    • 类型
    • 是否可空
    • 长度
    • 精度
    • 描述
  • 索引
    • 名字
    • 类型
    • 索引字段
  • Key
    • primary key
    • unique key
  • 可编程对象
    • 名称
    • 类型
  • SQL_MODE

3.2. 数据部署

  • 数据集的物理位置;

3.3. 存储过程

  • SQL 语句集

3.4. 数据依赖

  • 数据流向,ETL规则,数据集之间的依赖关系;

3.5. 质量度量

  • 数据集上可以计算的度量;

3.6. 度量逻辑关系

  • 数据集度量之间的逻辑关系;

3.7. ETL 过程

  • ETL 顺序、并行&串行;

3.8. 数据集快照

  • 某一时间点上,数据在所有数据集上的分布情况;

3.9. 数据模型元数据

  • 事实表、维度、属性、层次;

3.10. 报表语义

  • 报表的指标体系、规则、过滤条件;
  • 物理名称 & 业务名称对应关系;

3.11. 数据访问日志

  • 数据被用户访问的情况;

3.12. 质量稽核日志

  • 何时、哪个度量被稽核;

3.13. 数据装载日志

  • 那些数据、何时、被谁装载;

4. 业务元数据

4.1. 业务域

  • 数据库表的业务域
    • 用户画像标签元数据
    • TODO
  • 所在的项目
  • 所在的集群

4.2. 业务规则

  • 转换规则
  • 计算公式
  • 推导公式等(更多是文档);

4.3. 数据模型

4.4. 数据质量规则和核检结果

4.5. 数据标准

4.6. 数据的安全 & 隐私级别

4.7. 数据使用说明等

5. 操作元数据

  • 批处理的执行日志;
  • 调度异常记录及处理;
  • 报表和查询的访问模式,访问频率和执行时间;
  • 数据产生;
  • 表的访问(查询,关联,聚合等);
  • 字段的访问;
  • 物理表的创建时间,创建人,更新时间,更新人

6. 管理元数据

  • 人员
  • 流程
  • 职责、岗位
  • 组织、部门;