1. 什么是数据治理
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。
-
数据治理是一套管理机制,技术工具只是实现这套机制的载体。
- 数据架构组织;
- 数据模型;
- 制度规范;
- 技术工具;
- 数据标准;
- 数据质量;
- 影响度分析;
- 作业流程;
- 监督考核;
2. 为什么需要数据治理
- 表数量越来越多;
- 历史数据庞大、复杂;
- 表关系不清晰;
- 相似的表越来越多;
- 数据模型扩展性差,新增一个业务就要建新表;
- 数据处理过程,越来越复杂;
- 缺乏数据标准;
- 表字段命名随意,定义混乱;
- 同一个英文字段对应多个中文名;
- 同一个中文名对应多个英文字段;
- 同一个业务元素,对应多重数据类型、长度;
- 表字段命名随意,定义混乱;
- 数据质量差
- 无法规避错误数据出现;
- 出现错误后发现不及时;
- 数据处理流程没有检测机制,导致更多连锁性错误;
- 数据资产分散,共享性差;
- DB、数据模型、应用程序、数据标准、数据质量信息分散管理;
- 企业数据资产无法集中管理和展现,数据共享性差;
- 管理体系不完善,落地实施差;
- 管理角色分工不清晰;
- 管理工具易用性差;
- 管理和运维操作复杂;
- 表结构变更、系统改造时,对应用的影响无法评估;
3. 数据治理包含哪些内容
- 元数据管理
- 血缘关系
- 影响分析
-
主数据管理
- 数据统一存储
- 数据库管理
- 数据地图
- 主数据管理
- 核心是人、财、物;
- 主数据是企业最关系的、最核心的数据,对数据准确性要求极高;
- 在系统之间的关系图中,主数据通常处于正中位置,外围系统通过主数据进行共享和交互;
-
数据集成管理
- 数据标准管理
- 数据标准化;
- 单词;
- 域;
- 用语;
- 标准编码;
- 数据字典
- 标准用语
- 命名规则
- 流程标准化;
- 数据标准化;
- 数据质量管理
- 完整性
- 关注数据不丢失、数据可用;
- 规范性
- 统一存储格式;
- 一致性
- 数据的值在信息含义上不能有冲突;
- 准确性
- 业务规则,度量哪些数据和信息是不正确的,或者超预期;
- 唯一性
- 度量哪些数据是重复的、或者数据的那些属性是重复的;
- 关联性
- 度量哪些关联的数据确实、或未建立索引;
- 完整性
- 数据资产管理
- 数据开放共享
- 监控与报告
- 数据权限 & 安全
4. 数据治理涉及的范畴
4.1. 组织架构
- 从理论和国外实践来看,大型企业会建立企业级数据治理委员会,业务部门领导、IT部门领导共同参与。
- 在企业级之下,还可以有部门级、项目级的委员会,负责某些局部的数据治理;
- 在最基层面向某一个业务领域,应该有相应的数据管理专员(Data Steward)。
4.2. 数据架构
- 数据架构,包括了数据模型(概念模型、逻辑模型)以及数据的流转关系;
- 一般在企业级和系统级会谈数据架构,主要对企业数据的分类、分布和流转进行规划、设计;
- 目的是确保新建系统、新建应用能够与现有系统保持一致和融合,避免产生信息孤岛,或者带来重复不必要的数据集成、数据转换。
4.3. 数据标准
- 数据标准,包括了数据项、参考数据、指标等不同形式的标准;
- 举例来说,“客户类型”是一个数据项,应该有统一的业务含义,将客户归类为大客户、一般客户的规则是什么,数据项的取值是几位长度,有哪些有效值(如 01,02,03)等。
4.4. 数据质量
- 数据质量,包括数据质量规则以及稽核模型(即规则的组合应用);
- 准确性:
- 数据不正确或描述对象过期
- 合规性:
- 数据是否以非标准格式存储
- 完备性:
- 数据不存在
- 及时性:
- 关键数据是否能够及时传递到目标位置
- 一致性:
- 数据冲突
- 重复性:
- 记录了重复数据
4.5. 治理工具
- 数据中台 / 数据管理平台