数据治理:数据质量管理

数据质量指标

  • 准确性:
    • 数据不正确或描述对象过期
  • 合规性:
    • 数据是否以非标准格式存储
  • 完备性:
    • 数据不存在
  • 及时性:
    • 关键数据是否能够及时传递到目标位置
  • 一致性:
    • 数据冲突
  • 重复性:
    • 记录了重复数据

质量监控对象

  • 离线报表
  • 准实时报表
  • 实时大盘
  • 数据服务推送
  • 算法依赖
  • 数据分析依赖
  • 其他(ftp file推送、olap下载,业务库数据推送)

数据质量关注的问题

缺省值分析

  • 产生原因:
    • 有些信息暂时无法获取,或者获取信息的代价太大
    • 有些信息是被遗漏的,人为或者信息采集机器故障
    • 属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入
  • 影响:
    • 会丢失大量的有用信息
    • 数据额挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更加难以把握
    • 包含空值的数据回事建模过程陷入混乱,导致不可靠输出
  • 解决办法:
    • 通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。

异常值分析

  • 产生原因:
    • 业务系统检查不充分,导致异常数据输入数据库
  • 影响:
    • 不对异常值进行处理会导致整个分析过程的结果出现很大偏差
  • 解决办法:
    • 可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围。
    • 如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

不一致值分析

  • 产生原因:
    • 不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。
    • 例如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。
  • 影响:
    • 直接对不一致的数据进行数据挖掘,可能会产生与实际相悖的数据挖掘结果。
  • 解决办法:
    • 注意数据抽取的规则,对于业务系统数据变动的控制应该保证数据仓库中数据抽取最新数据

重复数据及特殊数据

  • 产生原因:
    • 业务系统中未进行检查,用户在录入数据时多次保存。或者因为年度数据清理导致。特殊字符主要在输入时携带进入数据库系统。
  • 影响:
    • 统计结果不准确,造成数据仓库中无法统计数据
  • 解决办法:
    • 在ETL过程中过滤这一部分数据,特殊数据进行数据转换

数据质量监控规则

  • 质量监控规则示例
    • 易于漏数据的,做记录条数多少验证或记录数波动大小告警;
    • 稳定的枚举值个数、内容做完整性、包含、不包含等具体枚举值验证;
    • 门店清单完整性比较,如不按时日结完成,打电话告警门店负责人及全集图曝晒;
    • 维度表剔除重复处理;
    • 上游系统 IP 不通配置上游业务系统负责人及 dba 告警电话;
    • 关键字段非空告警监控。
  • 维度表 & 事实表 监控规则示例

数据治理常规检查项

数据异常告警

  • 任务失败电话告警
  • 任务延迟启动电话告警
  • 任务延迟完成电话告警