数据探查(入职必做)
数据来源
- 来源系统
- 如:ERP、金蝶、TMS
- 来源(维护)单位
- 如:销售部门、第三方服务商
数据获取方式
- API
- JDBC
- 手工上传
表内容
- 按分类
- 事实表
- 事务事实表
- 周期快照事实表
- 累积快照事实表
- 维度表
- 统计中间表
- 如:业务部门手工计算后汇总的销售数据;
- 事实表
- 按问题
- 脏数据
- 缺失值
- 重复数据
- 异常数据
抽取方式
- 全量同步
- 增量同步
数据统计
- 总量
- 总大小
- 总库数
- 总表数
- 增量
- 周增量
- 历史每月增量
- 大表
- 总数
- 条数
- 大小
- 周增量
- 条数
- 大小
- 重要日期数据量
- 如:
- 618
- 双十一
- 双十二
- 女生节
- 情人节
- 春节
- 单日条数
- 当周条数
- 环比增长
- 如:
- 分区逻辑
- 总数
需求梳理
功能模块
- 重要性
- 核心功能
- 次要功能
- 实现难度
- 简单功能
- 复杂功能
- 紧急度
- 紧急需求
- 不紧急需求
指标拆解
- 一级指标
- 二级指标
- 三级指标
- 四级指标
需求方
- 组织
- 部门
- 上下级部门
- 部门间业务协作关系
- 人员
- 接口人
- 部门 leader
- 大领导
- 人员角色关系
重叠需求
- 即:
- 其他部门是否有相同需求内容;
- 货是否与其他部门需求有重叠内容;
- 重叠部门
- 重叠内容
- 重叠数据
- 重叠指标
- 重叠逻辑
- 整合思路
源数据
- 获取方式
- API
- JDBC
- 手工导入
- 字段类型
- 字段长度
- 上传频率
- 上传时间
- 易出错字段
- 唯一标识
- 唯一键
- 联合唯一键
- 数据更新频率
- 日 \ 周 \ 月 \ 年
- 数据维护部门
- 数据维护人员
处理逻辑
- 统计口径
- 所需字段
- 注意:
- 每个指标对应一套逻辑
更新频率
- 每 小时 \ 日 \ 周 更新一次
- 注意:
- 更新频率需要的计算资源是否扛得住;
- 注意节日大促前,提前测试计算资源可靠性;
版本
- 所属版本号,例如:v1.1
- 注意:
- 保留历史版本信息,以方便后续溯源;
ETL / 数仓
源表
- 审计字段
- create_time
- update_time
ODS 层表
- 审计字段
- create_time
- update_time
数据同步
- 全量同步
- 增量同步
- 增量同步逻辑
数据对账
- 对账逻辑
- 例如:
- 日增量同步,检查今天零点前的数据量是否一致;
- 全量数据,检查全表数据量是否一致;
中间表
- 表字段
- 可复用字段
- 复用任务
目标表
- DWS 表
- ADS 宽表
数仓分层
- ODS
- DW
- DWD
- DWM
- DWS
- ADS
任务依赖
- 上下游依赖关系
- 是否存在参数传递
任务调度
- 任务时间
- 任务频率
数据分析
分析思路
- 根据具体业务逻辑、统计口径设计,此处不赘述;
- 基于 DWS 层宽表数据展开;
- 数据分析任务,在 ETL 中配置好依赖关系和调度逻辑;
统计工具
- SQL
- Python
- R
- 等
数据产品
可视化产品
- BI
- 报表
数据服务
- 例如:
- 为用户画像提供标签数据服务;
- API
- JDBC