数据产品:产品经理手册

数据探查(入职必做)

数据来源

  • 来源系统
    • 如:ERP、金蝶、TMS
  • 来源(维护)单位
    • 如:销售部门、第三方服务商

数据获取方式

  • API
  • JDBC
  • 手工上传

表内容

  • 按分类
    • 事实表
      • 事务事实表
      • 周期快照事实表
      • 累积快照事实表
    • 维度表
    • 统计中间表
      • 如:业务部门手工计算后汇总的销售数据;
  • 按问题
    • 脏数据
    • 缺失值
    • 重复数据
    • 异常数据

抽取方式

  • 全量同步
  • 增量同步

数据统计

  • 总量
    • 总大小
    • 总库数
    • 总表数
  • 增量
    • 周增量
    • 历史每月增量
  • 大表
    • 总数
      • 条数
      • 大小
    • 周增量
      • 条数
      • 大小
    • 重要日期数据量
      • 如:
        • 618
        • 双十一
        • 双十二
        • 女生节
        • 情人节
        • 春节
      • 单日条数
      • 当周条数
      • 环比增长
    • 分区逻辑

需求梳理

功能模块

  • 重要性
    • 核心功能
    • 次要功能
  • 实现难度
    • 简单功能
    • 复杂功能
  • 紧急度
    • 紧急需求
    • 不紧急需求

指标拆解

  • 一级指标
  • 二级指标
  • 三级指标
  • 四级指标

需求方

  • 组织
    • 部门
    • 上下级部门
    • 部门间业务协作关系
  • 人员
    • 接口人
    • 部门 leader
    • 大领导
    • 人员角色关系

重叠需求

  • 即:
    • 其他部门是否有相同需求内容;
    • 货是否与其他部门需求有重叠内容;
  • 重叠部门
  • 重叠内容
    • 重叠数据
    • 重叠指标
    • 重叠逻辑
  • 整合思路

源数据

  • 获取方式
    • API
    • JDBC
    • 手工导入
      • 字段类型
      • 字段长度
      • 上传频率
      • 上传时间
      • 易出错字段
  • 唯一标识
    • 唯一键
    • 联合唯一键
  • 数据更新频率
    • 日 \ 周 \ 月 \ 年
  • 数据维护部门
  • 数据维护人员

处理逻辑

  • 统计口径
  • 所需字段
  • 注意:
    • 每个指标对应一套逻辑

更新频率

  • 每 小时 \ 日 \ 周 更新一次
  • 注意:
    • 更新频率需要的计算资源是否扛得住;
    • 注意节日大促前,提前测试计算资源可靠性;

版本

  • 所属版本号,例如:v1.1
  • 注意:
    • 保留历史版本信息,以方便后续溯源;

ETL / 数仓

源表

  • 审计字段
    • create_time
    • update_time

ODS 层表

  • 审计字段
    • create_time
    • update_time

数据同步

  • 全量同步
  • 增量同步
    • 增量同步逻辑

数据对账

  • 对账逻辑
  • 例如:
    • 日增量同步,检查今天零点前的数据量是否一致;
    • 全量数据,检查全表数据量是否一致;

中间表

  • 表字段
  • 可复用字段
  • 复用任务

目标表

  • DWS 表
  • ADS 宽表

数仓分层

  • ODS
  • DW
    • DWD
    • DWM
    • DWS
  • ADS

任务依赖

  • 上下游依赖关系
  • 是否存在参数传递

任务调度

  • 任务时间
  • 任务频率

数据分析

分析思路

  • 根据具体业务逻辑、统计口径设计,此处不赘述;
  • 基于 DWS 层宽表数据展开;
  • 数据分析任务,在 ETL 中配置好依赖关系和调度逻辑;

统计工具

  • SQL
  • Python
  • R

数据产品

可视化产品

  • BI
  • 报表

数据服务

  • 例如:
    • 为用户画像提供标签数据服务;
  • API
  • JDBC