用户画像:标签模型的设计规范

1. 标签规范

1.1. 规范对象

  • 标签编码
  • 标签命名
  • 标签描述(定义)
  • 标签计算逻辑
  • 标签取值规则
  • 更新周期
  • 安全等级
  • 物理存储信息
  • 标签负责人
  • 开发时间(版本)

1.2. 规范内容

  • 格式规范
  • 用词规范
  • 内容规范
  • 取值规范

1.3. 标签分类

  • 主分类标签
    • 一级标签
    • 二级标签
    • 三级标签
  • 业务标签
    • 四级标签
  • 属性标签
    • 五级标签

2. 标签编码

  • 标签主题:
    • 用于刻画属于那种类型的标签,如用户属性、用户行为、用户消费、风险控制等多种类型,可用A、B、C、D等 字母表示各标签主题;
  • 标签类型:
    • 标签类型可划为分类型和统计型这两种类型,其中分类型用于刻画用户属于哪种类型,如是男是女、是否是会员、 是否已流失等标签,统计型标签用于刻画统计用户的某些行为次数,如历史购买金额、优惠券使用次数、近30日登陆次数等 标签,这类标签都需要对应一个用户相应行为的权重次数;
  • 开发方式:
    • 开发方式可分为直接统计型开发和算法预测型开发两大开发方式。其中:
      • 直接统计型开发,可直接从数据仓库中各主题表建模加工而成;
      • 算法预测型开发,需要对数据做机器学习的算法处理得到相应的标签;
  • 是否互斥标签:
    • 对应同一级类目下(如一级标签、二级标签),各标签之间的关系是否为互斥,可将标签划分为互斥关系和 非互斥关系。例如对于男、女标签就是互斥关系,同一个用户不是被打上男性标签就是女性标签,对于高活跃、中活跃、低 活跃标签也是互斥关系;
  • 用户唯一标识:
    • 用于刻画该标签是打在用户唯一标识(userid)上,还是打在用户使用的设备(cookieid)上。可用U、C等字 母分别标识 userid 和 cookieid 维度。

3. 标签命名

3.1. 原子类标签命名

  • 【业务主题】+【原子指标】+【场景】+【时空修饰词】

  • 业务主题:
    • 商品类目:
      • 例如:电子产品类目、服装类目;
    • 流量渠道:
      • 例如:小红书、抖音直播、天猫旗舰店等;
    • 业务内容:
      • 例如:客户投诉、供应链、仓储等;
    • 用户对象:
      • 例如:VIP 用户、新客户、流失客户等;
  • 原子指标:
    • 基础属性类标签;
  • 场景:
    • 如:电商交易、线下交易、门店零售交易、批发交易等;
  • 时空修饰词:
    • 时间维度:
      • 最近一天、最近一周、最近一月等;
    • 空间维度:
      • 主城区、一线城市、华东区域、大中华区域等;

3.2. 统计类标签命名

  • 【业务主题】+【原子指标】+【场景】+【时空修饰词】+【统计计算方法】+【可选修饰词】

  • 统计计算方法:
    • 例如:总和、平均值、最大值等;
  • 可选修饰词:
    • 自定义修饰内容;

3.3. 预测类标签

  • 【业务主题】+【原子指标】+【场景】+【时空修饰词】+【预测内容】+【预测方法】+【可选修饰词】

  • 预测内容:
    • 例如:性格类型、消费能力、动漫喜好度、冲动消费偏好类型等;
  • 预测方法:
    • 例如:算法模型(逻辑回归)等;

4. 标签描述(定义)

4.1. 包含内容

  • 标签含义;
  • 业务场景;
  • 适用范围;
  • 取值规则;

4.2. 撰写原则

  • 原则:
    • 详细描述标签的含义;
    • 宜繁不宜简;
  • 防止出现:
    • 歧义、模糊、多义;

5. 标签计算逻辑

5.1. 统计类标签计算逻辑

  • 函数;
  • 计算公式;
  • 统计方法;

5.2. 规则类标签计算逻辑

  • 统计规则;
  • 计算公式;
  • 正则表达式;
  • 条件判断逻辑;
  • 阈值分段设定规则;

5.3. 预测类标签计算逻辑

  • 重要特征项;
  • 正负样本定义;
  • 学习样本;
  • 模型选型;
  • 模型结构;
  • 模型输出结果形式;
  • 预测结果性能指标。

6. 标签取值

6.1. 标签取值类型

  • 整数
  • 浮点数
  • 文本
  • 日期、
  • 枚举、
  • K-V 等;

6.2. 标签取值字典

  • 各种可能取值的枚举
  • 例如:
    • 性别取值:男、女;
    • 消费能力取值:低、中、高;

7. 更新周期

  • 每 1 小时;
  • 每 6 小时;
  • 每 12 小时;
  • 每 1 天;
  • 每 7 天;
  • 每 15 天;
  • 每 1 月;
  • 每 3 月;
  • 每 6 月;

8. 使用权限

8.1. 部门 & 人员权限

  • 明确可以查看标签的部门、人员角色;
  • 无权限的用户,不得获取、查看相关数据;

8.2. 安全等级

  • 明确安全等级,根据安全等级划分用户权限;

9. 物理存储信息

9.1. 标签映射表

  • 需要创建标签与物理表字段的标签映射表;

  • 标签映射内容:

    • 表名
    • 字段名

9.2. 标签映射生成方式

  • 自动生成:
    • 最好是创建标签时、系统自动生成;
  • 手动回填:
    • 也可以在开发后工程师回填,但容易出现问题;

10. 标签负责人

10.1. 业务负责人

  • 需求部门接口人,数据的需求方;
  • 原始数据的提供人;

10.2. 开发负责人

  • 标签开发负责人;

11. 开发时间(版本)

  • 标签上线时间/版本,有助于系统更新迭代升级;