1. 标签规范
1.1. 规范对象
- 标签编码
- 标签命名
- 标签描述(定义)
- 标签计算逻辑
- 标签取值规则
- 更新周期
- 安全等级
- 物理存储信息
- 标签负责人
- 开发时间(版本)
1.2. 规范内容
- 格式规范
- 用词规范
- 内容规范
- 取值规范
1.3. 标签分类
- 主分类标签
- 一级标签
- 二级标签
- 三级标签
- 业务标签
- 四级标签
- 属性标签
- 五级标签
2. 标签编码

- 标签主题:
- 用于刻画属于那种类型的标签,如用户属性、用户行为、用户消费、风险控制等多种类型,可用A、B、C、D等 字母表示各标签主题;
- 标签类型:
- 标签类型可划为分类型和统计型这两种类型,其中分类型用于刻画用户属于哪种类型,如是男是女、是否是会员、 是否已流失等标签,统计型标签用于刻画统计用户的某些行为次数,如历史购买金额、优惠券使用次数、近30日登陆次数等 标签,这类标签都需要对应一个用户相应行为的权重次数;
- 开发方式:
- 开发方式可分为直接统计型开发和算法预测型开发两大开发方式。其中:
- 直接统计型开发,可直接从数据仓库中各主题表建模加工而成;
- 算法预测型开发,需要对数据做机器学习的算法处理得到相应的标签;
- 开发方式可分为直接统计型开发和算法预测型开发两大开发方式。其中:
- 是否互斥标签:
- 对应同一级类目下(如一级标签、二级标签),各标签之间的关系是否为互斥,可将标签划分为互斥关系和 非互斥关系。例如对于男、女标签就是互斥关系,同一个用户不是被打上男性标签就是女性标签,对于高活跃、中活跃、低 活跃标签也是互斥关系;
- 用户唯一标识:
- 用于刻画该标签是打在用户唯一标识(userid)上,还是打在用户使用的设备(cookieid)上。可用U、C等字 母分别标识 userid 和 cookieid 维度。
3. 标签命名
3.1. 原子类标签命名
-
【业务主题】+【原子指标】+【场景】+【时空修饰词】
- 业务主题:
- 商品类目:
- 例如:电子产品类目、服装类目;
- 流量渠道:
- 例如:小红书、抖音直播、天猫旗舰店等;
- 业务内容:
- 例如:客户投诉、供应链、仓储等;
- 用户对象:
- 例如:VIP 用户、新客户、流失客户等;
- 商品类目:
- 原子指标:
- 基础属性类标签;
- 场景:
- 如:电商交易、线下交易、门店零售交易、批发交易等;
- 时空修饰词:
- 时间维度:
- 最近一天、最近一周、最近一月等;
- 空间维度:
- 主城区、一线城市、华东区域、大中华区域等;
- 时间维度:
3.2. 统计类标签命名
-
【业务主题】+【原子指标】+【场景】+【时空修饰词】+【统计计算方法】+【可选修饰词】
- 统计计算方法:
- 例如:总和、平均值、最大值等;
- 可选修饰词:
- 自定义修饰内容;
3.3. 预测类标签
-
【业务主题】+【原子指标】+【场景】+【时空修饰词】+【预测内容】+【预测方法】+【可选修饰词】
- 预测内容:
- 例如:性格类型、消费能力、动漫喜好度、冲动消费偏好类型等;
- 预测方法:
- 例如:算法模型(逻辑回归)等;
4. 标签描述(定义)
4.1. 包含内容
- 标签含义;
- 业务场景;
- 适用范围;
- 取值规则;
4.2. 撰写原则
- 原则:
- 详细描述标签的含义;
- 宜繁不宜简;
- 防止出现:
- 歧义、模糊、多义;
5. 标签计算逻辑
5.1. 统计类标签计算逻辑
- 函数;
- 计算公式;
- 统计方法;
5.2. 规则类标签计算逻辑
- 统计规则;
- 计算公式;
- 正则表达式;
- 条件判断逻辑;
- 阈值分段设定规则;
5.3. 预测类标签计算逻辑
- 重要特征项;
- 正负样本定义;
- 学习样本;
- 模型选型;
- 模型结构;
- 模型输出结果形式;
- 预测结果性能指标。
6. 标签取值
6.1. 标签取值类型
- 整数
- 浮点数
- 文本
- 日期、
- 枚举、
- K-V 等;
6.2. 标签取值字典
- 各种可能取值的枚举
- 例如:
- 性别取值:男、女;
- 消费能力取值:低、中、高;
7. 更新周期
- 每 1 小时;
- 每 6 小时;
- 每 12 小时;
- 每 1 天;
- 每 7 天;
- 每 15 天;
- 每 1 月;
- 每 3 月;
- 每 6 月;
8. 使用权限
8.1. 部门 & 人员权限
- 明确可以查看标签的部门、人员角色;
- 无权限的用户,不得获取、查看相关数据;
8.2. 安全等级
- 明确安全等级,根据安全等级划分用户权限;
9. 物理存储信息
9.1. 标签映射表
-
需要创建标签与物理表字段的标签映射表;
-
标签映射内容:
- 表名
- 字段名
9.2. 标签映射生成方式
- 自动生成:
- 最好是创建标签时、系统自动生成;
- 手动回填:
- 也可以在开发后工程师回填,但容易出现问题;
10. 标签负责人
10.1. 业务负责人
- 需求部门接口人,数据的需求方;
- 原始数据的提供人;
10.2. 开发负责人
- 标签开发负责人;
11. 开发时间(版本)
- 标签上线时间/版本,有助于系统更新迭代升级;