验证对象
- 用户基本信息
- 主要是用户基本信息,如年龄、性别、学历、职业、收入、资产、婚否、是否有房、是否有车等;
- 用户行为画像
- 基于互联网业务,此处的用户行为主要指用户的消费行为;
- 如品类偏好、下单预测、分期意愿等;
- 用户分群画像
- 此类画像基于统计方法(聚类)将同类型用户划为一类,根据不同业务需求,群体特征也不尽相同。
验证思路
- 用户基本信息 & 用户行为画像
- 常用的模型指标验证主要用户前两类画像的验证,通用的包括:
- AUC
- K-S
- F1
- ROC
- Confusion Matrix
- Precision
- Recall
- 具体参考文章:https://zhuanlan.zhihu.com/p/46714763。
- 常用的模型指标验证主要用户前两类画像的验证,通用的包括:
- 用户分群画像
- 对于第三类基于聚类的用户画像没有较常用的验证指标;
- 通常情况下,聚类效果图不能很好的说明问题,还需结合业务及每个群体用户覆盖度进行相应调整,最后的验证通常也是基于事后的业务反馈效果。
事中验证
- 抽样验证
- 千万级甚至上亿级用户,不可能一一验证;
- 这种情况下可以采取分层抽样验证或随机抽样验证。
- 缺陷:
- 由于抽样验证的数据量相对较小,因此说服度不高。
- 交叉验证
- 画像类的指标间会存在一些相关性,此时可进行交叉验证。
- 例如:
- 收入与资产存在一定的相关性,通常收入越高资产也会越高;
- 此时就可用这两个画像评分进行交叉验证。
- 如果公司购买的第三方机构数据也有相应的画像指标,也可用于参考进行交叉验证
事后验证
- 真实数据验证
- 画像信息会随着业务的发展及产品的运维从无到有慢慢积累;
- 可以用真实数据用于验证画像类指标,这种方法是最准确的;
- 验证方法主要看业务反馈排序、与画像模型排序模型是否呈现单调性。
- 示例:
- 如上图:
- Level1-Level10 预测概率等级呈降序,即 level1 概率最高,level10 概率最低;
- 基于用户画像指标(下单预测概率模型)将用户划分为十个等级。
- 实际业务中,会从每个level随机抽一部分用户用于营销,而后根据实际情况(即下单率)来检测画像模型排序能力;
- 上图中,下单率与画像模型排序呈现严格单调性,因此就业务角度而言该画像是有效的,能用于业务并对业务起到一定提升作用。
- 如果不单调,则需要考虑是否需求进一步优化画像模型。
- 如上图:
- A/B Test
- 最常用的验证方法,一般基于用户画像制定的策略在上线时都会进行严格的对比试验,以测试画像的准确性。
- 示例:
- 下图为一组对比试验,假设纵轴为用户响应率,横轴为营销活动开始时间;
- 可以看出实验组的效果优于对照组,因此该画像可认为相对准确。
