用户画像：如何验证用户画像的准确性

用户基本信息 & 用户行为画像
- 常用的模型指标验证主要用户前两类画像的验证，通用的包括：
  - AUC
  - K-S
  - F1
  - ROC
  - Confusion Matrix
  - Precision
  - Recall
- 具体参考文章：https://zhuanlan.zhihu.com/p/46714763。
用户分群画像
- 对于第三类基于聚类的用户画像没有较常用的验证指标；
- 通常情况下，聚类效果图不能很好的说明问题，还需结合业务及每个群体用户覆盖度进行相应调整，最后的验证通常也是基于事后的业务反馈效果。

抽样验证
- 千万级甚至上亿级用户，不可能一一验证；
- 这种情况下可以采取分层抽样验证或随机抽样验证。
- 缺陷：
  - 由于抽样验证的数据量相对较小，因此说服度不高。
交叉验证
- 画像类的指标间会存在一些相关性，此时可进行交叉验证。
- 例如：
  - 收入与资产存在一定的相关性，通常收入越高资产也会越高；
  - 此时就可用这两个画像评分进行交叉验证。
- 如果公司购买的第三方机构数据也有相应的画像指标，也可用于参考进行交叉验证

真实数据验证
- 画像信息会随着业务的发展及产品的运维从无到有慢慢积累；
- 可以用真实数据用于验证画像类指标，这种方法是最准确的；
- 验证方法主要看业务反馈排序、与画像模型排序模型是否呈现单调性。
- 示例：
  - 如上图：
    - Level1-Level10 预测概率等级呈降序，即 level1 概率最高，level10 概率最低；
    - 基于用户画像指标（下单预测概率模型）将用户划分为十个等级。
  - 实际业务中，会从每个level随机抽一部分用户用于营销，而后根据实际情况（即下单率）来检测画像模型排序能力；
  - 上图中，下单率与画像模型排序呈现严格单调性，因此就业务角度而言该画像是有效的，能用于业务并对业务起到一定提升作用。
  - 如果不单调，则需要考虑是否需求进一步优化画像模型。
A/B Test
- 最常用的验证方法，一般基于用户画像制定的策略在上线时都会进行严格的对比试验，以测试画像的准确性。
- 示例：
  - 下图为一组对比试验，假设纵轴为用户响应率，横轴为营销活动开始时间；
  - 可以看出实验组的效果优于对照组，因此该画像可认为相对准确。