用户画像:如何验证用户画像的准确性

验证对象

  • 用户基本信息
    • 主要是用户基本信息,如年龄、性别、学历、职业、收入、资产、婚否、是否有房、是否有车等;
  • 用户行为画像
    • 基于互联网业务,此处的用户行为主要指用户的消费行为;
    • 如品类偏好、下单预测、分期意愿等;
  • 用户分群画像
    • 此类画像基于统计方法(聚类)将同类型用户划为一类,根据不同业务需求,群体特征也不尽相同。

验证思路

  • 用户基本信息 & 用户行为画像
    • 常用的模型指标验证主要用户前两类画像的验证,通用的包括:
      • AUC
      • K-S
      • F1
      • ROC
      • Confusion Matrix
      • Precision
      • Recall
    • 具体参考文章:https://zhuanlan.zhihu.com/p/46714763。
  • 用户分群画像
    • 对于第三类基于聚类的用户画像没有较常用的验证指标;
    • 通常情况下,聚类效果图不能很好的说明问题,还需结合业务及每个群体用户覆盖度进行相应调整,最后的验证通常也是基于事后的业务反馈效果。

事中验证

  • 抽样验证
    • 千万级甚至上亿级用户,不可能一一验证;
    • 这种情况下可以采取分层抽样验证或随机抽样验证。
    • 缺陷:
      • 由于抽样验证的数据量相对较小,因此说服度不高。
  • 交叉验证
    • 画像类的指标间会存在一些相关性,此时可进行交叉验证。
    • 例如:
      • 收入与资产存在一定的相关性,通常收入越高资产也会越高;
      • 此时就可用这两个画像评分进行交叉验证。
    • 如果公司购买的第三方机构数据也有相应的画像指标,也可用于参考进行交叉验证

事后验证

  • 真实数据验证
    • 画像信息会随着业务的发展及产品的运维从无到有慢慢积累;
    • 可以用真实数据用于验证画像类指标,这种方法是最准确的;
    • 验证方法主要看业务反馈排序、与画像模型排序模型是否呈现单调性。
    • 示例:
      • 如上图:
        • Level1-Level10 预测概率等级呈降序,即 level1 概率最高,level10 概率最低;
        • 基于用户画像指标(下单预测概率模型)将用户划分为十个等级。
      • 实际业务中,会从每个level随机抽一部分用户用于营销,而后根据实际情况(即下单率)来检测画像模型排序能力;
      • 上图中,下单率与画像模型排序呈现严格单调性,因此就业务角度而言该画像是有效的,能用于业务并对业务起到一定提升作用。
      • 如果不单调,则需要考虑是否需求进一步优化画像模型。
  • A/B Test
    • 最常用的验证方法,一般基于用户画像制定的策略在上线时都会进行严格的对比试验,以测试画像的准确性。
    • 示例:
      • 下图为一组对比试验,假设纵轴为用户响应率,横轴为营销活动开始时间;
      • 可以看出实验组的效果优于对照组,因此该画像可认为相对准确。