用户画像:用户画像系统简介

1. 什么是用户画像

  • 用户画像,也可称标签模型,是对用户信息的标签化过程;
    • 收集用户的多维度数据,对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘数据潜在价值,从而抽象出用户的信息全貌。
  • 标签化过程:
    • 信息 > 文本 > 数据 > 标签

2. 用户标签包括那些内容

2.1. 按照维度划分

  • 自然属性
  • 社会属性
  • 行为习惯
  • 购买能力
  • 消费习惯
  • 偏好特征 / 兴趣爱好

2.2. 按照层级划分

2.3. 按照生成方式划分

  • 统计类指标
    • 又叫:事实标签
    • 可以直接提取
      • 包括一些基本信息,比如:年龄、性别、城市、职业等
    • 也可以从用户数据、行为数据、消费数据中统计得出
      • 这些标签来自基于行为数据的统计信息,比如:1日登录次数、7日登录次数、7日下单次数等
    • 这类标签,构成了用户画像的基础
  • 规则类标签
    • 又叫:建模标签
    • 在统计指标基础上通过规则生成,是对统计类指标的有效补充
    • 需要基于用户行为自定义规则
      • 比如:
        • 活跃用户,定义规则为每天登录一次以上的用户
        • 高净值用户,消费总额在某个阈值以上
    • 在开发过程中,运营人员对业务更熟悉,数据维护人员对数据结构、分布、特征更熟悉,所以多数时候由运营人员和数据人员共同搭建维护;
  • 预测类标签
    • 又叫:机器学习标签
    • 是非确定性标签(前两项都属于确定性标签)
    • 需要基于已有的信息“预测”用户特征,需要挖掘才能获得
    • 实际开发过程中,这类项目开发周期长、成本高,属于探索性项目
      • 有些公司使用外包人员、手动打标签,效果可能会更好、而且投入也很低

3. 用户画像的价值是什么

3.1. 业务决策

  • 定位用户人群
    • 聚焦目标用户
  • 统计指标展示
    • 排名统计
    • 地域分析
    • 特征分析
    • 行业趋势
    • 竞品分析
    • 等等

3.2. 精准营销 / 圈人服务

  • 定向推送
    • 邮件、短信、APP
  • 定点推送
    • 站外广告
    • 站内广告

3.3. 个性化服务

  • 个性化推荐
  • 个性化搜索

3.4. 用户研究

  • 挖掘用户特征
  • 多维度用户分析

4. 用户画像系统的数据流向

5. 用户画像项目团队及协作

  • 运营经理 / 业务产品经理
  • 数据产品经理
  • 数仓工程师
    • 数仓模型搭建
  • 算法工程师
    • 算法模型建设
  • 后端工程师
    • 系统功能模块建设
  • 测试人员
    • 数据测试
    • 功能测试

6. 用户画像项目技术栈

6.1. 数据开发

  • Spark
  • Flink

6.2. 数据存储 & 查询

  • Hbase
  • Hive
  • MySQL

6.3. 流式计算

  • Kafka
  • Spark Streaming

6.4. 作业调度

  • Crontab
  • Airflow

6.5. 开发语言

  • Scala
    • 标签的复杂计算
    • Spark Streaming
  • Hive SQL
  • Python
    • 监控脚本
    • 调度流
  • Shell

7. 用户画像项目开发流程

7.1. 需求调研

  • 业务需求分析
  • 数据盘点
  • 竞品调研
  • 输出:《产品用户画像需求文档》,明确应用场景、标签内容、应用方式等;

7.2. 产品设计

  • 业务架构
  • 产品架构
  • 标签体系设计
  • 画像系统功能
  • 产品版本计划
  • 输出:《产品用户画像产品规划文档》,明确应用方式、标签模型、功能模块、UI/Demo等;

7.3. 技术规划

  • 目标解读
  • 任务分解
  • 技术方案选型
  • 标签数据落表
    • 逻辑模型
    • 数据字典
    • 血缘关系
    • 标签权重
  • 数据采集体系规划
  • One ID(主要在多平台场景)设计
  • 项目计划 & 开发流程
  • 输出:《产品用户画像技术规划文档》,明确技术选型、方案设计、开发计划、数据库表等;

7.4. 技术开发

  • 用户建模
    • 确定要提取的用户特征维度
  • 数据采集
    • 读取需要的数据,统计存放到数据仓库
  • 数据清洗
    • 通常直接在 hive 中进行,包括统计类标签的生成
  • 模型训练
    • 对于无法直接得到的标签,建立模型进行训练
  • 属性预测
    • 利用训练得到的模型,和用户的已知特征,预测未知特征,同时不断优化模型
  • 标签落表
    • 特征选取 & 标签数据落表
  • 数据合并
    • 把多数据源提取的特征进行合并
  • 数据分发 / 接口封装
    • 对于合并后的结果数据,分发到各个平台,为业务提供支撑

7.5. 灰度测试

  • 线下模型数据测试
  • 线上灰度测试

7.3. 运营反馈

  • 线上模型发布
  • A/B 测试
  • 效果追踪
  • 模型修正

7.6. 项目评审四个关键点

  • 立项评审
  • 需求评审
  • 提测演示
  • 产品发布验收