用户画像：从 Hive 数仓同步标签数据到 HBase

用户画像数仓架构
用户画像系统数仓 ETL 加工流程，是将业务数据、日志数据、埋点数据等经过 ETL 过程，加工到数据仓库对应的 ODS 层、DW 层、DM 层中；
中间的虚线框即为用户画像建模的主要环节，是对基于数据仓库 ODS 层、DW 层、DM 层中与用户相关数据的二次建模加工；
在 ETL 过程中将用户标签计算结果写入 Hive，由于不同数据库有不同的应用场景，后续需要进一步将数据同步到MySQL、HBase、Elasticsearch 等数据库中；

用户画像系统中，Hive 作为数仓、在 ADS 层存储用户标签计算结果；
用户标签数据在 Hive 中加工完成后：
- 一部分标签通过 Sqoop 同步到 MySQL 数据库，提供用于 BI 报表展示的数据、多维透视分析数据、圈人服务数据；
- 另一部分标签同步到HBase数据库用于产品的线上个性化推荐。

因为灌入到 HBase 中的数据一般直接应用到线上，反馈到用户那里；
所以，在hive数据同步 HBase 数据的时候，需要做一些校验机制来保障结果的准确性，防止在同步数据的过程中出现问题；
- 比如：hive 中数据 5000 万条，同步到 HBase 后才 1000 万条；

temp 临时表
- hive 到 HBase 同步数据后，先 HBase 中建立一个 temp 临时表；
- 然后校验 HBase 的这个临时表和对应 hive 表的数量差异；
- 如果在可接受范围内，则将 hbase 的该临时表进行重命名为正式表；
状态表
- hive 到 hbase 同步数据后，直接将数据写入正式表，同时在 hbase 中建立一张状态表，用于标志状态位；
- 当校验 hbase 的这张正式表和 hive 的数量差异在可接受范围内时，写入对应的状态表中；
- 接口请求时，只读取状态位这张表中，最近日期的那张表
  - 如果 hbase 的数据同步异常，不会写入状态表中，也不会影响线上数据的读取；