dex0423 的博客

记录工作学习的点点滴滴。

Hive：Hive SQL DDL 基本操作

1. Hive 建库创建 database create database test; 查看库文件位置：/user/hive/warehouse 看到 test.db； 2. Hive 表创建 & 删除 2.1. 建表创建表 t_archer create...

HBase：HBase 架构 & 数据模型

1. HBase 架构 1.1. 列式存储关于本节，可参考文章《OLAP：行式存储 & 列式存储》。 1.2. HBase 架构图 1.3. Client 客户端 Client 提供了访问 HBase 的接口； Client 维护了对应的 cache 来加速 HBase 的访问； 1.4. Zookeeper 存储 HBase 的元数据...

HBase：HBase 基本概念详解

1. Hbase 概念 1.1. Hadoop 的局限要查找数据必须搜索整个数据集，如果要进行随机读取数据，效率较低； Hadoop 主要是实现批量数据的处理，并且通过顺序方式访问数据； Hadoop 适合做一些批量数据处理，适用于吞吐量比较高的场景，但是不适用于随机查询、实时操作 1.2. Hbase 定义 HBase 建立...

HBase：HBase vs RDBMS vs HDFS vs Hive

RDBMS vs HBase 关系型数据库结构数据库以表的形式存在支持FAT、NTFS、EXT、文件系统使用主键（PK）通过外部中间件可以支持分库分表，但底层还是单机引擎使用行、列、单元格功能支持向上扩展（买更好的服务器）使用S...

数据埋点：数据埋点的用户模型

用户模型每个用户都需要一个唯一标识。选择一个合适的用户标识，对于用户行为分析的准确性有很大的影响。这里说的唯一标识、是发生事件行为用户id在数据中台的标记，不是业务中的登录id。小程序用户如果是小程序用户，可直接使用用户的 openid，需要上报用户 openid 和 unionid。如果同一个微信开放平台账号下，有多个小程序/公众号，就可以通过 ...

数据埋点：数据埋点的技术方案

开发思路小公司：开源 SDK + 通用存储 + 通用 BI 大公司：开源 SDK + OLAP 引擎 + 自研可视化埋点系统搭建工作流程梳理埋点需求（分析指标体系）制定埋点规则命名的规范化埋点流程统一化制定埋点数据的清...

数据埋点：数据埋点的事件模型

事件模型一个事件的触发，有4个因素：触发者、触发位置、触发的事件、触发的时间。触发者触发者即触发事件的用户；需要一个唯一标识，来识别不同的用户；同时，需要识别在不同平台的同一个用户。触发位置为了识别一个网页里面，事件触发的位置，需要一个页面的唯一标识、和控件的唯一标识；页面的唯一标识 ...

数据埋点：埋点事件的参数字段

用户行为日志埋点参数示例

1. 常见的公共参数 1.1. 环境信息用户信息；用户UID；设备PID；跳入时间；跳出时间；地理位置；设备，品牌、型号、系统；应用，应用版本；渠道，应用下载渠道。 1.2. 页面浏览记录页面信息；页面ID；页面对象； 1.3. 曝光对象广告；推荐；对象类型；对象ID。 ...

SQL：数仓中 INFORMATION_SCHEMA 应用汇总

INFORMATION_SCHEMA 用法 MySQL中有一个名为 INFORMATION_SCHEMA 的数据库，在该库中有一个 TABLES 表，这个表主要字段分别是： TABLE_SCHEMA : 数据库名， TABLE_NAME：表名， ENGINE：所使用的存储引擎， -TABLES_ROWS：记录数， DATA_L...

SQL：使用 RANK OVER + PARTION BY + ORDER BY 实现分组排序

统计商品畅销度排行榜

RANK OVER & PARTION BY PARTION BY 进行分组，RANK OVER + ORDER BY 进行给每个分组内的记录进行排序创建表需求：按照产品的分类排名；按照产品子类排名；按照产品分类的飙升榜；创建日历表 calendar create ta...