dex0423 的博客

记录工作学习的点点滴滴。

Hive:Hive SQL DDL 基本操作

1. Hive 建库 创建 database create database test; 查看库 文件位置:/user/hive/warehouse 看到 test.db; 2. Hive 表 创建 & 删除 2.1. 建表 创建表 t_archer create...

HBase:HBase 架构 & 数据模型

1. HBase 架构 1.1. 列式存储 关于本节,可参考文章 《OLAP:行式存储 & 列式存储》。 1.2. HBase 架构图 1.3. Client 客户端 Client 提供了访问 HBase 的接口; Client 维护了对应的 cache 来加速 HBase 的访问; 1.4. Zookeeper 存储 HBase 的元数据...

HBase:HBase 基本概念详解

1. Hbase 概念 1.1. Hadoop 的局限 要查找数据必须搜索整个数据集,如果要进行随机读取数据,效率较低; Hadoop 主要是实现批量数据的处理,并且通过顺序方式访问数据; Hadoop 适合做一些批量数据处理,适用于吞吐量比较高的场景,但是不适用于随机查询、实时操作 1.2. Hbase 定义 HBase 建立...

HBase:HBase vs RDBMS vs HDFS vs Hive

RDBMS vs HBase 关系型数据库 结构 数据库以表的形式存在 支持FAT、NTFS、EXT、文件系统 使用主键(PK) 通过外部中间件可以支持分库分表,但底层还是单机引擎 使用行、列、单元格 功能 支持向上扩展(买更好的服务器) 使用S...

数据埋点:数据埋点的用户模型

用户模型 每个用户都需要一个唯一标识。 选择一个合适的用户标识,对于用户行为分析的准确性有很大的影响。 这里说的唯一标识、是发生事件行为用户id在数据中台的标记,不是业务中的登录id。 小程序用户 如果是小程序用户,可直接使用用户的 openid,需要上报用户 openid 和 unionid。 如果同一个微信开放平台账号下,有多个小程序/公众号,就可以通过 ...

数据埋点:数据埋点的技术方案

开发思路 小公司: 开源 SDK + 通用存储 + 通用 BI 大公司: 开源 SDK + OLAP 引擎 + 自研可视化 埋点系统搭建工作流程 梳理埋点需求(分析指标体系) 制定埋点规则 命名的规范化 埋点流程统一化 制定埋点数据的清...

数据埋点:数据埋点的事件模型

事件模型 一个事件的触发,有4个因素:触发者、触发位置、触发的事件、触发的时间。 触发者 触发者即触发事件的用户; 需要一个唯一标识,来识别不同的用户; 同时,需要识别在不同平台的同一个用户。 触发位置 为了识别一个网页里面,事件触发的位置,需要一个页面的唯一标识、和控件的唯一标识; 页面的唯一标识 ...

数据埋点:埋点事件的参数字段

用户行为日志埋点参数示例

1. 常见的公共参数 1.1. 环境信息 用户信息; 用户UID; 设备PID; 跳入时间; 跳出时间; 地理位置; 设备,品牌、型号、系统; 应用,应用版本; 渠道,应用下载渠道。 1.2. 页面浏览记录 页面信息; 页面ID; 页面对象; 1.3. 曝光对象 广告; 推荐; 对象类型; 对象ID。 ...

SQL:数仓中 INFORMATION_SCHEMA 应用汇总

INFORMATION_SCHEMA 用法 MySQL中有一个名为 INFORMATION_SCHEMA 的数据库,在该库中有一个 TABLES 表,这个表主要字段分别是: TABLE_SCHEMA : 数据库名, TABLE_NAME:表名, ENGINE:所使用的存储引擎, -TABLES_ROWS:记录数, DATA_L...

SQL:使用 RANK OVER + PARTION BY + ORDER BY 实现分组排序

统计商品畅销度排行榜

RANK OVER & PARTION BY PARTION BY 进行分组,RANK OVER + ORDER BY 进行给每个分组内的记录进行排序 创建表 需求: 按照产品的分类排名; 按照产品子类排名; 按照产品分类的飙升榜; 创建日历表 calendar create ta...