Toggle navigation
dex0423 的博客
Home
About
Blog
Resources
dex0423 的博客
记录工作学习的点点滴滴。
Hive:Hive SQL DDL 基本操作
1. Hive 建库 创建 database create database test; 查看库 文件位置:/user/hive/warehouse 看到 test.db; 2. Hive 表 创建 & 删除 2.1. 建表 创建表 t_archer create...
HBase:HBase 架构 & 数据模型
1. HBase 架构 1.1. 列式存储 关于本节,可参考文章 《OLAP:行式存储 & 列式存储》。 1.2. HBase 架构图 1.3. Client 客户端 Client 提供了访问 HBase 的接口; Client 维护了对应的 cache 来加速 HBase 的访问; 1.4. Zookeeper 存储 HBase 的元数据...
HBase:HBase 基本概念详解
1. Hbase 概念 1.1. Hadoop 的局限 要查找数据必须搜索整个数据集,如果要进行随机读取数据,效率较低; Hadoop 主要是实现批量数据的处理,并且通过顺序方式访问数据; Hadoop 适合做一些批量数据处理,适用于吞吐量比较高的场景,但是不适用于随机查询、实时操作 1.2. Hbase 定义 HBase 建立...
HBase:HBase vs RDBMS vs HDFS vs Hive
RDBMS vs HBase 关系型数据库 结构 数据库以表的形式存在 支持FAT、NTFS、EXT、文件系统 使用主键(PK) 通过外部中间件可以支持分库分表,但底层还是单机引擎 使用行、列、单元格 功能 支持向上扩展(买更好的服务器) 使用S...
数据埋点:数据埋点的用户模型
用户模型 每个用户都需要一个唯一标识。 选择一个合适的用户标识,对于用户行为分析的准确性有很大的影响。 这里说的唯一标识、是发生事件行为用户id在数据中台的标记,不是业务中的登录id。 小程序用户 如果是小程序用户,可直接使用用户的 openid,需要上报用户 openid 和 unionid。 如果同一个微信开放平台账号下,有多个小程序/公众号,就可以通过 ...
数据埋点:数据埋点的技术方案
开发思路 小公司: 开源 SDK + 通用存储 + 通用 BI 大公司: 开源 SDK + OLAP 引擎 + 自研可视化 埋点系统搭建工作流程 梳理埋点需求(分析指标体系) 制定埋点规则 命名的规范化 埋点流程统一化 制定埋点数据的清...
数据埋点:数据埋点的事件模型
事件模型 一个事件的触发,有4个因素:触发者、触发位置、触发的事件、触发的时间。 触发者 触发者即触发事件的用户; 需要一个唯一标识,来识别不同的用户; 同时,需要识别在不同平台的同一个用户。 触发位置 为了识别一个网页里面,事件触发的位置,需要一个页面的唯一标识、和控件的唯一标识; 页面的唯一标识 ...
数据埋点:埋点事件的参数字段
用户行为日志埋点参数示例
1. 常见的公共参数 1.1. 环境信息 用户信息; 用户UID; 设备PID; 跳入时间; 跳出时间; 地理位置; 设备,品牌、型号、系统; 应用,应用版本; 渠道,应用下载渠道。 1.2. 页面浏览记录 页面信息; 页面ID; 页面对象; 1.3. 曝光对象 广告; 推荐; 对象类型; 对象ID。 ...
SQL:数仓中 INFORMATION_SCHEMA 应用汇总
INFORMATION_SCHEMA 用法 MySQL中有一个名为 INFORMATION_SCHEMA 的数据库,在该库中有一个 TABLES 表,这个表主要字段分别是: TABLE_SCHEMA : 数据库名, TABLE_NAME:表名, ENGINE:所使用的存储引擎, -TABLES_ROWS:记录数, DATA_L...
SQL:使用 RANK OVER + PARTION BY + ORDER BY 实现分组排序
统计商品畅销度排行榜
RANK OVER & PARTION BY PARTION BY 进行分组,RANK OVER + ORDER BY 进行给每个分组内的记录进行排序 创建表 需求: 按照产品的分类排名; 按照产品子类排名; 按照产品分类的飙升榜; 创建日历表 calendar create ta...
← Newer Posts
Older Posts →
FEATURED TAGS
推荐系统
数据结构
用户画像
指标体系
数仓建模
用户运营
SQL
数据埋点
HBase
Hive
OLAP
数仓运维
BI
FineBI
Hadoop
Spark
Tableau
数仓
数据中台
数据治理
数据湖
数据集市
Airflow
DataX
DolphinScheduler
Flume
Kafka
Maxwell
Zookeeper
任务调度
Elasticsearch
ETL
数据产品
数据库
MySQL
Python
Redis
JS逆向
安卓逆向
爬虫
HTTP
ABOUT ME
一个野生程序员。
✉️ pandong423@icloud.com
MORE SITES
简书博客