dex0423 的博客

记录工作学习的点点滴滴。

用户运营:基于标签的用户分群示例

1. 分析思路 在做用户行为分析时,必须要又有个清醒的认识,就是分析的维度越多、信息的粒度越细,越能真实地反映问题。 如果仅仅是按照常规路径,很宏观的做一个笼统的分析,那并不能真实的了解用户的所思所想,也无法有效支撑业务需求。 分析场景的颗粒度 根据实际场景灵活定义用户的起始行为、目标用户群体,细化的颗粒度对进一步的分析可提供更具价值的数据; ...

数仓建模:范式建模

三范式 & E-R 模型

1. 范式建模的概念 1.1. 三范式 & 四范式 & 五范式: 第一范式: 保证数据的原子性,没有重复列,列不可再分,也没有重复行; 数据规整成二维表; 确保每一列表达同一含义; 比如成绩中,分数和评价,要拆分成两列; 去掉多值属性; ...

数仓建模:维度建模

维度建模 & 星型模型 & 雪花模型 & 星座模型

1. 常见的数据建模方法 数据仓库本质是从数据库衍生出来的,所以数据仓库的建模也是不断衍生发展的。 从最早的借鉴数据库的范式建模,到逐渐提出维度建模,Data Vault模型,Anchor模型等等,越往后建模的要求越高,越需满足3NF,4NF等。 对于数据仓库来说,目前主流还是维度建模,会夹杂着范式建模。 2. 维度表 2.1. 维度表概念 ...

数仓建模:数据建模命名规范

1. 命名规范作用 防止出现多个系统、多套命名规范; 不同的数据库,有自己不同的规范; 比如 Oracle 就有自己的规范,其他系统的规范在这个系统就不适用; 防止出现歧义; 减少不理解命名现象; 降低沟通成本; 2. 总体要求 清晰: 见名知意; 无歧义; ...

数仓建模:数仓建设规范指南

本文原文刊自《五分钟学大数据》,此处修正了原文的部分错误,增加了部分内容和细节。 1. 数仓模型设计原则 1.2. 数仓模型设计目标 高内聚、低耦合 即主题内部高内聚、 不同主题间低耦合; 明细层按照业务过程划分主题,汇总层按照“实体+ 活动”划分不同分析主题,应用层根据应用需求划分不同应用主题。 核心模型和扩展模型要...

数仓建模:数仓建模的概念详解

1. 数据模型 1.1. 数据库类型 关系型数据库 非关系型数据库 1.2. 数据模型的概念 信息 = 元数据 + 数据 数据模型,是将数据元素以标准化的模式组织起来,用来模拟现实世界的信息框架。 1.3. 数据建模流程图 1.4. 主题域划分方法 按照业务域划分 业务 指...

数仓建模:数仓中的数据分层

1. 数据流向 2. 数仓分层的价值 数据分层的好处: 清晰数据结构: 让每个数据层都有自己的作用和职责,在使用和维护的时候能够更方便和理解; 复杂问题简化: 将一个复杂的任务拆解成多个步骤来分步骤完成,每个层只解决特定的问题; 统一数据口径: 通过数据分层,提供统一的数...

数仓建模:拉链表的概念详解

1. 什么是拉链表 1.1. 拉链表定义 所谓拉链,顾名思义,就是记录历史,记录一个事物从开始,一直到当前状态的所有变化的信息。 拉链表,是针对数据仓库设计中表存储数据的方式而定义的。拉链表的核心思想,像个拉链,支持开链,支持闭链,支持退链。我们通常将最新的数据称为开链数据,历史数据称为闭链数据。 拉链表在一个时间维度中,同一个用户只保存一条用户状态。 拉链表通常会增加...

数仓建模:不同类型表及同步策略

日全量表 & 增量表 & 快照表 & 切片表 & 流水表 & 拉链表

日全量表 日全量表概念 全量表存放的,是每天的所有的最新状态的数据; 全量表无论有无变化都要上报; 每次上报的数据都是所有的数据(变化的 + 没有变化的); 全量表只有一个分区或者没有分区; 每次往全量表里面写数据都会覆盖之前的数据,因此全量表不能记录数据的历史变化,只能截止到当前最新、全量的数据。 全量表一般用作维度表,比如:...

指标体系:电商运营数据基础指标体系搭建

1. 运营分析概述 1.1. 核心主题 用户 流量 会员 商品 活动 销售 渠道 媒介 区域 供应链 1.2. 分析目标 引流 提单量 提销售额 提客单价 提毛利率 提转化率 拉新客户 减库存 提库存周转 降次品率 将客诉率 降广告费 提广告转化率 提广告ROI 提活动效果 ...