Toggle navigation
dex0423 的博客
Home
About
Blog
Resources
dex0423 的博客
记录工作学习的点点滴滴。
数据产品:产品经理手册
数据探查(入职必做) 数据来源 来源系统 如:ERP、金蝶、TMS 来源(维护)单位 如:销售部门、第三方服务商 数据获取方式 API JDBC 手工上传 表内容 按分类 事实表 事务事实表 ...
ETL方法论:数据读取
1. 业务表属性分类 事实表与维度表相结合,可以有效解决海量数据的冗余问题。 1.1. 字典表 字典表,存储的是每个字段的映射关系。 字典表特性: 结构简单; 数据规模小,数据值有限、可穷举; 更新频率低。 1.2. 事实表 描述某一事务的活动信息,数据规模大。 比如:账单信息表: 比如:账单I...
ETL方法论:数据类型
1. 多种类型的数据 1.1. 结构化数据 有完整的结构规则,如 MySQL、Oracle、Excel 表等。 1.2. 半结构化数据 由基本固定结构模式的数据,比如日志文件、XML文档、JSON文档、email等。 1.3. 非结构化数据 无固定格式的数据,如Word、PDF、PPT、图片、音频、视频等。 2. 数据提取 2.1. 提取结构化数据 可以通过关系型数据库表形...
ETL方法论:数据清洗
1. 数据流转过程 一般意义上,ETL 数据清洗结束后,输出的数据会放到 DWD 层。 2. 源数据的问题 2.1. 数据本身问题 数据值录入错误 数据缺失 数据重复 2.2. 表设计问题 建表命名不规范 数据不规范 字段属性错误 格式不统一 缺少宽表 业务数据一般字段较少,但数据分析却需要宽表; ...
ETL方法论:数据探查
1. 业务探查 1.1. 业务流程调研 业务流程: 明确具体的业务流程; 业务数据: 将数据与业务过程联系起来; 明确每一步业务,会对那些数据、产生哪些影响; 1.2. 业务系统调研 业务系统探查,最重要的是明确业务提供方的信息。 部门信息 ...
ETL方法论:数据对账
1. 数据对账 1.1. 概念 数据一致性:数据对账要解决的,是数据同步任务执行一段时间后、源表和目标表数据不一致的问题。 项目经验: 1、来源表的历史数据,必须保留以防止出现问题; 2、来源表必须有主键字段,确保一条数据的唯一性。比如:账单信息表的账单 ID、用户信息表的用户 ID。 1.2. 增量同步 上表新增用户小华、同时李四昵称发生变更。 ...
ETL方法论:ETL 的概念详解
1. ETL 定义 ETL,是数据抽取(Extractor)、清洗转换(Transform)、数据加载(Load)的过程,是构建数据仓库的重要环节之一。 ETL,负责将分布、异构的数据源中的数据,如关系数据、平面数据、文件等取到临时中间层,进行清洗、转换、集成,最后加载到数据仓库或数据集市,成为联机分析处理、数据挖掘的基础。 ETL 的目的,是将其中分散、零乱、标准不统一的数据,整...
ETL方法论:ETL 开发要注意的问题
设计规范 抽取加载策略设计文档 节点名称,与目标表一致 负责人 源表、目标表 抽取方式、加载策略 增量新增数据的判断条件 是否支持重复执行 ETL 映射设计文档 节点名称,与目标表一致 所在层级、所属 Job Job 中的位置、上游节点名称 负责人 参数列表 源表、目标表 字段映射转换关系 是否支持重复执行 调度设计文...
数据治理:数据标准化概念及常见问题
1. 数据标准化 1.1. 数据标准定义 数据标准,是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。 企业数据标准体系,一般是从数据域、数据分类、数据实体、数据属性四个层次构建。 1.2. 数据域 数据域是按业务领域划分的顶级数据分类; 例如:财务域、人力域、生产域、...
Elasticsearch:基本概念名词全解读
索引、节点、集群、分片
文档 elasticsearch 是面向文档的,文档是所有可搜索数据的最小单位,对应 RDB 中的一条记录,比如一条日志、一部电影、一篇文章; 文档在保存到 elasticsearch 前会被序列化成 json 格式,json 对象有字段组成(字段类型包括:字符串 / 数值 / 布尔 / 日期 / 二进制 / 范围类型); 每个文档都有一个 unique ID,这个 ID 可...
← Newer Posts
Older Posts →
FEATURED TAGS
推荐系统
数据结构
用户画像
指标体系
数仓建模
用户运营
SQL
数据埋点
HBase
Hive
OLAP
数仓运维
BI
FineBI
Hadoop
Spark
Tableau
数仓
数据中台
数据治理
数据湖
数据集市
Airflow
DataX
DolphinScheduler
Flume
Kafka
Maxwell
Zookeeper
任务调度
Elasticsearch
ETL
数据产品
数据库
MySQL
Python
Redis
JS逆向
安卓逆向
爬虫
HTTP
ABOUT ME
一个野生程序员。
✉️ pandong423@icloud.com
MORE SITES
简书博客