dex0423 的博客

记录工作学习的点点滴滴。

数据产品:产品经理手册

数据探查(入职必做) 数据来源 来源系统 如:ERP、金蝶、TMS 来源(维护)单位 如:销售部门、第三方服务商 数据获取方式 API JDBC 手工上传 表内容 按分类 事实表 事务事实表 ...

ETL方法论:数据读取

1. 业务表属性分类 事实表与维度表相结合,可以有效解决海量数据的冗余问题。 1.1. 字典表 字典表,存储的是每个字段的映射关系。 字典表特性: 结构简单; 数据规模小,数据值有限、可穷举; 更新频率低。 1.2. 事实表 描述某一事务的活动信息,数据规模大。 比如:账单信息表: 比如:账单I...

ETL方法论:数据类型

1. 多种类型的数据 1.1. 结构化数据 有完整的结构规则,如 MySQL、Oracle、Excel 表等。 1.2. 半结构化数据 由基本固定结构模式的数据,比如日志文件、XML文档、JSON文档、email等。 1.3. 非结构化数据 无固定格式的数据,如Word、PDF、PPT、图片、音频、视频等。 2. 数据提取 2.1. 提取结构化数据 可以通过关系型数据库表形...

ETL方法论:数据清洗

1. 数据流转过程 一般意义上,ETL 数据清洗结束后,输出的数据会放到 DWD 层。 2. 源数据的问题 2.1. 数据本身问题 数据值录入错误 数据缺失 数据重复 2.2. 表设计问题 建表命名不规范 数据不规范 字段属性错误 格式不统一 缺少宽表 业务数据一般字段较少,但数据分析却需要宽表; ...

ETL方法论:数据探查

1. 业务探查 1.1. 业务流程调研 业务流程: 明确具体的业务流程; 业务数据: 将数据与业务过程联系起来; 明确每一步业务,会对那些数据、产生哪些影响; 1.2. 业务系统调研 业务系统探查,最重要的是明确业务提供方的信息。 部门信息 ...

ETL方法论:数据对账

1. 数据对账 1.1. 概念 数据一致性:数据对账要解决的,是数据同步任务执行一段时间后、源表和目标表数据不一致的问题。 项目经验: 1、来源表的历史数据,必须保留以防止出现问题; 2、来源表必须有主键字段,确保一条数据的唯一性。比如:账单信息表的账单 ID、用户信息表的用户 ID。 1.2. 增量同步 上表新增用户小华、同时李四昵称发生变更。 ...

ETL方法论:ETL 的概念详解

1. ETL 定义 ETL,是数据抽取(Extractor)、清洗转换(Transform)、数据加载(Load)的过程,是构建数据仓库的重要环节之一。 ETL,负责将分布、异构的数据源中的数据,如关系数据、平面数据、文件等取到临时中间层,进行清洗、转换、集成,最后加载到数据仓库或数据集市,成为联机分析处理、数据挖掘的基础。 ETL 的目的,是将其中分散、零乱、标准不统一的数据,整...

ETL方法论:ETL 开发要注意的问题

设计规范 抽取加载策略设计文档 节点名称,与目标表一致 负责人 源表、目标表 抽取方式、加载策略 增量新增数据的判断条件 是否支持重复执行 ETL 映射设计文档 节点名称,与目标表一致 所在层级、所属 Job Job 中的位置、上游节点名称 负责人 参数列表 源表、目标表 字段映射转换关系 是否支持重复执行 调度设计文...

数据治理:数据标准化概念及常见问题

1. 数据标准化 1.1. 数据标准定义 数据标准,是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。 企业数据标准体系,一般是从数据域、数据分类、数据实体、数据属性四个层次构建。 1.2. 数据域 数据域是按业务领域划分的顶级数据分类; 例如:财务域、人力域、生产域、...

Elasticsearch:基本概念名词全解读

索引、节点、集群、分片

文档 elasticsearch 是面向文档的,文档是所有可搜索数据的最小单位,对应 RDB 中的一条记录,比如一条日志、一部电影、一篇文章; 文档在保存到 elasticsearch 前会被序列化成 json 格式,json 对象有字段组成(字段类型包括:字符串 / 数值 / 布尔 / 日期 / 二进制 / 范围类型); 每个文档都有一个 unique ID,这个 ID 可...