dex0423 的博客

记录工作学习的点点滴滴。

数据治理:数据质量管理

数据质量指标 准确性: 数据不正确或描述对象过期 合规性: 数据是否以非标准格式存储 完备性: 数据不存在 及时性: 关键数据是否能够及时传递到目标位置 一致性: 数据冲突 重...

数据治理:数据治理的概念详解

1. 什么是数据治理 数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。 数据治理是一套管理机制,技术工具只是实现这套机制的载体。 数据架构组织; 数据模型; 制度规范; 技术工具; 数据标准; 数据质量;...

数据治理:元数据管理架构及项目实施步骤

1. 元数据管理 1.1. 元数据管理 元数据管理,记录数据仓库中模型的定义,各层级间的映射关系,监控数据仓库的数据状态及ETL的任务运行状态; 一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致; 元数据管理应具备的功能: 搜索和发现: ...

数据治理:元数据的概念详解

1. 元数据的概念 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。 元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。 元数据,可以理解为比一般意义的数...

数据治理:ETL 任务监控与告警

钉钉机器人 & 邮件自动告警

监控系统 监控系统,一般是对大数据整个架构、各个数据的输入输出流、中间件的稳定性、数据的准确性、资源的使用情况、任务的执行情况进行监控; 一般的监控告警通过采集告警日志、错误数据、关键词匹配等,获取错误的数据进行实时展现并告警; 常见的监控系统以 Grafana 为基础,主要功能是将收集存储的数据按照不同维度、不同应用、不同用户进行配置化的展示; 为了保证数据安全,每个团...

数据中台:数据中台的基本概念

1. 数据中台概念 1.1. 数据中台的定义 数据中台的概念是最早由阿里巴巴首次提出,其最核心的是 OneData 体系。 这个数据管理体系包括: 全局数据仓库规划 数据规范定义 数据建模研发 数据连接萃取 数据运维监控 数据资产管理工具等 数据中台对海量数据进行采集、计算、存...

数据中台:数据中台的功能模块

1. 工具平台模块 工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发 工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。 2. 数据资产模块 2.1. 主题域模型 主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程...

数据中台:数据中台建设方法论

1. 数据中台建设的基本流程 2. 数据中台建设的常见问题 企业在数据中台建设过程中,通常以IT条线人员作为产品经理主导,虽然能够做到技术架构的先进性,围绕“ODS、DWD、DWS”大规模存储及计算性能展开投入,但业务参与度太弱,导致系统对业务响应的敏捷度较差,业务通用性低。 往往企业新上一个业务,在业务看来很简单的“接入数据、生成标签、报表统计、提取数据”业务需求,在数据...

数仓工具:数仓部署&运维常用脚本

rsync递归数据分发

1. 脚本编写注意事项 1.1. 使用 linux vim 编辑器 脚本编写,最好先在 Windows 环境下,编辑好,再粘贴到 linux 的 vim 编辑器; 不能直接将脚本推送到 linux 中,否则执行的时候会因为回车问题,导致脚本无法正常运行。 1.2. 脚本存放到 bin 目录下 写好的脚本放到 /bin 目录下,可以直接执行; 1.3. 修改 777 ...

数仓基础:数仓的概念名词详解

1. 数仓的特点 1.1. 面向主题 数仓的价值,是为数据分析提供数据支撑,数据处理过程是面向分析的 OLAP 过程。 1.2. 集成 跨部门 跨系统 多源 异构 1.3. 稳定 非事务性,不经常变化; 数仓有大量的查询操作,但是修改和删除很少。 非易失性 数据一旦进入数仓,基本上都...