dex0423 的博客

记录工作学习的点点滴滴。

Flume:Flume TailDirSource + Kafka Channel + Hdfs sink 日志采集示例

1. 模拟生成日志 1.1. 日志生成脚本 下载脚本 链接:https://pan.baidu.com/s/1OqriA6Yr5B-W90vR71RPkg?pwd=0qnm 提取码:0qnm 将脚本复制到服务器; 修改日志存放路径 vim logback.xml # 修改下面的路径到指定目录 <prope...

DolphinScheduler:DolphinScheduler 使用注意事项

调度方式 & 参数 & 补数据

DolphinScheduler 调度方式 系统支持基于 cron 表达式的定时调度和手动调度。 命令类型支持:启动工作流、从当前节点开始执行、恢复被容错的工作流、恢复暂停流程、从失败节点开始执行、补数、定时、重跑、暂停、停止、恢复等待线程。其中 恢复被容错的工作流 和 恢复等待线程 两种命令类型是由调度内部控制使用,外部无法调用。 DolphinScheduler 参数关键...

DolphinScheduler:DolphinScheduler 介绍

DolphinScheduler 概念 DAG 全称 Directed Acyclic Graph,简称DAG。 工作流中的Task任务以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。 流程定义 通过拖拽任务节点并建立任务节点的关联所形成的可视化DAG; 流程实例 流程实例是流程定义的实例化,可以通过手动启动或定时调度生成,...

DataX:DataX 部署使用方法及注意问题

关于 DataX 的介绍,请参考 《ETL:ETL的基本概念》 中 5.2. DataX 一节的内容。 1. 环境准备 1.1. python 网上文章推荐 python 2.6,但实际 python 3.7 一样支持,自行根据需要选择; 注意安装好以后配置环境变量; 安装配置细节,此处不再赘述; 1.2. JDK JDK 需要 1.6 以上,推荐使用...

DataX:DataX 常见异常及处理方法

1. 无法访问 datax-web 问题现象: 启动无报错,但无法访问 datax-web 网页 处理方法:重新安装初始化 datax cd /home/work/datax-web/build/datax-web-2.1.2/bin & ./install.sh 2. 初始化 datax ...

Airflow:Airflow 使用方法及注意问题

关于 Airflow 的介绍,请参考 《ETL:ETL的基本概念》 中 5.3. Airflow 一节的内容。 1. 安装配置 1.1. 安装步骤 sudo apt update sudo apt install python3-pip pip3 install --upgrade pip 1.2. 配置文件安装路径及环境变量 export AIRFLOW_HOME=~/...

数据集市:数据集市的概念详解

1. 数据集市概念 数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。 数据集市主要面向部门级业务,并且只面向某个特定的主题,存储为特定用户预先计算好的数据,从而满足用户对性能的需求。主要特征是规模小、面向部门,由...

数据集市:宽表设计注意事项

1. 宽表设计原理 宽表设计其实体现的是架构设计的思想,即高内聚松耦合,只不过发生在数据领域而已。 之所以要建设宽表,更多地是要利用大数据强大的计算能力,避免范式建模带来过多的关联操作,可以实现计算效率的高度并行化。 在大数据数仓中更多地是使用星型模型构建hive表,通过大量的冗余来提升查询效率,同时OLAP的数据计算引擎也能更好地支持星型模型的开发。 ...

数据湖:数据湖的概念详解

1. 企业对数据湖的需求 1.1. 过往的数据管理 数据库:数据的存储和查询; 数仓:数据的集中存储和分析; 消息队列:数据的转移通道; 流式计算:高效的数据加工和分析; 缓存系统:数据的快速加载。 1.2. 数仓主要解决数据孤岛问题 数据孤岛,不同业务、不同部门、不同来源、不同标准的数据,分散在各个地方; 数仓通过ETL、数据管道等,将分散的数据统...

数据湖:数据湖的性能要求和设计原则

1. 数据湖的性能要求 1.1. 安全 数据集中存储,要求有严格的权限管控。 1.2. 可扩展 数据湖应随需求扩展的能力。 1.3. 吞吐量 较高的数据吞吐量。 1.4. 可靠性 必须稳定可靠。 1.5. 原始格式存储 数据必须是原始数据,不能有任何修饰、加工。 1.6. 支持多数据源、异构数据写入 不限制数据类型。 ...