Toggle navigation
dex0423 的博客
Home
About
Blog
Resources
dex0423 的博客
记录工作学习的点点滴滴。
Flume:Flume TailDirSource + Kafka Channel + Hdfs sink 日志采集示例
1. 模拟生成日志 1.1. 日志生成脚本 下载脚本 链接:https://pan.baidu.com/s/1OqriA6Yr5B-W90vR71RPkg?pwd=0qnm 提取码:0qnm 将脚本复制到服务器; 修改日志存放路径 vim logback.xml # 修改下面的路径到指定目录 <prope...
DolphinScheduler:DolphinScheduler 使用注意事项
调度方式 & 参数 & 补数据
DolphinScheduler 调度方式 系统支持基于 cron 表达式的定时调度和手动调度。 命令类型支持:启动工作流、从当前节点开始执行、恢复被容错的工作流、恢复暂停流程、从失败节点开始执行、补数、定时、重跑、暂停、停止、恢复等待线程。其中 恢复被容错的工作流 和 恢复等待线程 两种命令类型是由调度内部控制使用,外部无法调用。 DolphinScheduler 参数关键...
DolphinScheduler:DolphinScheduler 介绍
DolphinScheduler 概念 DAG 全称 Directed Acyclic Graph,简称DAG。 工作流中的Task任务以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。 流程定义 通过拖拽任务节点并建立任务节点的关联所形成的可视化DAG; 流程实例 流程实例是流程定义的实例化,可以通过手动启动或定时调度生成,...
DataX:DataX 部署使用方法及注意问题
关于 DataX 的介绍,请参考 《ETL:ETL的基本概念》 中 5.2. DataX 一节的内容。 1. 环境准备 1.1. python 网上文章推荐 python 2.6,但实际 python 3.7 一样支持,自行根据需要选择; 注意安装好以后配置环境变量; 安装配置细节,此处不再赘述; 1.2. JDK JDK 需要 1.6 以上,推荐使用...
DataX:DataX 常见异常及处理方法
1. 无法访问 datax-web 问题现象: 启动无报错,但无法访问 datax-web 网页 处理方法:重新安装初始化 datax cd /home/work/datax-web/build/datax-web-2.1.2/bin & ./install.sh 2. 初始化 datax ...
Airflow:Airflow 使用方法及注意问题
关于 Airflow 的介绍,请参考 《ETL:ETL的基本概念》 中 5.3. Airflow 一节的内容。 1. 安装配置 1.1. 安装步骤 sudo apt update sudo apt install python3-pip pip3 install --upgrade pip 1.2. 配置文件安装路径及环境变量 export AIRFLOW_HOME=~/...
数据集市:数据集市的概念详解
1. 数据集市概念 数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。 数据集市主要面向部门级业务,并且只面向某个特定的主题,存储为特定用户预先计算好的数据,从而满足用户对性能的需求。主要特征是规模小、面向部门,由...
数据集市:宽表设计注意事项
1. 宽表设计原理 宽表设计其实体现的是架构设计的思想,即高内聚松耦合,只不过发生在数据领域而已。 之所以要建设宽表,更多地是要利用大数据强大的计算能力,避免范式建模带来过多的关联操作,可以实现计算效率的高度并行化。 在大数据数仓中更多地是使用星型模型构建hive表,通过大量的冗余来提升查询效率,同时OLAP的数据计算引擎也能更好地支持星型模型的开发。 ...
数据湖:数据湖的概念详解
1. 企业对数据湖的需求 1.1. 过往的数据管理 数据库:数据的存储和查询; 数仓:数据的集中存储和分析; 消息队列:数据的转移通道; 流式计算:高效的数据加工和分析; 缓存系统:数据的快速加载。 1.2. 数仓主要解决数据孤岛问题 数据孤岛,不同业务、不同部门、不同来源、不同标准的数据,分散在各个地方; 数仓通过ETL、数据管道等,将分散的数据统...
数据湖:数据湖的性能要求和设计原则
1. 数据湖的性能要求 1.1. 安全 数据集中存储,要求有严格的权限管控。 1.2. 可扩展 数据湖应随需求扩展的能力。 1.3. 吞吐量 较高的数据吞吐量。 1.4. 可靠性 必须稳定可靠。 1.5. 原始格式存储 数据必须是原始数据,不能有任何修饰、加工。 1.6. 支持多数据源、异构数据写入 不限制数据类型。 ...
← Newer Posts
Older Posts →
FEATURED TAGS
推荐系统
数据结构
用户画像
指标体系
数仓建模
用户运营
SQL
数据埋点
HBase
Hive
OLAP
数仓运维
BI
FineBI
Hadoop
Spark
Tableau
数仓
数据中台
数据治理
数据湖
数据集市
Airflow
DataX
DolphinScheduler
Flume
Kafka
Maxwell
Zookeeper
任务调度
Elasticsearch
ETL
数据产品
数据库
MySQL
Python
Redis
JS逆向
安卓逆向
爬虫
HTTP
ABOUT ME
一个野生程序员。
✉️ pandong423@icloud.com
MORE SITES
简书博客