dex0423 的博客

记录工作学习的点点滴滴。

数仓基础:数仓技术选型及方案设计

1. 大数据技术生态 1.1. 大数据技术生态体系图 1.2. 数据流程图 1.3. 大数据框架 Apache 使用最广泛的框架; 需要专业的运维人员; 组件兼容性需要仔细调研(Hive v2.3+); 尽量不要选新框架,容易出问题,最好选择最新框架半年前左右的稳定版本; Apache 常用版本对应情...

数仓基础:OLTP 与 OLAP 的对比分析及优化策略

1. 概念 1.1. 定义 OLTP OLTP(on-line transaction processing)翻译为联机事务处理; OLAP OLAP(On-Line Analytical Processing)翻译为联机分析处理。 1.2. 业务目的 OLTP OLTP是做事务处理; ...

Tableau:逐行计算 & 聚合计算

问题 在 tableau 计算时经常会遇到一个场景,既先需要汇总求和、再计算比率; 例如,下面的场景: 需要先汇总不同类商品的 出库、客退,之后将 客退/出库 求得客退率; 逐行计算 在计算上面的需求的时候,如果我们直接用 [1季度客退]/[1季度出库] 计算,得到的结果其实是错误的; 这是因为,tableau 会先计算...

Tableau: Tableau Prep 基本功能使用

MySQL 数据库连接 下面这种方式,并不能成功下载驱动; 需要自己到 MySQL 网站,自行下载安装; 安装好驱动以后,就可以正常连接 MySQL; 多表连接 跨库取数 Tableau Prep 不支持跨库直接拖入表,如果直接拖入窗口的话,会提示报错。 一般使用自定义 SQL 跨库添加表; 内联接 使用内联接来合并表...

Spark:Spark 简介及工作原理

Spark 简介 Spark 是一种通用、快速可扩展的大数据分析引擎; Spark 解决了 MapReduce 读写磁盘速度过慢的问题; Spark 框架下,不需要考虑数据倾斜问题,系统会自动优化; Spark 可以处理 MapReduce 离线批处理、Impala 交互式分析、Storm 流失处理、机器学习、图计算; ...

Spark:Spark 与 MapReduce 的对比分析

面向内存 VS 面向磁盘 MapReduce 是面向磁盘的,受限于磁盘读/写性能和网络I/O性能的约束,在处理迭代计算、实时计算、交互式数据查询等方面并不高效,但是这些计算在图计算、数据挖掘和机器学习等相关应用领域中非常常见。 针对 MapReduce 这一不足,将数据存储在内存中并基于内存进行计算是一个有效的解决途径。 Spark...

Spark:Hadoop 3.1.2 + Spark 3.1.2 集群安装部署

1. 规划 1.1. 版本 Hadoop 3.1.2 Spark 3.1.2 1.2. 集群规划 Master:Hadoop102 Slave1:Hadoop103 Slave2:Hadoop104 2. 安装软件 上传 上传 spark 压缩文件 spark-3.1.2-bin-hadoop3.2.tgz 到 /usr/l...

Hadoop:基于 阿里云服务器 搭建 Hadoop 集群

1. 环境准备 1.1. 配置主机映射 设置服务器的映射关系,在三台服务器依次操作。 vi /etc/hosts 172.xxx.xxx.xxx hadoop102 172.xxx.xxx.xxx hadoop104 172.xxx.xxx.xxx hadoop103 1.2. 配置免密登录 生成 ssh ...

Hadoop:基于 VMware 搭建伪分布式 Hadoop 集群

1. 集群配置 1.1. 获取 root 权限 su # 输入密码 1.2. 修改主机名 hadoop-1 hostnamectl set-hostname hadoop-1 hadoop-2 hostnamectl set-hostname hadoop-2 hadoop-3 hostnamectl set-hostname ...

Hadoop:基于 Docker 搭建伪分布式 Hadoop 集群

1. Windows 环境安装 docker 1.1. 更新 WSL 2 Linux 内核 下载 WSL 2 Linux 内核,下载地址:https://docs.microsoft.com/zh-cn/windows/wsl/wsl2-kernel 双击下载好的 wsl_update_x64.msi 文件,安装 WSL; 1.2. 安装 docker for windo...