dex0423 的博客

记录工作学习的点点滴滴。

数仓基础：数仓技术选型及方案设计

1. 大数据技术生态 1.1. 大数据技术生态体系图 1.2. 数据流程图 1.3. 大数据框架 Apache 使用最广泛的框架；需要专业的运维人员；组件兼容性需要仔细调研（Hive v2.3+）；尽量不要选新框架，容易出问题，最好选择最新框架半年前左右的稳定版本； Apache 常用版本对应情...

数仓基础：OLTP 与 OLAP 的对比分析及优化策略

1. 概念 1.1. 定义 OLTP OLTP（on-line transaction processing）翻译为联机事务处理； OLAP OLAP（On-Line Analytical Processing）翻译为联机分析处理。 1.2. 业务目的 OLTP OLTP是做事务处理； ...

Tableau：逐行计算 & 聚合计算

问题在 tableau 计算时经常会遇到一个场景，既先需要汇总求和、再计算比率；例如，下面的场景：需要先汇总不同类商品的出库、客退，之后将客退/出库求得客退率；逐行计算在计算上面的需求的时候，如果我们直接用 [1季度客退]/[1季度出库] 计算，得到的结果其实是错误的；这是因为，tableau 会先计算...

Tableau： Tableau Prep 基本功能使用

MySQL 数据库连接下面这种方式，并不能成功下载驱动；需要自己到 MySQL 网站，自行下载安装；安装好驱动以后，就可以正常连接 MySQL；多表连接跨库取数 Tableau Prep 不支持跨库直接拖入表，如果直接拖入窗口的话，会提示报错。一般使用自定义 SQL 跨库添加表；内联接使用内联接来合并表...

Spark：Spark 简介及工作原理

Spark 简介 Spark 是一种通用、快速可扩展的大数据分析引擎； Spark 解决了 MapReduce 读写磁盘速度过慢的问题； Spark 框架下，不需要考虑数据倾斜问题，系统会自动优化； Spark 可以处理 MapReduce 离线批处理、Impala 交互式分析、Storm 流失处理、机器学习、图计算； ...

Spark：Spark 与 MapReduce 的对比分析

面向内存 VS 面向磁盘 MapReduce 是面向磁盘的，受限于磁盘读/写性能和网络I/O性能的约束，在处理迭代计算、实时计算、交互式数据查询等方面并不高效，但是这些计算在图计算、数据挖掘和机器学习等相关应用领域中非常常见。针对 MapReduce 这一不足，将数据存储在内存中并基于内存进行计算是一个有效的解决途径。 Spark...

Spark：Hadoop 3.1.2 + Spark 3.1.2 集群安装部署

1. 规划 1.1. 版本 Hadoop 3.1.2 Spark 3.1.2 1.2. 集群规划 Master：Hadoop102 Slave1：Hadoop103 Slave2：Hadoop104 2. 安装软件上传上传 spark 压缩文件 spark-3.1.2-bin-hadoop3.2.tgz 到 /usr/l...

Hadoop：基于阿里云服务器搭建 Hadoop 集群

1. 环境准备 1.1. 配置主机映射设置服务器的映射关系，在三台服务器依次操作。 vi /etc/hosts 172.xxx.xxx.xxx hadoop102 172.xxx.xxx.xxx hadoop104 172.xxx.xxx.xxx hadoop103 1.2. 配置免密登录生成 ssh ...

Hadoop：基于 VMware 搭建伪分布式 Hadoop 集群

1. 集群配置 1.1. 获取 root 权限 su # 输入密码 1.2. 修改主机名 hadoop-1 hostnamectl set-hostname hadoop-1 hadoop-2 hostnamectl set-hostname hadoop-2 hadoop-3 hostnamectl set-hostname ...

Hadoop：基于 Docker 搭建伪分布式 Hadoop 集群

1. Windows 环境安装 docker 1.1. 更新 WSL 2 Linux 内核下载 WSL 2 Linux 内核，下载地址：https://docs.microsoft.com/zh-cn/windows/wsl/wsl2-kernel 双击下载好的 wsl_update_x64.msi 文件，安装 WSL； 1.2. 安装 docker for windo...