dex0423 的博客

记录工作学习的点点滴滴。

Hadoop:YARN 功能及工作机制原理

YARN 的概念 YARN 是一个通用的资源管理系统和调度平台,可以为上层提供统一的资源管理和调度; 资源管理系统 集群的硬件资源,和程序运行相关,比如内存、CPU; 调度平台 解决多个程序同时申请计算资源,如何分配、调度规则等问题; YARN 不管理 磁盘,磁盘是由 HDF...

Hadoop:MapReduce 计算引擎概念详解

1. MapReduce 概念简介 1.1. MapReduce 定义 MapReduce 是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的、具有容错能力的方式并行地处理上TB级别的海量数据集。 这个定义里面有着这些关键词: 软件框架; 并行处理; 可靠且容错; ...

Hadoop:Hadoop 基础概念简介

1. Hadoop 核心组件 HDFS:解决海量存储; YARN:解决资源调度; MapReduce:解决海量数据计算。 Hadoop 集群 = HDFS 集群 + Yarn 集群 HDFS 集群 & Yarn 集群,物理上在一起,逻辑上相分离。 物理上在一起:程序部署在同一台机器上。 逻辑上相分离:两个集群之间没有依赖,互...

Hadoop:HDFS 分布式文件存储系统概念详解

0. 分布式存储 0.1 分布式存储核心属性 分布式存储 多机器、横向扩展存储资源 相对与纵向扩展,可以分布式存储理论上无上限 元数据记录(文件位置索引) 记录文件存储位置信息 快速定位文件位置 分块存储 解决文件过大,单机存储不下的问题 方...

FineBI:Hive SQL 分析某软件聊天数据

1. 结果展示 2. 需求梳理 2.1. 需求指标 基于用户聊天数据,统计以下指标信息 统计今日总消息量 统计今日每小时消息量、发送和接收用户数 统计今日各地区发送消息数据量 统计今日发送消息和接收消息的用户数 统计今日发送消息最多的Top10用户 统计今日接收消息最多的Top10用...

FineBI:FineBI 展示某软件聊天数据

1. Fine BI 配置 添加本地 jar 包 上传 Hive 插件: 2. 数据准备 连接 Hive 准备数据 更新数据包 3. Fine BI 编辑 地图经纬度设置 注意:如果不设置经纬度,会导致...

BI:电商卖家类企业 BI 团队建设

1. BI 四类岗位 针对 BI 的四个范畴,在企业组织架构中,也分别对应了一个小型 BI 团队的四个类型的岗位,分别是数据采集、数仓开发、数据分析和可视化开发; 这四类岗位的工作职能,会存在部分的重叠,需要做好分工和协作安排; 同时,岗位所需的技术栈很多也是通用的,比如 python、SQL,可以根据业务需要,调整岗位设计和人员职能,不要一上来就要求全部配齐人员,却工作量不...

BI:关于 BI 的基本概念详解

1. BI 的定义 BI,是 Business Intelligence 的缩写,翻译过来为商业智能,简称 BI。 商业智能的概念在1996年最早由加特纳集团提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到...

Bi:bi 建设的步骤和要注意的问题

BI的应用深度可划分为: 数据可视化、数据分析、数据挖掘三个阶段。 在数据可视化阶段,BI的作用是将企业日常业务数据报表以可视化图表的方式予以呈现,只是单纯用可视化图表代替了Excel报表,但缺少对数据的分析。 在数据分析阶段,BI可以实现对可视化图表中的数据进行描述性统计分析、关联分析等,发现数据背后的原因,实现数据辅助业务决策。 在数据挖掘阶段,通过算法对数据进行深度挖掘和预测...

数仓运维:Hadoop 集群配置错误导致的报错及处理办法

Hadoop宕机 (1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB) (2)如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行...