Toggle navigation
dex0423 的博客
Home
About
Blog
Resources
dex0423 的博客
记录工作学习的点点滴滴。
Hadoop:YARN 功能及工作机制原理
YARN 的概念 YARN 是一个通用的资源管理系统和调度平台,可以为上层提供统一的资源管理和调度; 资源管理系统 集群的硬件资源,和程序运行相关,比如内存、CPU; 调度平台 解决多个程序同时申请计算资源,如何分配、调度规则等问题; YARN 不管理 磁盘,磁盘是由 HDF...
Hadoop:MapReduce 计算引擎概念详解
1. MapReduce 概念简介 1.1. MapReduce 定义 MapReduce 是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的、具有容错能力的方式并行地处理上TB级别的海量数据集。 这个定义里面有着这些关键词: 软件框架; 并行处理; 可靠且容错; ...
Hadoop:Hadoop 基础概念简介
1. Hadoop 核心组件 HDFS:解决海量存储; YARN:解决资源调度; MapReduce:解决海量数据计算。 Hadoop 集群 = HDFS 集群 + Yarn 集群 HDFS 集群 & Yarn 集群,物理上在一起,逻辑上相分离。 物理上在一起:程序部署在同一台机器上。 逻辑上相分离:两个集群之间没有依赖,互...
Hadoop:HDFS 分布式文件存储系统概念详解
0. 分布式存储 0.1 分布式存储核心属性 分布式存储 多机器、横向扩展存储资源 相对与纵向扩展,可以分布式存储理论上无上限 元数据记录(文件位置索引) 记录文件存储位置信息 快速定位文件位置 分块存储 解决文件过大,单机存储不下的问题 方...
FineBI:Hive SQL 分析某软件聊天数据
1. 结果展示 2. 需求梳理 2.1. 需求指标 基于用户聊天数据,统计以下指标信息 统计今日总消息量 统计今日每小时消息量、发送和接收用户数 统计今日各地区发送消息数据量 统计今日发送消息和接收消息的用户数 统计今日发送消息最多的Top10用户 统计今日接收消息最多的Top10用...
FineBI:FineBI 展示某软件聊天数据
1. Fine BI 配置 添加本地 jar 包 上传 Hive 插件: 2. 数据准备 连接 Hive 准备数据 更新数据包 3. Fine BI 编辑 地图经纬度设置 注意:如果不设置经纬度,会导致...
BI:电商卖家类企业 BI 团队建设
1. BI 四类岗位 针对 BI 的四个范畴,在企业组织架构中,也分别对应了一个小型 BI 团队的四个类型的岗位,分别是数据采集、数仓开发、数据分析和可视化开发; 这四类岗位的工作职能,会存在部分的重叠,需要做好分工和协作安排; 同时,岗位所需的技术栈很多也是通用的,比如 python、SQL,可以根据业务需要,调整岗位设计和人员职能,不要一上来就要求全部配齐人员,却工作量不...
BI:关于 BI 的基本概念详解
1. BI 的定义 BI,是 Business Intelligence 的缩写,翻译过来为商业智能,简称 BI。 商业智能的概念在1996年最早由加特纳集团提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到...
Bi:bi 建设的步骤和要注意的问题
BI的应用深度可划分为: 数据可视化、数据分析、数据挖掘三个阶段。 在数据可视化阶段,BI的作用是将企业日常业务数据报表以可视化图表的方式予以呈现,只是单纯用可视化图表代替了Excel报表,但缺少对数据的分析。 在数据分析阶段,BI可以实现对可视化图表中的数据进行描述性统计分析、关联分析等,发现数据背后的原因,实现数据辅助业务决策。 在数据挖掘阶段,通过算法对数据进行深度挖掘和预测...
数仓运维:Hadoop 集群配置错误导致的报错及处理办法
Hadoop宕机 (1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB) (2)如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行...
← Newer Posts
Older Posts →
FEATURED TAGS
推荐系统
数据结构
用户画像
指标体系
数仓建模
用户运营
SQL
数据埋点
HBase
Hive
OLAP
数仓运维
BI
FineBI
Hadoop
Spark
Tableau
数仓
数据中台
数据治理
数据湖
数据集市
Airflow
DataX
DolphinScheduler
Flume
Kafka
Maxwell
Zookeeper
任务调度
Elasticsearch
ETL
数据产品
数据库
MySQL
Python
Redis
JS逆向
安卓逆向
爬虫
HTTP
ABOUT ME
一个野生程序员。
✉️ pandong423@icloud.com
MORE SITES
简书博客