Hadoop之mr分布式计算机框架

Hadoop之mr分布式计算机框架Hadoop核心组件–MRHadoop 分布式计算框架1.MapReduce设计理念何为分布式计算移动计算，而不是移动数据2.计算机框架MR

Joker-Tong

923人浏览 · 2020-02-16 19:31:28

Joker-Tong · 2020-02-16 19:31:28 发布

Hadoop之mr分布式计算机框架

Hadoop核心组件–MR

Hadoop 分布式计算框架

1.MapReduce设计理念

何为分布式计算
移动计算，而不是移动数据

2.计算机框架MR

在这里插入图片描述
从HDFS存储的数据/文件作为输入(MR的数据来源)
对于这些数据首先要处理成一个个片段 split
每个片段都有个map线程去执行
reduce步骤
生成数据默认也保存在HDFS上
MR对很大的数据统计所有单词出现的次数的过程
在这里插入图片描述

分为四个步骤

splitting
mapping(java线程执行分析数据片段,并发的同时执行)(根据写的代码执行)(将split中的每个单词都取出来,单词的本身作为键,1作为值)
注意:在map中出现的键值对值只会是1
shuffling 键值相同的数据移动到同一个block中
reducing 对shuff的结果合并整理
reduce的个数由代码决定

3.Hadoop计算框架Shuffler

在这里插入图片描述

对map的输出数据(都在本地完成的)

partition: 分区(默认的分区规则:哈希模运算，也可以由程序员自己写)
sort 排序字典排序
spill to disk 溢写到磁盘

4.MapReduce的Split大小

max.split(100M)
min.split(10M)
block(64M)
max(min.split,min(max.split,block)) # 默认算法

5.MapReduce的架构

在这里插入图片描述

深开鸿技术专区

更多推荐

荣耀“闪电”夺冠续航翻倍的秘密？格瑞普深度解读人形机器人电池定制

深开鸿技术专区

2026分布式多账号运营下指纹浏览器集群调度方案

中屹指纹浏览器针对这一行业痛点推出的集群化调度方案，通过中心化管控、分布式执行、全链路标准化、自动化运维的完整架构，彻底解决了分布式多账号运营的环境管理难题，在稳定性、安全性、可扩展性上均达到了企业级商用标准，也是当前行业内落地较为广泛的分布式账号环境管理方案。中屹指纹浏览器的集群调度方案，以中心化管控解决分布式混乱，以策略化调度降低风控概率，以自动化运维提升团队效率，真正为中大型运营团队构建了安

深开鸿技术专区

TermiWatch高级技巧：如何添加自定义健康指标和通知功能

TermiWatch是一款专为Apple Watch设计的Terminal风格表盘应用，通过本文的高级技巧，你将学会如何为其添加自定义健康指标显示和个性化通知功能，让你的Apple Watch表盘更具实用性和个性化。## 准备工作：项目结构与开发环境在开始自定义之前，我们需要了解TermiWatch的项目结构。健康指标相关功能主要通过`TermiWatch WatchKit Extensi