Hadoop MapReduce 3.3.4 讲解~-EW帮帮网

在这里插## 标题入图片描述

> 大家好，我是程序员小羊！

✨博客主页： https://blog.csdn.net/m0_63815035?type=blog

💗《博客内容》：.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识
📢博客专栏： https://blog.csdn.net/m0_63815035/category_11954877.html
📢欢迎点赞 👍 收藏 ⭐留言 📝
📢本文为学习笔记资料，如有侵权，请联系我删除，疏漏之处还请指正🙉
📢大厦之成，非一木之材也；大海之阔，非一流之归也✨

在这里插入图片描述

前言

Hadoop是一个开源的分布式计算框架，主要用于处理和存储大规模数据集。它的设计初衷是解决海量数据的存储和计算问题，具有高容错性、高扩展性和低成本等特点。下面详细讲解Hadoop的核心知识点：

设计思想

在这里插入图片描述

1. MapReduce的基本概念

定义：一种分布式计算模型，用于处理海量数据的并行计算
核心思想：将复杂的计算任务分解为Map（映射）和Reduce（归约）两个阶段
优势：
- 自动实现并行处理
- 提供容错机制
- 处理PB级别的海量数据
- 适用于各种分布式计算场景

2. MapReduce的核心组件

JobTracker：负责整个作业的调度和监控（Hadoop 1.x中，Hadoop 2.x中被YARN的ResourceManager替代）
TaskTracker：运行在每个节点上，负责执行具体任务（Hadoop 1.x中，Hadoop 2.x中被YARN的NodeManager替代）
Map Task：执行Map阶段的任务
Reduce Task：执行Reduce阶段的任务
InputSplit：输入数据的逻辑分片，每个分片由一个Map Task处理
Combiner：可选的本地Reduce操作，用于减少Map输出的数据量
Partitioner：决定Map输出的键值对分配到哪个Reduce Task

3. MapReduce的工作流程

输入分片（InputSplit）
- 将输入数据分割成多个InputSplit（通常与HDFS块大小一致）
- 每个InputSplit由一个Map Task处理
Map阶段
- 读取InputSplit中的数据，解析成键值对（K1, V1）
- 对每个键值对执行map函数，生成中间键值对（K2, V2）
- 示例：计算单词频率时，将(“文档1”, “hello world”)转换为(“hello”, 1)、(“world”, 1)
Shuffle阶段（核心）
- 分区（Partitioning）：根据Partitioner将Map输出分到不同的分区
- 排序（Sorting）：对每个分区内的键值对按键排序
- 合并（Combining）：可选操作，对排序后的结果进行本地合并，减少数据传输
- 归并（Merging）：将多个Map Task的输出合并成一个有序的数据集
Reduce阶段
- 读取Shuffle后的有序数据
- 对相同键的value集合执行reduce函数，生成最终键值对（K3, V3）
- 示例：将多个(“hello”, 1)合并为(“hello”, 5)
输出（Output）
- 将Reduce的输出写入到指定的存储系统（通常是HDFS）

4. MapReduce的数据处理模型

键值对：MapReduce的所有数据处理都基于键值对（Key-Value Pair）
数据类型：所有的Key和Value都必须实现Writable接口，常用类型包括：
- Text：用于字符串
- IntWritable：用于整数
- LongWritable：用于长整数
- DoubleWritable：用于浮点数
函数定义：
- Map函数：map(K1, V1) → list(K2, V2)
- Reduce函数：reduce(K2, list(V2)) → list(K3, V3)

5. Shuffle机制详解

Shuffle是MapReduce的核心，连接Map和Reduce阶段，负责数据的传输和处理：

Map端的Shuffle
- 环形缓冲区：Map输出先写入内存缓冲区（默认100MB）
- 溢出写（Spill）：当缓冲区达到阈值（默认80%），将数据写入磁盘
- 合并溢出文件：将多个溢出文件合并成一个有序文件
Reduce端的Shuffle
- 拉取数据（Fetch）：Reduce Task从各个Map Task拉取属于自己的分区数据
- 合并数据（Merge）：将拉取的多个数据片段合并成一个大的有序数据集
- 分组（Grouping）：将相同Key的Value合并成一个列表

6. MapReduce的优化策略

数据本地化：尽量将计算任务分配到数据所在的节点，减少网络传输
Combiner使用：在Map端进行本地聚合，减少Shuffle阶段的数据量
合理设置Map和Reduce数量：根据数据大小和集群规模调整
压缩：对Map输出和中间数据进行压缩，减少IO操作
JVM重用：在TaskTracker上重用JVM，减少启动开销
调整缓冲区大小：根据内存情况调整Map阶段的缓冲区大小

7. MapReduce的应用场景

日志分析：统计访问量、用户行为分析等
数据挖掘：关联规则挖掘、聚类分析等
机器学习：训练大规模数据集的模型
搜索引擎：网页排序、关键词统计等
数据转换：数据格式转换、数据清洗等

8. MapReduce与YARN的关系

在Hadoop 2.x中，MapReduce运行在YARN框架上：

ResourceManager负责集群资源管理
ApplicationMaster负责MapReduce作业的生命周期管理
NodeManager负责单个节点的资源管理和任务执行
Container为Map和Reduce任务提供计算资源

今天这篇文章就到这里了，大厦之成，非一木之材也；大海之阔，非一流之归也。感谢大家观看本文

在这里插入图片描述

Hadoop MapReduce 3.3.4 讲解~

目录

前言

设计思想

1. MapReduce的基本概念

2. MapReduce的核心组件

3. MapReduce的工作流程

4. MapReduce的数据处理模型

5. Shuffle机制详解

6. MapReduce的优化策略

7. MapReduce的应用场景

8. MapReduce与YARN的关系

网站公告

今日签到

热门文章

最新发布