Hadoop MapReduce 3.3.4 讲解~

发布于:2025-08-05 ⋅ 阅读:(15) ⋅ 点赞:(0)

在这里插## 标题入图片描述

> 						大家好,我是程序员小羊!

✨博客主页: https://blog.csdn.net/m0_63815035?type=blog

💗《博客内容》:.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识
📢博客专栏: https://blog.csdn.net/m0_63815035/category_11954877.html
📢欢迎点赞 👍 收藏 ⭐留言 📝
📢本文为学习笔记资料,如有侵权,请联系我删除,疏漏之处还请指正🙉
📢大厦之成,非一木之材也;大海之阔,非一流之归也✨

在这里插入图片描述

在这里插入图片描述

前言

Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。它的设计初衷是解决海量数据的存储和计算问题,具有高容错性、高扩展性和低成本等特点。下面详细讲解Hadoop的核心知识点:

设计思想

在这里插入图片描述
在这里插入图片描述

1. MapReduce的基本概念

  • 定义:一种分布式计算模型,用于处理海量数据的并行计算
  • 核心思想:将复杂的计算任务分解为Map(映射)和Reduce(归约)两个阶段
  • 优势
    • 自动实现并行处理
    • 提供容错机制
    • 处理PB级别的海量数据
    • 适用于各种分布式计算场景

2. MapReduce的核心组件

  • JobTracker:负责整个作业的调度和监控(Hadoop 1.x中,Hadoop 2.x中被YARN的ResourceManager替代)
  • TaskTracker:运行在每个节点上,负责执行具体任务(Hadoop 1.x中,Hadoop 2.x中被YARN的NodeManager替代)
  • Map Task:执行Map阶段的任务
  • Reduce Task:执行Reduce阶段的任务
  • InputSplit:输入数据的逻辑分片,每个分片由一个Map Task处理
  • Combiner:可选的本地Reduce操作,用于减少Map输出的数据量
  • Partitioner:决定Map输出的键值对分配到哪个Reduce Task

3. MapReduce的工作流程

  1. 输入分片(InputSplit)

    • 将输入数据分割成多个InputSplit(通常与HDFS块大小一致)
    • 每个InputSplit由一个Map Task处理
  2. Map阶段

    • 读取InputSplit中的数据,解析成键值对(K1, V1)
    • 对每个键值对执行map函数,生成中间键值对(K2, V2)
    • 示例:计算单词频率时,将(“文档1”, “hello world”)转换为(“hello”, 1)、(“world”, 1)
  3. Shuffle阶段(核心)

    • 分区(Partitioning):根据Partitioner将Map输出分到不同的分区
    • 排序(Sorting):对每个分区内的键值对按键排序
    • 合并(Combining):可选操作,对排序后的结果进行本地合并,减少数据传输
    • 归并(Merging):将多个Map Task的输出合并成一个有序的数据集
  4. Reduce阶段

    • 读取Shuffle后的有序数据
    • 对相同键的value集合执行reduce函数,生成最终键值对(K3, V3)
    • 示例:将多个(“hello”, 1)合并为(“hello”, 5)
  5. 输出(Output)

    • 将Reduce的输出写入到指定的存储系统(通常是HDFS)

4. MapReduce的数据处理模型

  • 键值对:MapReduce的所有数据处理都基于键值对(Key-Value Pair)

  • 数据类型:所有的Key和Value都必须实现Writable接口,常用类型包括:

    • Text:用于字符串
    • IntWritable:用于整数
    • LongWritable:用于长整数
    • DoubleWritable:用于浮点数
  • 函数定义

    • Map函数:map(K1, V1) → list(K2, V2)
    • Reduce函数:reduce(K2, list(V2)) → list(K3, V3)

5. Shuffle机制详解

Shuffle是MapReduce的核心,连接Map和Reduce阶段,负责数据的传输和处理:

  1. Map端的Shuffle

    • 环形缓冲区:Map输出先写入内存缓冲区(默认100MB)
    • 溢出写(Spill):当缓冲区达到阈值(默认80%),将数据写入磁盘
    • 合并溢出文件:将多个溢出文件合并成一个有序文件
  2. Reduce端的Shuffle

    • 拉取数据(Fetch):Reduce Task从各个Map Task拉取属于自己的分区数据
    • 合并数据(Merge):将拉取的多个数据片段合并成一个大的有序数据集
    • 分组(Grouping):将相同Key的Value合并成一个列表

6. MapReduce的优化策略

  • 数据本地化:尽量将计算任务分配到数据所在的节点,减少网络传输
  • Combiner使用:在Map端进行本地聚合,减少Shuffle阶段的数据量
  • 合理设置Map和Reduce数量:根据数据大小和集群规模调整
  • 压缩:对Map输出和中间数据进行压缩,减少IO操作
  • JVM重用:在TaskTracker上重用JVM,减少启动开销
  • 调整缓冲区大小:根据内存情况调整Map阶段的缓冲区大小

7. MapReduce的应用场景

  • 日志分析:统计访问量、用户行为分析等
  • 数据挖掘:关联规则挖掘、聚类分析等
  • 机器学习:训练大规模数据集的模型
  • 搜索引擎:网页排序、关键词统计等
  • 数据转换:数据格式转换、数据清洗等

8. MapReduce与YARN的关系

在Hadoop 2.x中,MapReduce运行在YARN框架上:

  • ResourceManager负责集群资源管理
  • ApplicationMaster负责MapReduce作业的生命周期管理
  • NodeManager负责单个节点的资源管理和任务执行
  • Container为Map和Reduce任务提供计算资源
今天这篇文章就到这里了,大厦之成,非一木之材也;大海之阔,非一流之归也。感谢大家观看本文

在这里插入图片描述


网站公告

今日签到

点亮在社区的每一天
去签到