大数据学习笔记(一):Hadoop笔记1

发布于:2022-08-05 ⋅ 阅读:(381) ⋅ 点赞:(0)

提示:有一些是参考了他人的总结,第一份笔记主要是进行一个初步的总结,后续将对mapreduce及HDFS进行详细的介绍和总结,整个大数据的路线将以python为主,有错误的地方欢迎批评指正。


大数据学习笔记(1):Hadoop笔记一

第一部分主要是对Hadoop的学习


`

一、Hadoop

分析和处理大数据的软件平台

1.简介

(1)分布式系统基础架构
(2)主要解决海量数据的存储和分析计算

2.优势

(1)高可靠性:底层维护多个数据副本(副本数一般为3),即使出现故障,也不会导致数据丢失。
(2)搞扩展性:可方便扩展数以千计的节点
(3)高效性:并行工作,加快任务处理速度
(4)高容错性:能自动将失败的任务重新分配

二、Hadoop1.0与2.0

1.对比

Hadoop1.0 Hadoop2.0
HDFS HDFS
MapReduce MapReduce
- Yarn
Hadoop框架最核心设计:HDFS,MapReduce
(1)HDFS负责存储海量数据
(2)MapReduce负责海量数据的计算(1.0还负责资源调度)
(3)2.0增加了YARN(负责资源调度)

2.Hadoop构成

2.1HDFS架构

1.采用master slave架构:

(1)NameNode(nn)为主,存储元数据(文件名,目录结构,文件属性等,以及每个文件的块列表和块所在的DataNode)
(2)DataNode(dn)为从,本地文件系统存储文件块数据以及块数据校验和
(3)Secondary NameNode(snn):每隔一段时间获取HDFS元数据快照

2.nm是一个进程:

(1)维护2份数据:文件名→block映射关系;block→dn映射关系
(2)1.0只有一个nm
(3)Secondary NameNode(snn):每隔一段时间获取HDFS元数据快照

3.优点:

(1)存储海量数据
(2)处理非结构化数据
(3)Secondary NameNode(snn):每隔一段时间获取HDFS元数据快照

2.2MapReduce架构

1.计算过程:

(1)Map阶段
(2)Reduce阶段

2.3YARN架构

1.ResourceManager(RM):

(1)本质是一个进程,处理客户端请求
(2)负责资源的分配
(3)监控NodeManager(NM)

2.AplicationMaster(AM):

(1)是任务的主,为应用程序申请资源
(2)本质是一个container
(3)负责任务调度

3.NodeManager(NM):

(1)接受RM请求,分配container资源
(2)通过心跳与RM通讯

4.container:

(1)是一个进程
(2)由NM启动,真正来执行任务

三、大数据生态架构体系

简图在这里插入图片描述

总结

第一节主要是对整体进行一个初步概括,后续会对各个环节进行一个详细的总结整理。整条路线及后续的环节将主要以python作为编程语言进行实战。有不对的地方欢迎指正。

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到