物联网架构之Hadoop-EW帮帮网

案例概述

大数据时代，数以万计用户的互联网服务时时刻刻都在产生着大量交互，以传统的数据技术等其他手段应对数据处理的实时性，有效性的需求

HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势

大数据定义：

指无法在一定时间范围内用常规的软件工具进行捕捉，管理和处理的巨量数据集合
需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产数据

大数据的特点：

数据体量巨大。按目前的发展趋势看，大数据的体量已经达到PB甚至EB级
大数据的数据类型多样，以非结构化数据为主。如:网络日志、音频、视频、图片、地理位置信息、交易数据、社交数据等。
价值密度低。有价值的数据仅占到数据总量相当小的一部分。比如一段监控视频中真正有价值的画面可能只有几秒钟。由于价值密度低，所以迅速地完成数据的价值提纯是目前大数据汹涌背景下亟待解决的难题。
产生和要求处理速度快。这是大数据区分于传统数据挖掘最显著的特征。

常见的大数据处理系统

名称	类型	说明
Hadoop	开源	Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序
Spark	开源	类似 Hadoop MapReduce 的并行框架
Stom	开源	实时的、分布式以及具备高容错的计算系统
MongoDB	开源	面向文档的 NoSql 数据库
IBM PureData	商用	基于 Hadoop，属于IBM 专家集成系统 PureSystem 家族中的组成部分，主要面向大数据应用
Oracle ExaData	商用	Oracle 的新一代数据库云服务器
SAP Hana	商用	提供高性能的数据查询功能，用户可以直接对大量实时业务数据进行查询和分析
Teradata AsterData	商用	非结构化数据解决方案
EMC GreenPlum	商用	采用了大规模并行处理，支持50PB级海量存储与管理
HP Vertica	商用	列式大数据分析数据库

Hadoop简介

Hadoop是Apache基金会旗下的分布式系统基础架构
用户可以在不了解分布式底层细节的情况下，开发分布式程序
充分利用集群的为例进行高速运算和存储

特点

高可靠性
高拓展性
高效性
高容错性
低成本
可构建在廉价机器上

运行模式

单机模式（开发场景下）
伪分布模式
完全分布式模式

框架的核心构成

分布式文件系统（HDFS）
分布式计算系统（MapReduce）
分布式资源管理系统（YARN）

生态圈

在这里插入图片描述

分布式文件系统（HDFS）

HDFS定义
- 是一个主/从体系架构，以分布式进行存储的分布式文件系统
- 主要负责群集数据的存储与读取

优缺点

优点	缺点
存储超大文件	不适合低延迟数据访问
标准流式访问	不适合小文件存储
可构建在廉价机器上	不适合并发写入，文件随机修改

群集组成
- 一个NameNode节点
- 过个DateNode节点
数据写流程
- 客户端向NameNode发出文件写请求，NameNode告诉客户该向哪个DataNode写入文件
- 客户将文件写入该DataNode节点
- DataNode将自动复制数据到其它DataNode节点上，默认3份拷贝
数据块（Block）
- HDFS默认最基本的存储单位是数据块
- 默认大小为64MB（有些发行版本为128MB）
元数据节点（NameNode）
- 负责管理文件系统的命名空间
- 将所有文件和万恶年假的元数据保存至一个文件系统树中
元数据存放目录
- NameNode节点的hadoop/dfs/name/current目录中
- 由hdfs-site.xml中的dfs.namenode.name.dir属性指定
包含的文件类型
- fsimage_*、edits_ *、VERSION、…
数据节点
- 文件系统中真正存储数据的地方
- 一个文件被拆分成多个数据块后，分别存储至对应的数据节点上
数据存储目录
- DateNode节点的hadoop/dfs/data目录中
- 由hdfs-site.xml中的dfs.datanode.data.dir属性指定
包含的文件类型
- blk _<id>、blk_ <id>.meta.、…
从元数据节点（Secondary NameNode）
- 用于周期性备份NameNode节点上的元数据
- 可以用来恢复NameNode节点，但不能作为备用节点
- 为了防止宕机，通常是将Secondary NameNode和NameNode设置为不同的主机
- 使用hdfs-site.xml中配置的dfs.namenode.secondary.httpaddress属性值可以通过浏览器查看SecondaryNameNode运行状态

分布式计算系统（MapReduce）

MapReduce是一个实现了并行计算变成模型，用以进行大数据的计算
MapReduce包括
- map（映射）：map负责把任务分解成多个任务
- reduce（规约）：负责分解后多任务的处理结果进行汇总
框架包括
- JopTracke
  - 是一个Master 服务，用于作业(Job)的管理和调度工作。个 Hadoop 集群中只有一台 JobTracker。一般情况下，应该把它部署在单独的机器上。JobTracker负责创建、调度作业中的每一个子任务(MapTask或 ReduceTask)运行于 TaskTracker上，并监控它们。如果发现有失败的任务就重新运行它。
  - 执行由JobTracker分配的map或reduce任务
  - 定期执行Jop Tracker发送的心跳信号，报告自己的状态正在执行的任务进度
  - 接受Jop Tracker发送的新任务或种植任务的指令
  - 存储中间数据结果，并在必要时进行数据的本地化读取以提高效率
- TaskTracker
  - 是运行于多个节点上的 Slave 服务，用于执行任务。TaskTracker 需要运行在 HDFS 的 DataNode 上。

分布式资源管理系统（YARN）

产生背景

Hadoop1.0中的MapReduce架构面临的问题
- JobTracke单点故障
- JobTracke扩展瓶颈
- 作业延迟高
- 编程框架不够灵活
作用
- 目的是使Hadoop数据处理能力超越MapReduce

本章实战

IP	作用
192.168.10.101	node1
192.168.10.102	node2
192.168.10.103	node3

关闭防火墙

setenforce 0
sed -i '/^SELINUX=/s/enforcing/disabled/' /etc/selinux/config
systemctl stop firewalld
systemctl disable firewalld

为各个节点设置主机名

hostnamectl set-hostname node1
bash

hostnamectl set-hostname node2
bash

hostnamectl set-hostname node3
bash

修改每台主机的hosts文件

vim /etc/hosts
192.168.10.101 node1 
192.168.10.102 node2 
192.168.10.103 node3

创建hdoop用户组和hduser用户

[root@node1 ~]# groupadd hadoop
[root@node1 ~]# useradd -g hadoop hduser
[root@node1 ~]# passwd hduser

为hduser用户授权

gpasswd -a hduser wheel
[root@node1 ~]# visudo
##在末尾添加：
hduser  ALL=(ALL)       ALL

安装JDK

rpm -ivh jdk-8u171-linux-x64.rpm
##安装完成之后查看
java --version

[root@node1 ~]# vim /etc/profile
在末尾添加：
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64
export CLASSPATH=$JAVA_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

[root@node1 ~]# source /etc/profile

配置免密码登录（在node1上配置）

[root@node1 ~]# su - hduser
[hduser@node1 ~]$ ssh-keygen -t rsa		 //一路回车键即可 
[hduser@node1 ~]$ ssh-copy-id hduser@node1
[hduser@node1 ~]$ ssh-copy-id hduser@node2
[hduser@node1 ~]$ ssh-copy-id hduser@node3

安装Hadoop

在这里插入图片描述

将hadoop包拷贝到hduser的家目录并解压

##在node1上操作
[hduser@node1 ~]$ tar zxvf hadoop-2.6.5.tar.gz 
[hduser@node1 ~]$ mv hadoop-2.6.5 hadoop

配置hadoop的环境变量

[hduser@node1 ~]$ sudo vim /etc/profile
##在末尾添加：
export HADOOP_HOME=/home/hduser/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

[hduser@node1 ~]$ source /etc/profile

配置hadoop-env.sh****文件

[hduser@node1 ~]$ cd ~/hadoop/etc/hadoop/
[hduser@node1 hadoop]$ vim hadoop-env.sh 
在末尾添加：
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64

修改yarn-env.sh文件

[hduser@node1 hadoop]$ vim yarn-env.sh 
在末尾添加
export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64

修改slaves文件

[hduser@node1 hadoop]$ vim slaves
##清空文件中原有的内容
node2
node3

编辑core-site.xml文件

[hduser@node1 hadoop]$ vim core-site.xml
##在末尾找到<configuration>模块
##在里面添加配置： 
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://node1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hduser/hadoop/tmp</value>
</property>
</configuration>

编辑hdfs-site.xml文件

[hduser@node1 hadoop]$ vim hdfs-site.xml 
##在末尾找到<configuration>模块
##在里面添加：
<configuration>
<property><name>dfs.namenode.secondary.http-address</name><value>node1:50090</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hduser/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hduser/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

备注：

名称节点和数据节点的存放位置，文件副本数和读取权限。

修改mapred-site.xml文件

[hduser@node1 hadoop]$ cp mapred-site.xml.template  mapred-site.xml
[hduser@node1 hadoop]$ vim mapred-site.xml
##在末尾找到<configuration>模块，在里面添加：
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>node1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node1:19888</value>
</property>
</configuration>

备注：Mapreduce作业记录的web地址和端口

修改yarn-site.xml文件

[hduser@node1 hadoop]$ vim yarn-site.xml 


<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>node1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>

<value>node1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>node1:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>node1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>node1:8088</value>
</property>

</configuration>

备注：

resourcemanager、nodemanager的通信端口，web端口等信息

将hadoop目录拷贝到其他节点上

[root@node1 ~]#scp -r /home/hduser/hadoop node2:/home/hduser 
[root@node1 ~]#scp -r /home/hduser/hadoop node3:/home/hduser

验证安装配置

在 Master 主机（node1）上格式化 NameNode

[hduser@node1 ~]$ cd hadoop/
[hduser@node1 hadoop]$ bin/hdfs namenode -format
[hduser@node1 hadoop]$ sbin/start-dfs.sh

查看进程

[hduser@node1 hadoop]$ jps
##16721 Jps
##15687 NameNode
##15866 SecondaryNameNode

启动yarn

[hduser@node1 hadoop]$ sbin/start-yarn.sh

查看集群环境

[hduser@node1 hadoop]$ bin/hdfs dfsadmin -report

浏览器查看 HDFS 运行状态：
```
http://192.168.10.101:50070
```

运行 Hadoop 的 WordCount 程序

创建测试文件的目录
```
[hduser@node1 ~]$ mkdir ~/file
```

编辑测试文件

[hduser@node1 ~]$ cd ~/file/

[hduser@node1 file]$ echo "ni hao hadoop">file1.txt
[hduser@node1 file]$ echo "hello hadoop hi china">file2.txt

启动hadoop并创建hdfs目录

[hduser@node1 file]$ cd ~/hadoop/
[hduser@node1 hadoop]$ sbin/start-all.sh
[hduser@node1 hadoop]$ bin/hadoop fs -mkdir /input2

将file1和file2拷贝到hdfs存储目录中

[hduser@node1 hadoop]$ bin/hadoop fs -put ~/file/file* /input2/
[hduser@node1 hadoop]$ bin/hadoop fs -ls /input2/

执行WordCount程序，对文件进行统计

[hduser@node1 hadoop]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /input2/ /output2/wordcount1

注意：输出目录不能已存在，否则不会输出

查看执行结果

[hduser@node1 hadoop]$ bin/hadoop fs -cat /output2/wordcount1/*

如果看到输出结果证明hadoop安装成功

物联网架构之Hadoop

案例概述

大数据定义：

大数据的特点：

常见的大数据处理系统

Hadoop简介

特点

运行模式

框架的核心构成

生态圈

分布式文件系统（HDFS）

HDFS定义

优缺点

群集组成

数据写流程

数据块（Block）

元数据节点（NameNode）

元数据存放目录

包含的文件类型

数据节点

数据存储目录

包含的文件类型

从元数据节点（Secondary NameNode）

分布式计算系统（MapReduce）

MapReduce包括

框架包括

分布式资源管理系统（YARN）

产生背景

Hadoop1.0中的MapReduce架构面临的问题

作用

本章实战

网站公告

今日签到

热门文章

最新发布