大数据Hadoop之——安装部署hadoop-EW帮帮网

系统级（全局）	`/etc/profile`, `/etc/bash.bashrc`, `/etc/bashrc`	对所有用户生效
用户级（个人）	`~/.bash_profile`, `~/.bashrc`, `~/.profile`	只对当前用户生效

`/etc/profile`	✅ 几乎所有 Linux/Unix 系统都有	Ubuntu、CentOS、macOS 等
`/etc/bashrc`	✅ CentOS/RHEL 系统使用	CentOS、RHEL、Fedora
`/etc/bash.bashrc`	✅ Ubuntu 使用	Ubuntu、Debian
`~/.bash_profile`	✅ 用户可创建	所有支持 Bash 的系统
`~/.profile`	✅ Ubuntu 默认生成	Ubuntu、Debian
`~/.bashrc`	✅ 用户级 shell 配置	所有支持 Bash 的系统

vi /etc/profile

export JAVA_HOME=/opt/module/java #此处是自己实际的Java安装路径

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$PATH:$JAVA_HOME/bin

3、加载环境变量

source /etc/profile

验证环境变量是否生效:

env | grep HOME

env | grep PATH

4、进行校验

二、hadoop的环境搭建

1、hadoop的下载安装

1.1. 下载

https://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/
下载 hadoop-3.2.2.tar.gz 安装包

1.2 上传
使用xshell上传到指定安装路径

此处是安装路径是 /opt/module

1.3 解压重命名

tar -xzvf hadoop-3.2.2.tar.gz

mv hadoop-3.2.2 hadoop

1.4 配置环境变量

vi /etc/profile

export JAVA_HOME=/opt/module/java

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HADOOP_HOME=/opt/module/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

1.5 加载环境变量

source /etc/profile

验证环境变量是否生效:

env | grep HOME

env | grep PATH

1.6检验安装

hadoop version

出现下图说明安装成功

2、配置文件设置

2.1. 配置 hadoop-env.sh

hadoop伪分布式配置

export HADOOP_OS_TYPE=${HADOOP_OS_TYPE:-$(uname -s)}
export JAVA_HOME=/opt/module/java

2.2. 配置 core-site.xml

<configuration>
   
   <property>
       <name>fs.defaultFS</name>
       <value>hdfs://hadoop001:9000</value>
       <description>配置NameNode的URL</description>
   </property>

   
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/module/hadoop/data</value>
   </property>

  配置hive内容（下面要安装hive，因此需要增加下面内容，否则不添加）
   
   <property>
       <name>hadoop.proxyuser.root.hosts</name>
       <value>*</value>
   </property>

   
   <property>
       <name>hadoop.proxyuser.root.groups</name>
       <value>*</value>
   </property>

   
   <property>
       <name>hadoop.proxyuser.root.users</name>
       <value>*</value>
   </property>
</configuration>

2.3. 配置 hdfs-site.xml

<configuration>

   <property>
       <name>dfs.replication</name>
       <value>1</value>
   </property>
   
   <property>
<name>dfs.namenode.name.dir</name>
<value>/opt/module/hadoop/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/module/hadoop/data/datanode</value>
</property>
   
   <property>
       <name>dfs.permissions.enabled </name>
       <value>false</value>
   </property>


<property>
       <name>dfs.http.address</name>
       <value>hadoop001:9870</value>
   </property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop001:6002</value>
</property>
</configuration>

2.4. 配置 yarn-site.xml

<configuration>
   
   
   
   
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>



<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop001</value>
</property>







<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>




<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>512</value>
</property>
   
   
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>4096</value>
</property>




<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>






<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>true</value>
</property>

   
   
   
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
</configuration>

2.5. 配置 mapred-site.xml

<configuration>
   

  
   <property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
   </property>


   
   <property>
   <name>yarn.app.mapreduce.am.env</name>
   <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
   </property>
   
   <property>
   <name>mapreduce.map.env</name>
   <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
   </property>
   
   <property>
   <name>mapreduce.reduce.env</name>
   <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
   </property>
</configuration>

3、Hdfs格式化

cd /opt/module/hadoop/

bin/hdfs namenode -format

下图表示初始化成功

4、启动hdfs

启动hdfs分布式文件系统

cd /opt/module//hadoop/sbin

>> start-dfs.sh

使用 jps 查看启动进程

5、访问HDFS系统

访问HDFS分布式文件系统的web页面，如：http://192.168.200.130:9870/

6、启动yarn

启动Yarn进程。

cd /opt/module/hadoop/sbin

>> start-yarn.sh

使用 jps 查看启动进程

7、访问Yarn平台页面

访问hadoop分布式yarn页面，如：http://192.168.200.130:8088/

8、Hadoop的集群模式(伪分布式省略)

如果是伪分布式模式，此过程可以省略。

8.1.集群规划

模块

hadoop001

hadoop002

hadoop003

HDFS子进程

NameNode

DataNode

SecondaryNameNode

DataNode

YARN子进程

NodeManager

ResourceManager

NodeManager

8.2.设置免密登陆

配置集群免密登录

传送门

8.3.修改hdfs-site.xml

修改数据的副本数量
secondname的主机设置(可选)

<property>
       <name>dfs.replication</name>
       <value>3</value>
   </property>




<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop003:6002</value>
</property>

8.4.修改workers

将原来的localhost改为节点主机名

hadoop001

hadoop002

hadoop003

8.5.修改mapred-site.xml

配置历史服务器(可选)

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>hadoop001:10020</value>

</property>



<property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>hadoop001:19888</value>

</property>

8.6.修改yarn-site.xml

指定ResourceManager的地址：对于目前学习来说不改也可以，但在实际生产过程中 resourcemanager 和 namenode是在不同主机上，避免生产过程中资源不足导致内存溢出情况。

指定ResourceManager的地址(可选)
配置日志的聚集(可选)



<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop002</value>
</property>



<property>

    <name>yarn.log-aggregation-enable</name>

    <value>true</value>

</property>



<property>

    <name>yarn.log.server.url</name>

    <value>http://hadoop001:19888/jobhistory/logs</value>

</property>



<property>

    <name>yarn.log-aggregation.retain-seconds</name>

    <value>604800</value>

</property>

8.7.分发文件

注意：在分发文件前要做好三台机器的IP与主机名映射 /etc/hosts

进行分发文件

scp -r /opt/module/hadoop root@hadoop002:/opt/module/hadoop

scp -r /opt/module/hadoop root@hadoop003:/opt/module/hadoop

scp -r /opt/module/java root@hadoop002:/opt/module/java

scp -r /opt/module/java root@hadoop003:/opt/module/java

scp -r /etc/profile root@hadoop002:/etc/profile

scp -r /etc/profile root@hadoop003:/etc/profile

让三台机器文件生效

ssh hadoop001 "source /etcprofile"
ssh hadoop002 "source /etcprofile"
ssh hadoop003 "source /etcprofile"

8.8.停止服务删除目录

停止服务

cd /opt/module/hadoop/sbin

>> stop-all.sh

删除格式化后的目录重新格式化

rm -rf /opt/module/hadoop/data

rm -rf /opt/module/hadoop/logs/*

/opt/module/hadoop/bin/hdfs namenode -format

8.9.重启服务

在hadoop001 上启动HDFS

cd /opt/module/hadoop/sbin

>> start-dfs.sh

在hadoop002 上启动YARN

cd /opt/module/hadoop/sbin

>> start-yarn.sh

群起脚本：

touch /usr/bin/hdall.sh

chmod 777 /usr/bin/hdall.sh

vi /usr/bin/hdall.sh

#!/bin/bash
if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi
case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop001 "/opt/module/hadoop/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop002 "/opt/module/hadoop/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop001 "/opt/module/hadoop/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop001 "/opt/module/hadoop/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop002 "/opt/module/hadoop/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop001 "/opt/module/hadoop/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

群起：/usr/bin/hdall.sh start

群停：/usr/bin/hdall.sh stop

如果：ResourceManager的地址和secondname的地址都是hadoop001，则在hadoop001 上启动HDFS和YARN

cd /opt/module/hadoop/sbin

>> start-all.sh

大数据Hadoop之——安装部署hadoop

前期准备

一、JDK的安装

1、安装jdk

2、配置Java环境变量

3、加载环境变量

4、进行校验

二、hadoop的环境搭建

1、hadoop的下载安装

2、配置文件设置

2.1. 配置 hadoop-env.sh

2.2. 配置 core-site.xml

2.3. 配置 hdfs-site.xml

2.4. 配置 yarn-site.xml

2.5. 配置 mapred-site.xml

3、Hdfs格式化

4、启动hdfs

5、访问HDFS系统

6、启动yarn

7、访问Yarn平台页面

8、Hadoop的集群模式(伪分布式省略)

8.1.集群规划

8.2.设置免密登陆

8.3.修改hdfs-site.xml

8.4.修改workers

8.5.修改mapred-site.xml

8.6.修改yarn-site.xml

8.7.分发文件

8.8.停止服务删除目录

8.9.重启服务

网站公告

今日签到

热门文章

最新发布