hadoop单机/伪分布式的搭建记录-EW帮帮网

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客

【Hadoop零基础从Ubuntu开始搭建-哔哩哔哩】 https://b23.tv/YJ5KXtA

http:// https://b23.tv/YJ5KXtA

主要参考以上资料

一．实验目的

1. Ubuntu Linux操作系统的安装；

2. Hadoop Multi Node Cluster的安装。

3.Hadoop HDFS操作。

4.搭建单机、伪分布式hadoop

二、实验内容

1. 虚拟机的安装

1下载VMware Workstation、并且安装

2下载ubantu20.04

在Ubuntu官网找到如下界面下载ubuntu20.04镜像

1.3安装一台虚拟机

这个步骤需要创建一个自定义的虚拟机，如上图所示为一些需要注意的设置，我们选用已经下载好ubuntu20.04镜像作为CD驱动，创建一个虚拟机。

4进行ubuntu的基础配置

通过1.2我们已经创建好了一个名为ubuntu1的虚拟机，接下来我们需要设置镜像源，默认镜像源是国外的我们需要把它设置成国内的镜像源，如下图所示。另外还需要安装VMtool工具这样可以使ubuntu使用更加的便捷实现拖拽和复制粘贴的功能。

2. 安装必要工具

2.1更新apt、下载vim

使用下方命令进行软件更新，结果如下图所示。

使用下方命令进行vim的安装，结果如图。

2.2 安装SSH

集群、单节点模式都需要用到 SSH 登陆（类似于远程登陆，我们可以登录某台 Linux 主机，并且在上面运行命令），Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server，命令与最终结果如下图所示：

安装完后，我们可以使用ssh localhost登录本机，为了方便登录我们需要配置成ssh无密码登录比较方便，首先推出刚刚的ssh回到原来的终端窗口，在利用ssh-keygen生成密钥，并将其加入授权中。此时在用ssh localhost命令登录时就可以不用输入密码了。命令行与执行结果如下：

2.3 安装JDK，安装hadoop所需的Java运行环境

执行第一条指令进行安装JDK

执行第二条指令打开环境变量bashrc文件进行修改

打开后加入以下代码

执行第三条命令让环境变量生效

至此就成功的安装了JAVA环境。

2.4 安装Hadoop

如下图所示，我们在hadoop官网上面下载hadoop-2.9.1.tar.gz 压缩包，并且把他拖至虚拟机中解压，将解压的文件放入/usr/local文件夹。

接着我们还需要给文件设置权限，以及测试hadoop的安装情况，命令行与运行结果如下：

上图可以看出hadoop的版本信息。

3.hadoop单机模式的运行

Hadoop 默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单 Java 进程，方便进行调试。

在此我们选择运行 grep 例子，我们将 input 文件夹中的所有文件作为输入，筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数，最后输出结果到 output 文件夹中。运行结果如下图所示

执行成功后如下所示，输出了作业的相关信息，输出的结果是符合正则的单词 dfsadmin 出现了1次。记得再次运行时删除。

4.hadoop伪分布式配置相关文件

Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 ~/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式，每个配置以声明 property 的 name 和 value 的方式来实现。

4.1 修改hadoop 的配置文件

4.1.1 core-site.xml

4.1.2 hdfs-site.xml

4.2 配置完成之后，格式化

运行结果如下

有这两个信息就是配置成功了。

4.3启动hadoop

如下图所示，进行hadoop的启动。

四、实验中遇到的问题

4.1 ssh的问题

上图是我在启动hadoop时遇到的问题，经过查询发现是ssh远程连接出现失误，于是我开始从头查找ssh的错误，发现其权限有误，经过网上各种方法的尝试，最终选择卸载重装ssh。

4.2 JAVA的版本问题

在格式化处理hadoop时出现如下错误，经查询时java的版本不兼容，所以我们降低java的版本选择jdk-8u162-linux-x64.tar.gz，解决了此问题。下方两张图都遇到这个问题。

4.3 下载的hadoop的问题

如下图，我们可以看到hadoop文件内容的缺失问题，应该是当时下载的时候网络问题，重新下载即可。

4.4 重复格式化的问题

由于hadoop不能覆盖已有内容，当我们已经格式化生成相应文件后，不能再次执行此指令，我们可以删除文件之后，执行指令即可

到此问题总结完成。

本文含有隐藏内容，请开通VIP 后查看

hadoop单机/伪分布式的搭建记录

网站公告

今日签到

热门文章

最新发布