hadoop单机/伪分布式的搭建记录

发布于:2022-11-07 ⋅ 阅读:(580) ⋅ 点赞:(0)

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)_厦大数据库实验室博客

【Hadoop零基础从Ubuntu开始搭建-哔哩哔哩】 https://b23.tv/YJ5KXtA

http:// https://b23.tv/YJ5KXtA

主要参考以上资料

一.实验目的

1. Ubuntu Linux操作系统的安装;

2. Hadoop Multi Node Cluster的安装。

3.Hadoop HDFS操作。

4.搭建单机、伪分布式hadoop

二、实验内容

1. 虚拟机的安装

  1. 1下载VMware Workstation、并且安装

  1. 2下载ubantu20.04

在Ubuntu官网找到如下界面下载ubuntu20.04镜像

1.3安装一台虚拟机

          

        

这个步骤需要创建一个自定义的虚拟机,如上图所示为一些需要注意的设置,我们选用已经下载好ubuntu20.04镜像作为CD驱动,创建一个虚拟机。

  1. 4进行ubuntu的基础配置

通过1.2我们已经创建好了一个名为ubuntu1的虚拟机,接下来我们需要设置镜像源,默认镜像源是国外的我们需要把它设置成国内的镜像源,如下图所示。另外还需要安装VMtool工具这样可以使ubuntu使用更加的便捷实现拖拽和复制粘贴的功能。

2. 安装必要工具

 2.1更新apt、下载vim

使用下方命令进行软件更新,结果如下图所示。

      

使用下方命令进行vim的安装,结果如图。

   

2.2 安装SSH

   集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,我们可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server,命令与最终结果如下图所示:

   

安装完后,我们可以使用ssh localhost登录本机,为了方便登录我们需要配置成ssh无密码登录比较方便,首先推出刚刚的ssh回到原来的终端窗口,在利用ssh-keygen生成密钥,并将其加入授权中。此时在用ssh localhost命令登录时就可以不用输入密码了。命令行与执行结果如下:

2.3 安装JDK,安装hadoop所需的Java运行环境

执行第一条指令进行安装JDK

执行第二条指令打开环境变量bashrc文件进行修改

打开后加入以下代码

执行第三条命令让环境变量生效

至此就成功的安装了JAVA环境。

2.4 安装Hadoop

   如下图所示,我们在hadoop官网上面下载hadoop-2.9.1.tar.gz 压缩包,并且把他拖至虚拟机中解压,将解压的文件放入/usr/local文件夹。

      

接着我们还需要给文件设置权限,以及测试hadoop的安装情况,命令行与运行结果如下:

上图可以看出hadoop的版本信息。

3.hadoop单机模式的运行

  Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。非分布式即单 Java 进程,方便进行调试。

在此我们选择运行 grep 例子,我们将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式 dfs[a-z.]+ 的单词并统计出现的次数,最后输出结果到 output 文件夹中。运行结果如下图所示

执行成功后如下所示,输出了作业的相关信息,输出的结果是符合正则的单词 dfsadmin 出现了1次。记得再次运行时删除。

4.hadoop伪分布式 配置相关文件

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。

Hadoop 的配置文件位于 ~/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml  hdfs-site.xml Hadoop的配置文件是 xml 格式,每个配置以声明 property name value 的方式来实现。

4.1 修改hadoop 的配置文件

4.1.1 core-site.xml

4.1.2 hdfs-site.xml

 4.2 配置完成之后,格式化

运行结果如下

有这两个信息就是配置成功了。

4.3启动hadoop

如下图所示,进行hadoop的启动。

四、实验中遇到的问题

4.1 ssh的问题

上图是我在启动hadoop时遇到的问题,经过查询发现是ssh远程连接出现失误,于是我开始从头查找ssh的错误,发现其权限有误,经过网上各种方法的尝试,最终选择卸载重装ssh。

   4.2 JAVA的版本问题

      在格式化处理hadoop时出现如下错误,经查询时java的版本不兼容,所以我们降低java的版本选择jdk-8u162-linux-x64.tar.gz,解决了此问题。下方两张图都遇到这个问题。

4.3 下载的hadoop的问题

如下图,我们可以看到hadoop文件内容的缺失问题,应该是当时下载的时候网络问题,重新下载即可。

4.4 重复格式化的问题

 由于hadoop不能覆盖已有内容,当我们已经格式化生成相应文件后,不能再次执行此指令,我们可以删除文件之后,执行指令即可

    

到此问题总结完成。

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到