首先声明一下,这个是本人在上课和自学hadoop时的经验和遇到的问题,包括很多部分,以后会更新更多的内容,比如hive kafka 等,几乎囊括了所有的hadoop组件。后续还会更新一些hadoop以外的大数据知识,希望大家一起学习一起进步。如遇侵权,请联系删除。
(1)这一篇组要讲了虚拟机的搭建,网络主机名配置,虚拟机之间的免密登录,notepad++使用
接下来就步入正文
首先要了解一下hadoop是什么,当初在我刚接触hadoop的时候我也很迷茫,后来在上课学习到了linux系统之后,我才渐渐对hadoop有了了解,用我自己的话来理解就是apache开发的一个大数据集成平台,在上面可以兼容很多的组件,利用mapreduce(后文简称mr)计算和hdfs来进行存储,对大数据的海量数据处理十分方便。
搭建hadoop集群环境
要使用这个工具首先需要搭建这个环境,我的hadoop是在linux的系统下运行的
这就需要用到虚拟机了 。
一安装linux
通过安装包进行vmware的安装
我这里是安装的vm15.0,当然大家其他版本可以,我会以百度网盘连接的方式把这些分析给大家
http://链接:https://pan.baidu.com/s/1gNrpPtg1fsz6A4AK4nWuIg?pwd=1234 提取码:1234
安装密码
ZC10K-8EF57-084QZ-VXYXE-ZF2XF
(软件仅供自己学习用,请勿移做他用)
安装完这些之后就需要为虚拟机加一个镜像centos才能使用,下面是镜像下载地址
http://链接:https://pan.baidu.com/s/1YjjPrPLN3ZjEd20nnBihxQ?pwd=1234 提取码:1234
安装一个虚拟机
二网络配置
这里得网络配置十分重要,关系到后面的虚拟机网络配置和host文件配置
尤其是子网配置
在虚拟机进入这个文档并进行网络配置
cd /etc/sysconfig/network-scripts
vi ifcfg-ens33
每次更改适配器以后都要重启网络
下面还有另外一种重启网络的方法
用ip addr查看
还有ping来查看网络配置是否成功
使用secure crt工具
secure crt工具是一个在外连接操作虚拟机的软件,可以同时操作多个虚拟机,当然相同功能的也有xshell,大家可以自行选择
在创建虚拟机的过程中新建了一个hadoop001,但他和我原来克隆的hadoop02是一个ip地址,最后先跳过了此步骤先更改主机ip和掩码等信息
然后才成功连接crt
所以要先进性连接在克隆虚拟机。
静态ip配置
使用crt
更改主机名
主机名和ip地址建立映射问题
接下来是用note++进行host文件的配置
notepad ++工具是一个连接更改文件的软件,不仅可以十分方便更改虚拟机的文件配置,也可以对主机的文件进行配置,十分的方便。是一个大数据学习常用的工具,而且在使用电脑时也非常方便。
这时打开了c盘里的host文件,文件具体位置在图片顶端
配置工作环境文件
新建一些要工作时需要
需要注意的是
一定要在根目录下创建这些目录
不然后来会出许多错误
第一次创建就踩坑了
Cd..进入根目录(这里在写csdn的时候会转成中文,大家注意中英文转换)
三虚拟机的克隆
先克隆一个主机001的完全体的克隆
值得一提的是
在做程序的各个阶段都可以克隆一下
相当于一个备份
如果主机突然崩溃了
可以用备用的虚拟机
(这里有一个更方便的方法,就是快照,他可以在你想的时候随时回到某个时间节点,一般一个虚拟机快照会占用十几G的内存)
这就是快所在的地方了,这是我后来自己探索的(手机拍是因为懒得开截图软件了)
开始克隆
接下来就是再克隆出三台连接虚拟机
连接虚拟机和完全虚拟机的区别在于
完全虚拟机不受原主机的影响
而且性能也有一定的影响
然后就是克隆机的网络配置
修改主机克隆后的主机名
建立主机名个ip地址的映射关系
注意看这个地址在左下角写了
为什么要说这个,因为我看攻略的时候有时候做着不写,我直接就蒙了。
将host文件赋值给其他虚拟机
到这里各个虚拟机就基本上是搭建好了,为什么有如此长的篇幅呢,因为这些最好一口气完成,不然很容易卡在某一步骤不知道哪错了。
四主机之间的免密登录
生成秘钥
复制秘钥
Hadoop001做完,接下来是002
接下来是003
但是做到这里的时候发现001的没有建到ssh文件下
所以回去重建了一下
到这里上边还输入密码的问题就解决了
003这里和002一样,就不再贴过程图片了
用003测试一下
在windows本地主机添加服务器名称
由于某些加速器会修改这个host文件
这里有时会重置
找不到问题时来这里看看
Ping一下看看是否成功
Notepad++的使用
这下就可以再在这里查看虚拟机里的文件了
到这里准备工作基本上就完成了,虽然还没进行到hadoop的安装,但是这些 准备是必不可少的,相当于地基,稍微出一点醋后面就会很麻烦,希望大家仔细学习。
hadoop的具体安装应该会在(3)写出来,(2)写jdk的安装,jdk也是hadoop甚至整个集群的一个不可或缺的部分,如有需要请大家移步主页。
如果有什么问题请大家私信或者评论,欢迎大家评论,看到我就会回复的。