hadoop集群单词统计(ssh与web)

发布于:2025-06-07 ⋅ 阅读:(17) ⋅ 点赞:(0)

准备工作

本文不包含部署过程,请自行搜索教程
请确保已经部署好集群并且可正常启动
准备一个txt测试文件,例如
在这里插入图片描述

一、SSH

1.通过ssh连接集群的主节点

在这里插入图片描述

2.将刚才的txt文件上传到主机中

我这个软件是finalshell
在这里插入图片描述

3.启动集群

start-all.sh

在这里插入图片描述

4.上传测试文件

# 创建目录(-p 确保父目录存在)
hdfs dfs -mkdir -p /wordcount/input

# 上传本地文件到 HDFS(假设你的数据在本地 /path/to/local/input)
hdfs dfs -put /path/to/local/input/* /wordcount/input/

注意这个目录是集群上的目录,和你本地目录不是一个意思

5.计算

(1)进入mapreduce的目录
在这里插入图片描述
(2)注意你想输出的目录是不能存在的,如果已经有了会报错,删掉
在这里插入图片描述

hdfs dfs -rm -r /wordcount/output

(3)运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

6.结果

hdfs dfs -ls /wordcount/output
hdfs dfs -cat /wordcount/output/part-r-00000

这个part文件你也可以再从集群下载到本地导出
在这里插入图片描述

二、web

web就不用ssh连接,都是虚拟机里直接操作

1.启动集群

start-all.sh

2.创建目录并上传文件

(1)打开浏览器,直接进入本地集群
在这里插入图片描述
(2)给权限

hdfs dfs -chmod 777 /

(3)创建目录/wordcount/input

(3)可以看到这是刚刚创建的目录,现在以当前用户新建wordcount2/input

可以直接修改权限
在这里插入图片描述

(4)input下上传文件
在这里插入图片描述

但是可能发现上传失败
看一下记录
在这里插入图片描述
这里我们可以看到是想通过2和3节点上传,但是windows不知道这两个节点的ip,所以连接不到,那么给windows系统配置一下

此目录下右键hosts选择属性
在这里插入图片描述
在这里插入图片描述

用记事本打开
最后面写上ip和名称对应,保存关闭
在这里插入图片描述

3.运行

回虚拟机,从刚才创建的目录执行
(1)进入mapreduce的目录
在这里插入图片描述
(2)注意你想输出的目录是不能存在的,如果已经有了会报错,删掉
在这里插入图片描述

hdfs dfs -rm -r /wordcount/output

(3)运行

hadoop jar hadoop-mapreduce-examples-3.3.5.jar wordcount /wordcount/input /wordcount/output

在这里插入图片描述

(4)下载
回到web,刷新一下
在这里插入图片描述点进新的文件夹
在这里插入图片描述

下面那个就是结果,直接点击下载
在这里插入图片描述
记事本打开直接看结果
在这里插入图片描述