HDFS的Shell操作-易微帮

一、进程启停管理

（一）一键启停脚本

（二）单进程启停

二、文件系统操作命令

一、进程启停管理

（一）一键启停脚本

Hadoop HDFS组件内置了HDFS集群的一键启停脚本。

$HADOOP_HOME/sbin/start-dfs.sh，一键启动HDFS集群

执行原理：

1.在执行此脚本的机器上，启动SecondaryNameNode

2.读取core-site.xml内容（fs.defaultFS项），确认NameNode所在机器，启动NameNode

3.读取workers内容，确认DataNode所在机器，启动全部DataNode

$HADOOP_HOME/sbin/stop-dfs.sh，一键关闭HDFS集群

执行原理：

1.在执行此脚本的机器上，关闭SecondaryNameNode

2.读取core-site.xml内容（fs.defaultFS项），确认NameNode所在机器，关闭NameNode

3.读取workers内容，确认DataNode所在机器，关闭全部NameNode

（二）单进程启停

除了一键启停外，也可以单独控制进程的启停。

1. $HADOOP_HOME/sbin/hadoop-daemon.sh，此脚本可以单独控制所在机器的进程的启停

用法：hadoop-daemon.sh (start|status|stop) (namenode|secondarynamenode|datanode)

2. $HADOOP_HOME/bin/hdfs，此程序也可以用以单独控制所在机器的进程的启停

用法：hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode)

二、文件系统操作命令

（一）HDFS文件系统基本信息

1.前置介绍

HDFS文件系统基本信息

HDFS作为分布式存储的文件系统，有其对数据的路径表达方式。

HDFS同Linux系统一样，均是以/作为根目录的组织形式

Linux： /usr/local/hello.txt

HDFS： /usr/local/hello.txt

如何区分呢？

Linux：file:///

HDFS：hdfs://namenode:port/

hdfs://就是hdfs文件系统的协议

namenode主机名和通讯端口

如上路径：

Linux：file:///usr/local/hello.txt

HDFS：hdfs://hp1:8020/usr/local/hello.txt

协议头file:/// 或 hdfs://hp1:8020/可以省略

需要提供Linux路径的参数，会自动识别为file://

除非你明确需要写或不写会有BUG，否则一般不用写协议头

（二）命令介绍

1.新旧版本命令介绍

关于HDFS文件系统的操作命令，Hadoop提供了2套命令体系

hadoop命令（老版本用法），用法：hadoop fs [generic options]

hdfs命令（新版本用法），用法：hdfs dfs [generic options]

两者在文件系统操作上，用法完全一致

用哪个都可以

某些特殊操作需要选择hadoop命令或hdfs命令

2.创建文件夹

hadoop fs -mkdir [-p] <path> ...

hdfs dfs -mkdir [-p] <path> ...

path 为待创建的目录

-p选项的行为与Linux mkdir -p一致，它会沿着路径创建父目录。

当前作为hadoop用户，没有权限在linu本地根目录下创建文件，所以路径改为home下的hadoop，这样就在linux本地创建了一个叫test的文件夹，因为我们使用的协议头是file:///

如果你要在整个hadoop中创建，应当这样写：

这样就是创建在我们hdfs里面的

协议头也是可以不用写的，像这样：

3.查看指定目录下内容

hadoop fs -ls [-h] [-R] [<path> ...]

hdfs dfs -ls [-h] [-R] [<path> ...]

path 指定目录路径（你要查看的路径）

-h 人性化显示文件size

不带 -R 就只能看到根下面有什么

4.上传文件到HDFS指定目录下

是从Linux到hdfs的过程

hadoop fs -put [-f] [-p] <localsrc> ... <dst>

hdfs dfs -put [-f] [-p] <localsrc> ... <dst>

-f 覆盖目标文件（已存在下）

上传文件有冲突的话可以直接-f覆盖掉

-p 保留访问和修改时间，所有权和权限。

localsrc 本地文件系统（客户端所在机器）

dst 目标文件系统（HDFS）

在hadoop的home目录下创建一个文件夹

里面写上你想写的内容，然后保存退出

这个时候就可以看到我们home目录下面有我们刚刚创建的txt文件

现在我们要把这个文件上传到整个hadoop系统的根目录下面

我们再上传一个

先新建

可以看到本地有了该文件

此次上传不带协议头，可以发现仍旧上传成功

5.查看HDFS文件内容

hadoop fs -cat <src> ...

hdfs dfs -cat <src> ...

读取指定文件全部内容，显示在标准输出控制台。

读取大文件可以使用管道符配合more

hadoop fs -cat <src> | more

hdfs dfs -cat <src> | more

真正的生产环境中，数据量非常大，60GB都有可能，此时用cat看内容是输出不完整的，软件中断容易干崩溃。所以对于大文件来说，我们可以借用linux的管道符，给它一个more命令，more是Linux中对内容进行翻页的命令，然后按空格翻页

hadoop fs -cat /test.txt | more

补充一点：set nu 显示行号

6.下载HDFS文件

下载是hdfs向linux去下载

hadoop fs -get [-f] [-p] <src> ... <localdst>

hdfs dfs -get [-f] [-p] <src> ... <localdst>

下载文件到本地文件系统指定目录，localdst必须是目录

-f 覆盖目标文件（已存在下）

下载文件有冲突的话可以直接-f覆盖掉

-p 保留访问和修改时间，所有权和权限。

首先把我们linux本地的东西都删掉，ll 或者ls 查看会发现没有任何东西

再把hdfs的文件下载到linux本地

7.拷贝HDFS文件

hadoop fs -cp [-f] <src> ... <dst>

hdfs dfs -cp [-f] <src> ... <dst>

-f 覆盖目标文件（已存在下）

<src>和 <dst>都是hdfs路径，所以这是hdfs对hdfs进行复制

hadoop fs -cp /test.ext /home/

把test.ext复制到/home里面去

hadoop fs -cp -f /ayu.ext /home/

-f 即强制覆盖

hadoop fs -cp -f /ayu.ext /home/abc.txt

cp同Linux一样兼具改名的效果，把test.ext复制到/home里面去并改名为abc.txt

8.追加数据到HDFS文件中

hdfs文件系统，还可以完成文件的修改工作。这个修改工作跟linux中的vim不一样，整个hdfs的文件修改只支持两种。第一种是直接删掉，第二种是追加内容。我们整个文件系统，只能够进行删除和追加，不能修改里面某一行或某一个字符。

hadoop fs -appendToFile <localsrc> ... <dst>

hdfs dfs -appendToFile <localsrc> ... <dst>

将所有给定本地文件的内容追加到给定dst文件。

dst如果文件不存在，将创建该文件。

如果<localSrc>为-，则输入为从标准输入中读取。

9.HDFS数据移动操作

hadoop fs -mv <src> ... <dst>

hdfs dfs -mv <src> ... <dst>

移动文件到指定文件夹下

可以使用该命令移动数据，重命名文件的名称

hadoop fs -mv /test.txt /bigdata/

把test.txt移动到/bigdata里面去

同时具有改名效果：

hadoop fs -mv /test.txt /bigdata/abc.txt

把test.txt移动到/bigdata里面并改名为abc.txt

10.HDFS数据删除操作

hadoop fs -rm -r [-skipTrash] URI [URI ...]

hdfs dfs -rm -r [-skipTrash] URI [URI ...]

删除指定路径的文件或文件夹

删文件 -rm

删文件夹 -rm -r

（此图由于网络超时没能传上来，将就看一下）

-skipTrash 跳过回收站，直接删除

回收站功能默认关闭，如果要开启需要在core-site.xml内配置：

<name>fs.trash.interval</name>

</property>

<name>fs.trash.checkpoint.interval</name>

</property>

配置如下内容：

1440表示回收站的数据能够保留一天

120表示的是分钟，每两小时检查一次，如果超过1440的限制，就彻底清空。

无需重启集群，配置后即刻生效。在哪个机器配置的，在哪个机器执行命令就生效。

回收站默认位置在：/user/用户名(hadoop)/.Trash

11.HDFS shell其它命令

命令官方指导文档

Apache Hadoop 3.3.4 – Overview

12.HDFS WEB浏览

除了使用命令操作HDFS文件系统外，在HDFS的WEB UI上也可以查看HDFS文件系统的内容。

使用WEB浏览操作文件系统，一般会遇到权限问题

这是因为WEB浏览器中是以匿名用户（dr.who）登陆的，其只有只读权限，多数操作是做不了的。

如果需要以特权用户在浏览器中进行操作，需要配置如下内容到core-site.xml并重启集群

<name>hadoop.http.staticuser.user</name>

<value>hadoop</value>

</property>

但是，不推荐这样做

HDFS WEBUI，只读权限挺好的，简单浏览即可

如果给与高权限，会有很大的安全问题，造成数据泄露或丢失

HDFS的Shell操作

一、进程启停管理

（一）一键启停脚本

（二）单进程启停

二、文件系统操作命令

（一）HDFS文件系统基本信息

1.前置介绍

（二）命令介绍

1.新旧版本命令介绍

2.创建文件夹

3.查看指定目录下内容

4.上传文件到HDFS指定目录下

5.查看HDFS文件内容

6.下载HDFS文件

7.拷贝HDFS文件

9.HDFS数据移动操作

10.HDFS数据删除操作

11.HDFS shell其它命令

12.HDFS WEB浏览

微信公众号

今日签到

热门文章

最新发布