目录
试卷:Python网络数据处理
一、填空题
requests
库用于发送HTTP请求和接收_____。response.status_code
可以获取HTTP响应的_____。使用
requests.get(url)
发送GET请求时,响应内容可以通过_____属性获取。JSON(JavaScript Object Notation)是一种_____数据交换格式。
JSON对象由__和__组成。
使用
response.json()
方法可以将响应内容解析为_____格式。在
requests.post(url, json=data)
中,json=data
用于发送_____数据。HTML解析常用的库是_____。
BeautifulSoup
的解析器通常使用_____。soup.find_all('a')
用于找到HTML中所有_____标签。response.cookies
用于获取_____。在
requests.get(url, headers=headers)
中,headers=headers
用于发送_____。在POST请求中,传统表单数据通过_____参数发送。
通过
response.url
可以获取_____。requests.exceptions.Timeout
是requests
库中的_____异常。使用
requests.get(url, params=params)
可以发送GET请求并附带_____。response.history
包含了_____的响应历史。使用
response.text
可以获得HTTP响应的_____。response.content
返回的是HTTP响应的_____形式。soup.find('div', class_='content')
可以找到HTML中class为_____的<div>
标签。response.headers
返回的是HTTP响应的_____。在响应的JSON数据中,
null
表示_____。response.encoding
用于获取HTTP响应的_____。requests.get(url, timeout=5)
中,timeout=5
表示设置超时时间为_____秒。response.raise_for_status()
用于在请求发生_____时抛出异常。使用
requests.get(url, cookies=cookies)
可以发送GET请求并附带_____。使用
response.ok
可以判断HTTP响应是否_____。在HTML解析中,
soup.title
用于获取HTML文档的_____标签。使用
requests.put(url, data=data)
可以发送_____请求。response.elapsed.total_seconds()
返回的是请求的_____时间(秒)。
答案
一、填空题
requests
库用于发送HTTP请求和接收HTTP响应。response.status_code
可以获取HTTP响应的状态码。使用
requests.get(url)
发送GET请求时,响应内容可以通过response.text属性获取。JSON(JavaScript Object Notation)是一种数据交换格式。
JSON对象由键和值组成。
使用
response.json()
方法可以将响应内容解析为JSON格式。在
requests.post(url, json=data)
中,json=data
用于发送JSON格式数据。HTML解析常用的库是BeautifulSoup。
BeautifulSoup
的解析器通常使用html.parser。soup.find_all('a')
用于找到HTML中所有<a>标签。response.cookies
用于获取响应中的Cookies。在
requests.get(url, headers=headers)
中,headers=headers
用于发送自定义的请求头。在POST请求中,传统表单数据通过data参数发送。
通过
response.url
可以获取最终的URL。requests.exceptions.Timeout
是requests
库中的超时异常。使用
requests.get(url, params=params)
可以发送GET请求并附带查询参数。response.history
包含了重定向的响应历史。使用
response.text
可以获得HTTP响应的文本内容。response.content
返回的是HTTP响应的字节形式。soup.find('div', class_='content')
可以找到HTML中class为'content'的<div>
标签。response.headers
返回的是HTTP响应的头部信息。在响应的JSON数据中,
null
表示空值。response.encoding
用于获取HTTP响应的编码。requests.get(url, timeout=5)
中,timeout=5
表示设置超时时间为5秒。response.raise_for_status()
用于在请求发生错误时抛出异常。使用
requests.get(url, cookies=cookies)
可以发送GET请求并附带Cookies。使用
response.ok
可以判断HTTP响应是否成功。在HTML解析中,
soup.title
用于获取HTML文档的<title>标签。使用
requests.put(url, data=data)
可以发送PUT请求。response.elapsed.total_seconds()
返回的是请求的响应时间(秒)。
试卷:Pandas基础操作
一、填空题
导入Pandas库的标准语句是
import pandas as __
。使用
pd.Series(data)
创建一个Pandas的_____对象。从CSV文件中读取数据可以使用
pd.read_csv('file.csv')
,返回的数据结构是_____。查看DataFrame的前几行数据可以使用_____方法。
查看DataFrame的列名可以使用_____属性。
获取DataFrame的行数和列数可以使用_____属性。
在DataFrame中选取一列数据可以使用
df['column_name']
或df.column_name
的_____方法。在DataFrame中选取多列数据可以使用
df[['col1', 'col2']]
的_____语法。使用
df.head(10)
可以查看DataFrame的_____行数据。使用
df.tail(5)
可以查看DataFrame的_____行数据。创建一个新的列可以使用
df['new_column'] = values
的_____方法。使用
df.info()
可以查看DataFrame的_____信息。使用
df.describe()
可以获取DataFrame的_____统计信息。使用
df.dropna()
可以删除包含_____值的行。使用
df.fillna(value)
可以将DataFrame中的_____值替换为指定值。使用
df.groupby('column').mean()
可以按_____分组计算均值。使用
df['new_col'] = df.apply(lambda row: func(row['col']), axis=1)
可以在DataFrame中应用_____函数。使用
pd.concat([df1, df2], axis=0)
可以沿着_____方向连接两个DataFrame。使用
pd.merge(df1, df2, on='key')
可以根据_____列合并两个DataFrame。使用
df.pivot_table(values='value', index='index_col', columns='col')
可以创建一个_____表格。使用
df.sort_values('column', ascending=False)
可以按_____排序DataFrame。使用
df.drop_duplicates()
可以删除DataFrame中的_____行。使用
df.set_index('column')
可以将DataFrame的_____设置为指定列。使用
df.reset_index()
可以重置DataFrame的_____索引。使用
df['column'].value_counts()
可以统计某一列中各个值的_____。使用
df['new_col'] = pd.to_datetime(df['date_col'])
可以将_____转换为日期时间格式。使用
df.to_csv('file.csv', index=False)
可以将DataFrame保存为_____文件。使用
df.plot()
可以绘制_____图形。使用
df.corr()
可以计算DataFrame中各列之间的_____系数。使用
df.isnull().sum()
可以统计DataFrame中每列的_____值数量。
答案
导入Pandas库的标准语句是
import pandas as pd
。使用
pd.Series(data)
创建一个Pandas的 Series 对象。从CSV文件中读取数据可以使用
pd.read_csv('file.csv')
,返回的数据结构是 DataFrame。查看DataFrame的前几行数据可以使用 head() 方法。
查看DataFrame的列名可以使用 columns 属性。
获取DataFrame的行数和列数可以使用 shape 属性。
在DataFrame中选取一列数据可以使用
df['column_name']
或df.column_name
的 索引 方法。在DataFrame中选取多列数据可以使用
df[['col1', 'col2']]
的 列表 语法。使用
df.head(10)
可以查看DataFrame的 前 10 行数据。使用
df.tail(5)
可以查看DataFrame的 后 5 行数据。创建一个新的列可以使用
df['new_column'] = values
的 赋值 方法。使用
df.info()
可以查看DataFrame的 信息。使用
df.describe()
可以获取DataFrame的 描述性 统计信息。使用
df.dropna()
可以删除包含 缺失值 的行。使用
df.fillna(value)
可以将DataFrame中的 缺失值 替换为指定值。使用
df.groupby('column').mean()
可以按 分组 计算均值。使用
df['new_col'] = df.apply(lambda row: func(row['col']), axis=1)
可以在DataFrame中应用 自定义函数。使用
pd.concat([df1, df2], axis=0)
可以沿着 行 方向连接两个DataFrame。使用
pd.merge(df1, df2, on='key')
可以根据 键 列合并两个DataFrame。使用
df.pivot_table(values='value', index='index_col', columns='col')
可以创建一个 透视 表格。使用
df.sort_values('column', ascending=False)
可以按 降序 排序DataFrame。使用
df.drop_duplicates()
可以删除DataFrame中的 重复 行。使用
df.set_index('column')
可以将DataFrame的 索引 设置为指定列。使用
df.reset_index()
可以重置DataFrame的 索引。使用
df['column'].value_counts()
可以统计某一列中各个值的 出现 次数。使用
df['new_col'] = pd.to_datetime(df['date_col'])
可以将 日期 列转换为日期时间格式。使用
df.to_csv('file.csv', index=False)
可以将DataFrame保存为 CSV 文件。使用
df.plot()
可以绘制 折线 图形。使用
df.corr()
可以计算DataFrame中各列之间的 相关 系数。使用
df.isnull().sum()
可以统计DataFrame中每列的 缺失 值数量。
试卷:Linux基础指令
一、填空题
查看当前所在目录的命令是
_________
。显示当前用户的用户名的命令是
_________
。创建一个名为
test.txt
的空文件的命令是_________
。切换到根目录的命令是
_________
。切换到用户
user1
的命令是_________
。查看文件或目录的详细信息的命令是
_________
。列出当前目录下的所有文件和子目录的命令是
_________
。创建一个名为
new_dir
的新目录的命令是_________
。删除名为
file1.txt
的文件的命令是_________
。删除名为
old_dir
的空目录的命令是_________
。复制文件
source.txt
到目录dest
的命令是_________
。将
file1.txt
重命名为file2.txt
的命令是_________
。查看文件内容的命令是
_________
。将
file1.txt
的内容输出到屏幕的命令是_________
。在终端中连续按两次
Tab
键可以进行_____。将
file1.txt
的内容追加到file2.txt
的命令是_________
。将
source_dir
目录及其内容压缩成source_dir.tar.gz
的命令是_________
。解压名为
archive.tar.gz
的压缩文件的命令是_________
。在Linux中,
*
通配符代表_____。显示系统当前时间的命令是
_________
。列出当前所有正在运行的进程的命令是
_________
。结束进程号为
1234
的进程的命令是_________
。在后台运行命令
command
的命令是_________
。查看系统中使用的磁盘空间的命令是
_________
。显示当前用户使用的磁盘配额的命令是
_________
。将
file1.txt
从本地上传到远程主机的命令是_________
。从远程主机下载名为
file1.txt
的文件到本地的命令是_________
。在Linux中,
>
符号用于_____。在Linux中,
|
符号用于_____。在Linux中,
sudo
命令用于以_____权限执行命令。
答案
一、填空题
查看当前所在目录的命令是
pwd
。显示当前用户的用户名的命令是
whoami
。创建一个名为
test.txt
的空文件的命令是touch test.txt
。切换到根目录的命令是
cd /
。切换到用户
user1
的命令是su user1
或sudo -u user1 -i
。查看文件或目录的详细信息的命令是
ls -l
或ls -lh
。列出当前目录下的所有文件和子目录的命令是
ls
。创建一个名为
new_dir
的新目录的命令是mkdir new_dir
。删除名为
file1.txt
的文件的命令是rm file1.txt
。删除名为
old_dir
的空目录的命令是rmdir old_dir
。复制文件
source.txt
到目录dest
的命令是cp source.txt dest/
。将
file1.txt
重命名为file2.txt
的命令是mv file1.txt file2.txt
。查看文件内容的命令是
cat filename
或less filename
。将
file1.txt
的内容输出到屏幕的命令是cat file1.txt
。在终端中连续按两次
Tab
键可以进行 文件名自动补全。将
file1.txt
的内容追加到file2.txt
的命令是cat file1.txt >> file2.txt
。将
source_dir
目录及其内容压缩成source_dir.tar.gz
的命令是tar -czvf source_dir.tar.gz source_dir/
。解压名为
archive.tar.gz
的压缩文件的命令是tar -xzvf archive.tar.gz
。在Linux中,
*
通配符代表 匹配任意字符。显示系统当前时间的命令是
date
。列出当前所有正在运行的进程的命令是
ps aux
或top
。结束进程号为
1234
的进程的命令是kill 1234
或kill -9 1234
。在后台运行命令
command
的命令是command &
。查看系统中使用的磁盘空间的命令是
df -h
。显示当前用户使用的磁盘配额的命令是
quota -v
。将
file1.txt
从本地上传到远程主机的命令是scp file1.txt user@remote_host:/path/to/destination/
。从远程主机下载名为
file1.txt
的文件到本地的命令是scp user@remote_host:/path/to/file1.txt /local/path/
。在Linux中,
>
符号用于 重定向输出到文件。在Linux中,
|
符号用于 管道,将一个命令的输出作为另一个命令的输入。在Linux中,
sudo
命令用于以 超级用户 权限执行命令。
试卷:Apache Flume基础指令
一、填空题
启动Flume代理服务的命令是
flume-ng __
。指定Flume配置文件启动代理的参数是
-c __
。使用哪个参数指定Flume配置文件的路径?
-f __
。在Flume配置文件中,用来定义source的关键字是
__
。在Flume配置文件中,用来定义channel的关键字是
__
。在Flume配置文件中,用来定义sink的关键字是
__
。在Flume中,
avro
是一种常见的 __类型。Flume中用来将数据从source传输到sink的组件是 __。
Flume中用来存储数据的缓冲区是 __。
指定Flume agent名称的参数是
-n __
。使用Flume收集的数据一般存储在 __中。
在Flume中,将数据从一个source传输到多个sink的组件是 __。
Flume的日志输出级别可以通过参数
-D__=
进行设置。在Flume配置文件中,指定source类型的参数是
type = __
。Flume中用来管理数据流的组件是 __。
Flume中用来确保数据不会丢失的channel类型是 __。
使用Flume将日志数据传输到HDFS时,sink类型是 __。
Flume中用来连接source和sink的关键字是 __。
在Flume配置文件中,可以使用
agent.sources.sourceName.channels = channelName
来连接 __ 和 __。Flume中用来启动多个agent的工具是 __。
在Flume配置文件中,指定channel类型的参数是
type = __
。Flume中用来监控和管理agent的工具是 __。
在Flume中,使用哪个参数指定自定义的Flume插件路径?
-cp __
。Flume中用来设置source的绑定端口的参数是
port = __
。Flume中用来设置sink的目标地址的参数是
hostname = __
。Flume中用来设置sink的目标端口的参数是
port = __
。Flume中用来设置sink的HDFS写入路径的参数是
hdfs.path = __
。Flume中用来设置sink的batch大小的参数是
batchSize = __
。Flume中用来设置channel的容量大小的参数是
capacity = __
。Flume中用来设置channel的事务容量大小的参数是
transactionCapacity = __
。
答案
一、填空题
启动Flume代理服务的命令是
flume-ng agent
。指定Flume配置文件启动代理的参数是
-c
。使用哪个参数指定Flume配置文件的路径?
-f
。在Flume配置文件中,用来定义source的关键字是
source
。在Flume配置文件中,用来定义channel的关键字是
channel
。在Flume配置文件中,用来定义sink的关键字是
sink
。在Flume中,
avro
是一种常见的 source 类型。Flume中用来将数据从source传输到sink的组件是 channel。
Flume中用来存储数据的缓冲区是 channel。
指定Flume agent名称的参数是
-n
。使用Flume收集的数据一般存储在 HDFS 中。
在Flume中,将数据从一个source传输到多个sink的组件是 interceptor。
Flume的日志输出级别可以通过参数
-Dflume.root.logger
进行设置。在Flume配置文件中,指定source类型的参数是
type =
。Flume中用来管理数据流的组件是 agent。
Flume中用来确保数据不会丢失的channel类型是 file。
使用Flume将日志数据传输到HDFS时,sink类型是 hdfs。
Flume中用来连接source和sink的关键字是
agent.sources.sourceName.channels = channelName
。在Flume配置文件中,可以使用
agent.sources.sourceName.channels = channelName
来连接 source 和 channel。Flume中用来启动多个agent的工具是 flume-ng multi。
在Flume配置文件中,指定channel类型的参数是
type =
。Flume中用来监控和管理agent的工具是 Flume NG Manager。
在Flume中,使用哪个参数指定自定义的Flume插件路径?
-cp
。Flume中用来设置source的绑定端口的参数是
port =
。Flume中用来设置sink的目标地址的参数是
hostname =
。Flume中用来设置sink的目标端口的参数是
port =
。Flume中用来设置sink的HDFS写入路径的参数是
hdfs.path =
。Flume中用来设置sink的batch大小的参数是
batchSize =
。Flume中用来设置channel的容量大小的参数是
capacity =
。Flume中用来设置channel的事务容量大小的参数是
transactionCapacity =
。
试卷:Apache Pig基础指令
一、填空题
使用Pig Latin语言加载数据的命令是 _____。
在Pig Latin中,用来创建关系型数据的命令是 _____
在Pig Latin中,用来过滤数据的命令是 _____
在Pig Latin中,用来选择特定列的命令是 _____
在Pig Latin中,用来对数据分组的命令是 _____
在Pig Latin中,用来对数据排序的命令是 ` _____
在Pig Latin中,用来计算数据统计信息的命令是 _____
在Pig Latin中,用来将数据存储到文件系统中的命令是 _____
在Pig Latin中,用来清除已定义关系的命令是 _____
在Pig Latin中,用来连接两个或多个关系的命令是 _____
在Pig Latin中,用来计算关系的最大值的命令是 _____
在Pig Latin中,用来计算关系的最小值的命令是 _____
在Pig Latin中,用来计算关系的唯一值的命令是 _____
在Pig Latin中,用来将字符串转换为小写的函数是 _____
在Pig Latin中,用来将字符串转换为大写的函数是 _____
在Pig Latin中,用来截取字符串的函数是 _____
在Pig Latin中,用来连接字符串的函数是 _____
在Pig Latin中,用来判断字符串是否匹配某种模式的函数是 _____
在Pig Latin中,用来计算字符串长度的函数是 _____
在Pig Latin中,用来转换字符串为整数的函数是 _____。
在Pig Latin中,用来转换字符串为浮点数的函数是 _____
在Pig Latin中,用来获取当前日期的函数是 _____
在Pig Latin中,用来获取当前时间的函数是 _____
在Pig Latin中,用来获取当前日期和时间的函数是 _____
在Pig Latin中,用来获取指定关系的字段数目的函数是 _____
在Pig Latin中,用来获取指定关系的数据类型的函数是 _____
答案:
一、填空题
使用Pig Latin语言加载数据的命令是
LOAD
INTO...
。在Pig Latin中,用来创建关系型数据的命令是
DEFINE
。在Pig Latin中,用来过滤数据的命令是
FILTER
BY
。在Pig Latin中,用来选择特定列的命令是
FOREACH
GENERATE
。在Pig Latin中,用来对数据分组的命令是
GROUP
BY
。在Pig Latin中,用来对数据排序的命令是
ORDER
BY
。在Pig Latin中,用来计算数据统计信息的命令是
DESCRIBE
。在Pig Latin中,用来将数据存储到文件系统中的命令是
STORE
INTO
。在Pig Latin中,用来清除已定义关系的命令是
CLEAR
。在Pig Latin中,用来连接两个或多个关系的命令是
JOIN
BY
,
BY
。在Pig Latin中,用来处理NULL值的命令是
COGROUP
BY
。在Pig Latin中,用来计算关系的行数的命令是
COUNT()
。在Pig Latin中,用来计算关系的聚合函数SUM的命令是
SUM()
。在Pig Latin中,用来计算关系的平均值的命令是
AVG()
。在Pig Latin中,用来计算关系的最大值的命令是
MAX()
。在Pig Latin中,用来计算关系的最小值的命令是
MIN()
。在Pig Latin中,用来计算关系的唯一值的命令是
DISTINCT()
。在Pig Latin中,用来将字符串转换为小写的函数是
LOWER()
。在Pig Latin中,用来将字符串转换为大写的函数是
UPPER()
。在Pig Latin中,用来截取字符串的函数是
SUBSTRING()
。在Pig Latin中,用来连接字符串的函数是
CONCAT()
。在Pig Latin中,用来判断字符串是否匹配某种模式的函数是
MATCHES()
。在Pig Latin中,用来计算字符串长度的函数是
SIZE()
。在Pig Latin中,用来转换字符串为整数的函数是
INT()
。在Pig Latin中,用来转换字符串为浮点数的函数是
DOUBLE()
。在Pig Latin中,用来获取当前日期的函数是
CURRENT_DATE()
。在Pig Latin中,用来获取当前时间的函数是
CURRENT_TIME()
。在Pig Latin中,用来获取当前日期和时间的函数是
CURRENT_TIMESTAMP()
。在Pig Latin中,用来获取指定关系的字段数目的函数是
SIZE()
。在Pig Latin中,用来获取指定关系的数据类型的函数是
TYPEOF()
。
Hadoop题
一、填空题
查看Hadoop集群中文件系统状态的命令是
hadoop fs ___
。在Hadoop集群中创建一个新目录的命令是
hadoop fs ___
。将本地文件上传到Hadoop集群中的命令是
hadoop fs ___ ___
。从Hadoop集群中下载文件到本地的命令是
hadoop fs ___ ___
。在Hadoop集群中删除一个文件的命令是
hadoop fs ___
。在Hadoop集群中递归删除一个目录的命令是
hadoop fs ___
。查看Hadoop集群中指定路径下的文件列表的命令是
hadoop fs ___
。查看Hadoop集群中文件的详细信息的命令是
hadoop fs ___
。查看Hadoop集群中文件的块信息的命令是
hadoop fs -___
。在Hadoop集群中复制文件的命令是
hadoop fs ___ ___
。将Hadoop集群中的文件合并到一个本地文件的命令是
hadoop fs ___ ___
。在Hadoop集群中更改文件或目录的权限的命令是
hadoop fs ___ ___
。在Hadoop集群中更改文件或目录的所有者的命令是
hadoop fs ___ ___
。在Hadoop集群中查看文件或目录的ACL信息的命令是
hadoop fs ___
。在Hadoop集群中设置文件或目录的ACL信息的命令是
hadoop fs ___ ___
。在Hadoop集群中列出当前运行的作业的命令是 ___`。
查看Hadoop集群中运行作业的详细信息的命令是 ___`。
杀死正在运行的Hadoop作业的命令是 b ___`。
查看Hadoop集群中的节点信息的命令是 ___`。
在Hadoop集群中格式化文件系统的命令是 ___`。
启动Hadoop集群中的所有守护进程的命令是 ___`。
停止Hadoop集群中的所有守护进程的命令是 ___`。
在Hadoop集群中查看HDFS容量使用情况的命令是 ___`。
在Hadoop集群中设置MapReduce作业的参数的命令是 ___`。
在Hadoop集群中运行一个已打包的MapReduce作业的命令是 ___`。
在Hadoop集群中查看MapReduce作业日志的命令是 ___`。
在Hadoop集群中查看HDFS文件系统中文件块的位置的命令是 ___`。
在Hadoop集群中复制文件到HDFS的命令是 ___`。
在Hadoop集群中从HDFS复制文件到本地的命令是 ___`。
在Hadoop集群中查看当前所有运行的MapReduce作业的命令是 ___`。
答案
一、填空题
查看Hadoop集群中文件系统状态的命令是
hadoop fs -stat
。在Hadoop集群中创建一个新目录的命令是
hadoop fs -mkdir
。将本地文件上传到Hadoop集群中的命令是
hadoop fs -put <local-path> <hdfs-path>
。从Hadoop集群中下载文件到本地的命令是
hadoop fs -get <hdfs-path> <local-path>
。在Hadoop集群中删除一个文件的命令是
hadoop fs -rm <hdfs-path>
。在Hadoop集群中递归删除一个目录的命令是
hadoop fs -rm -r <hdfs-path>
。查看Hadoop集群中指定路径下的文件列表的命令是
hadoop fs -ls <hdfs-path>
。查看Hadoop集群中文件的详细信息的命令是
hadoop fs -stat <hdfs-path>
。查看Hadoop集群中文件的块信息的命令是
hadoop fs -du -h <hdfs-path>
。在Hadoop集群中复制文件的命令是
hadoop fs -cp <src> <dest>
。将Hadoop集群中的文件合并到一个本地文件的命令是
hadoop fs -getmerge <src> <local-path>
。在Hadoop集群中更改文件或目录的权限的命令是
hadoop fs -chmod <permission> <hdfs-path>
。在Hadoop集群中更改文件或目录的所有者的命令是
hadoop fs -chown <owner> <hdfs-path>
。在Hadoop集群中查看文件或目录的ACL信息的命令是
hadoop fs -getfacl <hdfs-path>
。在Hadoop集群中设置文件或目录的ACL信息的命令是
hadoop fs -setfacl -m <acl-spec> <hdfs-path>
。在Hadoop集群中列出当前运行的作业的命令是
hadoop job -list
。查看Hadoop集群中运行作业的详细信息的命令是
hadoop job -status <job-id>
。杀死正在运行的Hadoop作业的命令是
hadoop job -kill <job-id>
。查看Hadoop集群中的节点信息的命令是
hadoop dfsadmin -report
。在Hadoop集群中格式化文件系统的命令是
hadoop namenode -format
。启动Hadoop集群中的所有守护进程的命令是
start-all.sh
。停止Hadoop集群中的所有守护进程的命令是
stop-all.sh
。在Hadoop集群中查看HDFS容量使用情况的命令是
hadoop fs -df -h
。在Hadoop集群中设置MapReduce作业的参数的命令是
hadoop jar <jar-file> <main-class> -D<property>=<value>
。在Hadoop集群中运行一个已打包的MapReduce作业的命令是
hadoop jar <jar-file> <main-class>
。在Hadoop集群中查看MapReduce作业日志的命令是
yarn logs -applicationId <application-id>
。在Hadoop集群中查看HDFS文件系统中文件块的位置的命令是
hadoop fsck <hdfs-path> -files -blocks -locations
。在Hadoop集群中复制文件到HDFS的命令是
hadoop fs -copyFromLocal <local-src> <hdfs-dest>
。在Hadoop集群中从HDFS复制文件到本地的命令是
hadoop fs -copyToLocal <hdfs-src> <local-dest>
。在Hadoop集群中查看当前所有运行的MapReduce作业的命令是
hadoop job -list-active
.