python文件在spark集群运行真的麻烦,烦冗
spark运行分为了三个模式,本地模式/client模式/cluster模式
本地模式
现在的spark支持python3了,支持python2的版本已经很落后了,所以需要使用python3来弄,本地模式只要可以运行python xx.py
,spark-submit就可以
spark-submit \
local [*] \
--conf spark.pyspark.python=/usr/bin/python3 \
--conf spark.pyspark.driver.python=/usr/bin/python3 \
xx.py
/usr/bin/python3
替换为本地python解释器绝对路径就行。
xx.py 所依赖的库什么的,直接就在本地装就可以了,如果是不联网机器,可以在有网络的环境里,把依赖的库下载好,再传到不联网机器安装就行。就是一个pip download
和 pip install
的操作。
client模式
client模式和cluster模式比较麻烦了,需要把所依赖的python环境上传,不推荐--py-files
,太麻烦了,得弄多少zip包,用--archives
这个参数就行,上传python环境,推荐用conda创建环境,然后再用conda打包就行。
就是考察对anaconda命令得熟悉。
conda create -y -n pyspark_conda_env -c conda-forge pyarrow pandas conda-pack
conda activate pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz
还需要把 pyspark_conda_env.tar.gz 给上传到hdfs上面。
hdfs dfs -put pyspark_conda_env.tar.gz /user/hadoop/data/
还有一点,需要把xx.py也上传
hdfs dfs -put xx.py /user/hadoop/data/
上传完了,需要在本地解压pyspark_conda_env.tar.gz,命令参数有用。
最后spark-submit如下
spark-submit \
--master yarn \
--deploy-mode client \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
--conf spark.pyspark.driver.python=本地解压路径/pyspark_conda_env/bin/python \
hdfs://user/hadoop/data/xx.py
其中要注意的是 #environment
的写法就可以把前面一长串给代表了,下面就可以用#
后面的字符来代表了
--archives 本地路径/pyspark_conda_env.tar.gz#environment
cluster模式
只要跑通了client模式,cluster就简单多了,不用在本地解压pyspark_conda_env.tar.gz
这个包了,就直接用了。
spark-submit \
--master yarn \
--deploy-mode cluster \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
hdfs://user/hadoop/data/xx.py