spark的安装与部署

发布于:2025-02-10 ⋅ 阅读:(22) ⋅ 点赞:(0)

一、安装spark

1、将spark-2.1.2-bin-hadoop2.6.tgz使用WinSCP上传到/usr/local目录下。

2、解压缩spark包:tar zxvf spark-2.1.2-bin-hadoop2.6.tgz。

3、更改spark目录名:mv spark-2.1.2-bin-hadoop2.6 spark

4、设置spark环境变量

vi .bashrc

export SPARK_HOME=/usr/local/spark

export PATH=$PATH:$SPARK_HOME/bin

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node10:2181,node11:2181,node12:2181"

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

source .bashrc

二、配置spark集群

1、cd /usr/local/spark/conf

2、cp spark-env.sh.template spark-env.sh

2、cp slaves.template slaves

3、vi spark-env.sh

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/usr/local/scala

####使用zookeeper需要注释掉这一行

#export SPARK_MASTER_IP=node1

export SPARK_WORKER_MEMORY=512m

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

4、修改slaves文件

node1

node2

node3

5、配置spark-shell日志

/usr/local/spark/conf/log4j.properties:

log4j.logger.org.apache.spark.repl.Main=INFO

三、启动Spark集群

# 需要在各节点上首先启动zookeeper

zkServer.sh start

1、在主节点node1上spark目录下的sbin目录

2、执行./start-all.sh

3、使用jps和8080端口可以检查集群是否启动成功 http://node1:8080/

node1是Master,node1/node2/node3启动Worker进程

4、进入spark-shell查看是否正常