以下是 Spark 连接 MySQL 数据库的核心配置步骤(纯文本版):
1. 准备 MySQL JDBC 驱动
- 下载驱动:从 Maven 仓库 下载与 MySQL 服务端版本匹配的 mysql-connector-java-X.X.XX.jar (如 MySQL 8.0 对应 8.0.33 版本)。
- 部署驱动:
- 单机模式:将驱动包放入 Spark 的 jars 目录(路径: $SPARK_HOME/jars/ )。
- 集群模式:提交任务时用 --jars 参数指定驱动路径,例如:
bash
spark-submit --jars /path/to/mysql-connector-java.jar your_app.jar
2. 构建 SparkSession 并配置连接参数
以 Scala 为例,核心代码如下:
scala
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder()
.appName("Spark MySQL Example")
.master("local[*]") // 或集群地址(如 yarn)
.getOrCreate()
// 连接参数(需替换为实际信息)
val jdbcUrl = "jdbc:mysql://host:port/database?useUnicode=true&characterEncoding=utf-8"
val table = "your_table"
val prop = new java.util.Properties()
prop.setProperty("user", "your_username")
prop.setProperty("password", "your_password")
prop.setProperty("driver", "com.mysql.cj.jdbc.Driver") // MySQL 8+ 驱动类名
3. 读取 MySQL 数据
scala
// 读取表数据为 DataFrame
val df = spark.read.jdbc(jdbcUrl, table, prop)
df.show()
4. 写入数据到 MySQL
scala
// 将 DataFrame 写入 MySQL 表(模式:overwrite/append/ignore/failIfExists)
df.write.jdbc(
url = jdbcUrl,
table = "target_table",
mode = "overwrite",
properties = prop
)
关键注意事项
1. 驱动版本匹配:
- MySQL 5.x 驱动类名为 com.mysql.jdbc.Driver ,8.x 及以上为 com.mysql.cj.jdbc.Driver 。
- 若报 ClassNotFoundException ,检查驱动是否正确部署或版本是否匹配。
2. 字符集配置:
- 在 jdbcUrl 中添加 ?useUnicode=true&characterEncoding=utf-8 ,避免中文乱码。
3. 集群环境权限:
- 确保所有节点均能访问驱动包,或通过分布式文件系统(如 HDFS)分发驱动。
如需更详细示例(如 Python 版本或分区读取),可补充说明场景!