PySpark数据分析基础:pyspark.SparkConf核心类详解+代码示例

发布于:2022-11-09 ⋅ 阅读:(11) ⋅ 点赞:(0) ⋅ 评论:(0)

目录

前言

一、pyspark.SparkConf

参数:

注意:

二、调用方法

1.pyspark.SparkConf.contains

2.pyspark.SparkConf.get

3.pyspark.SparkConf.getAll

4.pyspark.SparkConf.set

5.pyspark.SparkConf.setAll

6.pyspark.SparkConf.setAppName

 7.pyspark.SparkConf.setExecutorEnv

8.pyspark.SparkConf.setIfMissing

9.pyspark.SparkConf.setMaster

10.pyspark.SparkConf.setSparkHome

11.pyspark.SparkConf.toDebugString

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢



前言

PySpark数据分析基础系列文章更新有一段时间了,其中环境搭建和各个组件部署都已经完成。借此征文活动我将继续更新Pyspark这一大块内容的主体部分,也是十分重要且比较难懂不易编程的部分。在从事大数据计算以及分析的这段历程中,陪伴我最多的也就是anaconda和Jupyter了,当然此次演示还是用到这些工具,文章紧接此系列的上篇文章内容。

此系列文章将被纳入我的专栏一文速学系列-Pyspark大数据分析实战,基本覆盖到数据分析日常业务以及常规的机器学习预测回归以及pyspark出表方方面面的问题。从基础的核心类理解操作逐步入门到复杂的pyspark数据处理,五大组件运用等复杂操作,以及专业的Pyspark常用函数参数讲解,我都将花费了大量时间和心思创作,如果大家有需要从事数据分析或者数据开发、数学建模、Python工程的朋友推荐订阅专栏,将在第一时间学习到最实用常用的知识。此篇博客篇幅较长,值得细读实践一番,我会将精华部分挑出细讲实践。博主会长期维护博文,有错误或者疑惑可以在评论区指出,感谢大家的支持。

若将来想要从事数据挖掘和大数据分析的相关职业,不妨可以关注博主和订阅博主的一些专栏,我将承诺每篇文章将用心纂写长期维护,尽可能输出毕生所学结合如今先有案例项目和技术将每个知识点都讲明白清楚。


一、pyspark.SparkConf

首先此类默认参数为:

class pyspark.SparkConf(loadDefaults: bool = True, _jvm: Optional[py4j.java_gateway.JVMView] = None, _jconf: Optional[py4j.java_gateway.JavaObject] = None)

 SparkConf为Spark应用程序的配置。用于将各种Spark参数设置为键值对。大多数情况下,将使用SparkConf()创建一个SparkConf对象,该对象将从spark加载*Java系统属性。在这种情况下,直接在SparkConf对象上设置的任何参数都优先于系统属性。

对于单元测试,也可以调用SparkConf(false)来跳过加载外部设置并获得相同的配置,不管系统属性是什么。此类中的所有setter方法都支持链接。例如,编写conf.setMaster(“local”)。setAppName(“My app”)。

参数:

loadDefaults:默认bool,是否从Java系统属性加载值(默认为True)。

jvm:默认class:py4j.java_gateway.JVMView,用于向Java VM传递句柄的内部参数;不需要由用户设置。

_jconf:默认class:py4j,可选,传入现有的SparkConf句柄以使用其参数。

注意:

一旦SparkConf对象被传递给Spark,它就会被克隆,用户无法再修改。

二、调用方法

1.pyspark.SparkConf.contains

SparkConf.contains(key: str) → bool

bool,此配置是否包含给定的密钥。

#!-*- coding:utf-8 -*-
 
from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext
import findspark
findspark.init(('D:\\spark\\spark-3.3.0-bin-hadoop3'))
conf=SparkConf().setMaster("local").setAppName("My app")
SparkConf().contains('spark.app.name')

 

2.pyspark.SparkConf.get

SparkConf.get(key: strdefaultValue: Optional[str] = None) → Optional[str]

获取某个键的配置值,否则返回默认值。

SparkConf().get('spark.app.name')

 

3.pyspark.SparkConf.getAll

SparkConf.getAll() → List[Tuple[str, str]]

获取所有值作为键值对列表。

4.pyspark.SparkConf.set

SparkConf.set(key: strvalue: str) → pyspark.conf.SparkConf

设置配置属性。

5.pyspark.SparkConf.setAll

SparkConf.setAll(pairs: List[Tuple[str, str]]) → pyspark.conf.SparkConf

设置多个参数,作为键值对列表传递。

6.pyspark.SparkConf.setAppName

SparkConf.setAppName(value: str) → pyspark.conf.SparkConf

设置应用程序名称.

conf=SparkConf().setMaster("local").setAppName("My app")

 7.pyspark.SparkConf.setExecutorEnv

SparkConf.setExecutorEnv(key: Optional[str] = 
None, value: 
Optional[str] = None, 
pairs: Optional[List[Tuple[str, str]]] = None) → pyspark.conf.SparkConf

 设置要传递给执行器的环境变量。

8.pyspark.SparkConf.setIfMissing

SparkConf.setIfMissing(key: str, value: str) → pyspark.conf.SparkConf

 设置配置属性(如果尚未设置)。

9.pyspark.SparkConf.setMaster

SparkConf.setMaster(value: str) → pyspark.conf.SparkConf

设置要连接的主URL。

10.pyspark.SparkConf.setSparkHome

SparkConf.setSparkHome(value: str) → pyspark.conf.SparkConf

设置工作节点上安装Spark的路径。

11.pyspark.SparkConf.toDebugString

SparkConf.toDebugString() → str

以键=值对列表的形式返回配置的可打印版本,每行一个。

SparkConf().toDebugString()

 


 

点关注,防走丢,如有纰漏之处,请留言指教,非常感谢

以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。