PySpark - SparkConf

  • 简述

    要在本地/集群上运行 Spark 应用程序,您需要设置一些配置和参数,这就是 SparkConf 的帮助。它提供了运行 Spark 应用程序的配置。以下代码块包含 PySpark 的 SparkConf 类的详细信息。
    
    class pyspark.SparkConf (
       loadDefaults = True, 
       _jvm = None, 
       _jconf = None
    )
    
    最初,我们将使用 SparkConf() 创建一个 SparkConf 对象,该对象将从spark.*Java 系统属性也是如此。现在您可以使用 SparkConf 对象设置不同的参数,并且它们的参数将优先于系统属性。
    在 SparkConf 类中,有支持链接的 setter 方法。例如,你可以写conf.setAppName(“PySpark App”).setMaster(“local”). 一旦我们将 SparkConf 对象传递给 Apache Spark,任何用户都无法修改它。
    以下是 SparkConf 的一些最常用的属性 -
    • set(key, value)− 设置配置属性。
    • setMaster(value)− 设置主 URL。
    • setAppName(value)− 设置应用程序名称。
    • get(key, defaultValue=None)− 获取key的配置值。
    • setSparkHome(value)− 在工作节点上设置 Spark 安装路径。
    让我们考虑以下在 PySpark 程序中使用 SparkConf 的示例。在此示例中,我们将 spark 应用程序名称设置为PySpark App并将 spark 应用程序的主 URL 设置为 →spark://master:7077.
    以下代码块包含这些行,当它们被添加到 Python 文件中时,它会设置运行 PySpark 应用程序的基本配置。
    ---------------------------------------------------------------------------------------
    from pyspark import SparkConf, SparkContext
    conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
    sc = SparkContext(conf=conf)
    ---------------------------------------------------------------------------------------