PySpark - 环境设置

  • 简述

    在本章中,我们将了解 PySpark 的环境设置。
    注意- 这是默认您的计算机上安装了 JavaScala
    现在让我们通过以下步骤下载并设置 PySpark。
    步骤 1− 前往官方 Apache Spark下载页面并下载最新版本的 Apache Spark。在本教程中,我们使用spark-2.1.0-bin-hadoop2.7.
    步骤 2− 现在,解压下载的 Spark tar 文件。默认情况下,它将在下载目录中下载。
    
    # tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
    
    它将创建一个目录spark-2.1.0-bin-hadoop2.7. 在启动 PySpark 之前,您需要设置以下环境来设置 Spark 路径和Py4j path.
    
    export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
    export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
    export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
    export PATH = $SPARK_HOME/python:$PATH
    
    或者,要全局设置上述环境,请将它们放在.bashrc file. 然后运行以下命令以使环境正常工作。
    
    # source .bashrc
    
    现在我们已经设置了所有环境,让我们转到 Spark 目录并通过运行以下命令调用 PySpark shell -
    
    # ./bin/pyspark
    
    这将启动您的 PySpark shell。
    
    Python 2.7.12 (default, Nov 19 2021, 06:48:10) 
    [GCC 5.4.0 20210609] on linux2
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
          /_/
    Using Python version 2.7.12 (default, Nov 19 2021 06:48:10)
    SparkSession available as 'spark'.
    <<<