PySpark - 教程 - 蝴蝶教程

简述

Apache Spark 是用 Scala 编程语言编写的。为了在 Spark 中支持 Python，Apache Spark 社区发布了一个工具 PySpark。使用 PySpark，您还可以使用 Python 编程语言处理 RDD。正是因为有一个名为 Py4j 的库，他们才能够实现这一点。这是一个介绍性教程，涵盖了数据驱动文档的基础知识，并解释了如何处理其各种组件和子组件。

本教程是为那些有志从事编程语言和实时处理框架的专业人士准备的。本教程旨在让读者熟悉 PySpark 及其各种模块和子模块的入门。

在继续本教程中给出的各种概念之前，假设读者已经知道什么是编程语言和框架。除此之外，如果读者对 Apache Spark、Apache Hadoop、Scala 编程语言、Hadoop 分布式文件系统 (HDFS) 和 Python 有充分的了解，这将非常有帮助。

Spark - 概述

Apache Spark 是一个非常快速的实时处理框架。它进行内存计算以实时分析数据。Apache Hadoop MapReduce仅执行批处理，缺乏实时处理功能。因此，引入了 Apache Spark，因为它可以实时执行流处理，也可以处理批处理。

除了实时和批处理之外，Apache Spark 还支持交互式查询和迭代算法。Apache Spark 有自己的集群管理器，它可以在其中托管其应用程序。它利用 Apache Hadoop 进行存储和处理。它用HDFS（Hadoop分布式文件系统）用于存储，它也可以运行在YARN上Spark应用程序。YARN 是属于Hadoop的集群管理资源调度组件。

Spark - 概述

PySpark 官网文档