Python - 数据科学环境设置

  • 简述

    为了成功创建和运行本教程中的示例代码,我们需要设置一个环境,该环境将具有通用 python 以及数据科学所需的特殊包。我们将首先考虑安装通用 python,它可以是 python 2 或 python 3。但在本教程中我们更喜欢 python 2,主要是因为它的成熟度和对外部包的更广泛支持。
  • 获取 Python

    最新和最新的源代码、二进制文件、文档、新闻等,可在 Python 的官方网站https://www.python.org/
    您可以从https://www.python.org/doc/下载 Python 文档。该文档以 HTML、PDF 和 PostScript 格式提供。
  • 安装 Python

    Python 发行版可用于各种平台。您只需下载适用于您的平台的二进制代码并安装 Python。
    如果您的平台的二进制代码不可用,您需要一个 C 编译器来手动编译源代码。编译源代码在选择安装所需的功能方面提供了更大的灵活性。
    这是在各种平台上安装 Python 的快速概述 -

    Unix 和 Linux 安装

    以下是在 Unix/Linux 机器上安装 Python 的简单步骤。
    • 打开 Web 浏览器并转到https://www.python.org/downloads/
    • 按照链接下载可用于 Unix/Linux 的压缩源代码。
    • 下载并解压文件。
    • 如果要自定义某些选项,请编辑Modules/Setup文件。
    • 运行 ./configure 脚本
    • make
    • make install
    这会将 Python 安装在标准位置/usr/local/bin及其库在/usr/local/lib/pythonXX,其中 XX 是 Python 的版本。

    Windows 安装

    以下是在 Windows 机器上安装 Python 的步骤。
    • 打开 Web 浏览器并转到https://www.python.org/downloads/
    • 按照 Windows 安装程序python-XYZ.msi文件的链接,其中 XYZ 是您需要安装的版本。
    • 要使用此安装程序python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到您的本地计算机,然后运行它以查看您的计算机是否支持 MSI。
    • 运行下载的文件。这会调出 Python 安装向导,它非常易于使用。只需接受默认设置,等到安装完成,您就完成了。

    Mac 安装

    最近的 Mac 都安装了 Python,但它可能已经过时了好几年。请参阅http://www.python.org/download/mac/获取有关获取当前版本以及支持 Mac 上开发的额外工具的说明。对于 Mac OS X 10.3(2003 年发布)之前的旧 Mac OS,可以使用 MacPython。
    Jack Jansen 维护它,您可以在他的网站上完全访问整个文档 - http://www.cwi.nl/~jack/macpython.html。您可以找到 Mac OS 安装的完整安装详细信息。
  • 设置PATH

    程序和其他可执行文件可以位于许多目录中,因此操作系统提供了一个搜索PATH ,其中列出了操作系统搜索可执行文件的目录。
    PATH 存储在环境变量中,该变量是操作系统维护的命名字符串。此变量包含可用于命令 shell 和其他程序的信息。
    path变量在 Unix 中命名为 PATH 或在 Windows 中命名为 Path(Unix 区分大小写;Windows 不区分)。
    在 Mac OS 中,安装程序会处理PATH 详细信息。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的PATH 中。
  • 在 Unix/Linux 上设置PATH

    将 Python 目录添加到 Unix 中特定会话的PATH -
    • csh shell− 键入 setenv PATH "$PATH:/usr/local/bin/python" 并按 Enter。
    • bash shell (Linux)- 输入 export ATH="$PATH:/usr/local/bin/python" 并按 Enter。
    • sh 或者 ksh shell- 键入 PATH="$PATH:/usr/local/bin/python" 并按 Enter。
    • 注意− /usr/local/bin/python 是 Python 目录的PATH
  • 在 Windows 中设置PATH

    将 Python 目录添加到 Windows 中特定会话的PATH -
    命令提示符- 输入PATH %path%;C:\Python 并按 Enter。
    注意− C:\Python 是 Python 目录的PATH
  • Python 环境变量

    以下是 Python 可以识别的重要环境变量 -
    序号 变量和描述
    1
    PYTHONPATH
    它的作用类似于 PATH。这个变量告诉 Python 解释器在哪里找到导入到程序中的模块文件。它应该包括 Python 源库目录和包含 Python 源代码的目录。PYTHONPATH 有时由 Python 安装程序预设。
    2
    PYTHONSTARTUP
    它包含包含 Python 源代码的初始化文件的PATH 。每次启动解释器时都会执行它。它在 Unix 中被命名为 .pythonrc.py,它包含加载实用程序或修改 PYTHONPATH 的命令。
    3
    PYTHONCASEOK
    它在 Windows 中用于指示 Python 在导入语句中查找第一个不区分大小写的匹配项。将此变量设置为任何值以激活它。
    4
    PYTHONHOME
    这是一个替代模块搜索PATH 。它通常嵌入在 PYTHONSTARTUP 或 PYTHONPATH 目录中,以便轻松切换模块库。
  • 运行 Python

    有三种不同的方式来启动 Python -

    交互式口译员

    您可以从 Unix、DOS 或任何其他为您提供命令行解释器或 shell 窗口的系统启动 Python。
    进入python命令行。
    立即在交互式解释器中开始编码。
    
    $python # Unix/Linux
    or
    python% # Unix/Linux
    or
    C:> python # Windows/DOS
    
    这是所有可用命令行选项的列表 -
    序号 选项和说明
    1
    -d
    它提供调试输出。
    2
    -O
    它生成优化的字节码(生成 .pyo 文件)。
    3
    -S
    不要在启动时运行导入站点来查找 Python PATH 。
    4
    -v
    详细输出(导入语句的详细跟踪)。
    5
    -X
    禁用基于类的内置异常(只使用字符串);从 1.6 版开始已过时。
    6
    -c cmd
    运行作为 cmd 字符串发送的 Python 脚本
    7
    file
    从给定文件运行 Python 脚本

    命令行中的脚本

    通过在应用程序上调用解释器,可以在命令行执行 Python 脚本,如下所示 -
    
    $python script.py # Unix/Linux
    or
    python% script.py # Unix/Linux
    or 
    C: >python script.py # Windows/DOS
    
    注意− 确保文件权限模式允许执行。

    集成开发环境

    如果您的系统上有支持 Python 的 GUI 应用程序,您也可以从图形用户界面 (GUI) 环境运行 Python。
    • Unix− IDLE 是第一个用于 Python 的 Unix IDE。
    • Windows− PythonWin 是 Python 的第一个 Windows 界面,是一个带有 GUI 的 IDE。
    • Macintosh− Macintosh 版本的 Python 和 IDLE IDE 可从主网站获得,可下载为 MacBinary 或 BinHex'd 文件。
  • 安装 SciPy 包

    启用所需包的最佳方法是使用特定于您的操作系统的可安装二进制包。这些二进制文件包含完整的 SciPy 堆栈(包括 NumPy、SciPy、matplotlib、IPython、SymPy 和鼻子包以及核心 Python)。
  • windows

    Anaconda(来自www.continuum.io)是 SciPy 堆栈的免费 Python 发行版。它也可用于 Linux 和 Mac。
    Canopy ( www.enthought.com/products/canopy/ ) 可免费提供,也可用于商业发行版,其中包含适用于 Windows、Linux 和 Mac 的完整 SciPy 堆栈。
    Python (x,y):它是一个免费的 Python 发行版,带有适用于 Windows 操作系统的 SciPy 堆栈和 Spyder IDE。(可从www.python-xy.github.io/下载)
  • Linux

    各个 Linux 发行版的包管理器用于在 SciPy 堆栈中安装一个或多个包。
  • 对于 Ubuntu

    
    sudo apt-get install python-numpy 
    python-scipy python-matplotlibipythonipythonnotebook python-pandas 
    python-sympy python-nose
    
  • 对于 Fedora

    
    sudo yum install numpyscipy python-matplotlibipython 
    python-pandas sympy python-nose atlas-devel
    
  • 从源头构建

    必须使用 distutils 安装核心 Python(2.6.x、2.7.x 和 3.2.x 及更高版本)并且应启用 zlib 模块。
    GNU gcc (4.2 及以上) C 编译器必须可用。
    要安装 NumPy,请运行以下命令。
    
    Python setup.py install
    
    让我们测试一下 NumPy 模块是否正确安装,尝试从 Python 提示符导入它。
    如果未安装,将显示以下错误消息。
    
    Traceback (most recent call last): 
       File "<pyshell#0>", line 1, in <module> 
          import numpy 
    ImportError: No module named 'numpy'
    
    同样,我们可以检查下一章中显示的所有必需数据科学包的安装。