Python - 网页抓取实施步骤

  • 简述

    在第一章中,我们了解了网络抓取的全部内容。在本章中,让我们看看如何使用 Python 实现网页抓取。
  • 为什么使用 Python 进行网页抓取?

    Python 是用于实现网络抓取的流行工具。Python 编程语言还用于与网络安全、渗透测试以及数字取证应用程序相关的其他有用项目。使用 Python 的基础编程,可以在不使用任何其他第三方工具的情况下执行网页抓取。
    Python 编程语言越来越受欢迎,使 Python 非常适合网络抓取项目的原因如下 -

    语法简单

    与其他编程语言相比,Python 具有最简单的结构。Python 的这一特性使测试更容易,开发人员可以更专注于编程。

    内置模块

    使用 Python 进行网页抓取的另一个原因是它拥有的内置以及外部有用的库。通过使用 Python 作为编程基础,我们可以执行许多与 Web 抓取相关的实现。

    开源编程语言

    Python 得到了社区的大力支持,因为它是一种开源编程语言。

    广泛的应用

    Python 可用于从小型 shell 脚本到企业 Web 应用程序的各种编程任务。
  • Python的安装

    Python 发行版可用于 Windows、MAC 和 Unix/Linux 等平台。我们只需要下载适用于我们平台的二进制代码即可安装 Python。但是如果我们平台的二进制代码不可用,我们必须有一个 C 编译器,以便可以手动编译源代码。
    我们可以在各种平台上安装 Python,如下所示 -

    在 Unix 和 Linux 上安装 Python

    您需要按照以下步骤在 Unix/Linux 机器上安装 Python -
    Step 1- 转到链接https://www.python.org/downloads/
    Step 2− 在上述链接下载适用于 Unix/Linux 的压缩源代码。
    Step 3- 将文件解压到您的计算机上。
    Step 4- 使用以下命令完成安装 -
    
    run ./configure script
    make
    make install
    
    您可以在标准位置找到已安装的 Python/usr/local/bin及其图书馆/usr/local/lib/pythonXX,其中 XX 是 Python 的版本。

    在 Windows 上安装 Python

    您需要按照以下步骤在 Windows 机器上安装 Python -
    Step 1- 转到链接https://www.python.org/downloads/
    Step 2− 下载 Windows 安装程序python-XYZ.msi文件,其中 XYZ 是我们需要安装的版本。
    Step 3− 现在,将安装程序文件保存到本地计算机并运行 MSI 文件。
    Step 4− 最后,运行下载的文件,弹出 Python 安装向导。

    在 Macintosh 上安装 Python

    我们必须使用Homebrew用于在 Mac OS X 上安装 Python 3。Homebrew 易于安装并且是一个很棒的包安装程序。
    Homebrew 也可以使用以下命令安装 -
    要更新包管理器,我们可以使用以下命令 -
    
    $ brew update
    
    借助以下命令,我们可以在我们的 MAC 机器上安装 Python3 -
    
    $ brew install python3
    
  • 设置路径

    您可以使用以下说明在各种环境中设置路径 -

    在 Unix/Linux 上设置路径

    使用以下命令使用各种命令外壳设置路径 -

    对于 csh 外壳

    
    setenv PATH "$PATH:/usr/local/bin/python".
    

    对于 bash shell (Linux)

    
    ATH="$PATH:/usr/local/bin/python".
    

    对于 sh 或 ksh shell

    
    PATH="$PATH:/usr/local/bin/python".
    

    在 Windows 上设置路径

    对于在 Windows 上设置路径,我们可以使用路径%path%;C:\Python在命令提示符下,然后按 Enter。
  • 运行 Python

    我们可以使用以下三种方式中的任何一种来启动 Python -

    交互式口译员

    提供命令行解释器或 shell 的操作系统(如 UNIX 和 DOS)可用于启动 Python。
    我们可以在交互式解释器中开始编码,如下所示 -
    Step 1- 输入python在命令行。
    Step 2− 然后,我们可以立即在交互式解释器中开始编码。
    
    $python # Unix/Linux
    or
    python% # Unix/Linux
    or
    C:> python # Windows/DOS
    

    命令行中的脚本

    我们可以通过调用解释器在命令行执行 Python 脚本。可以理解如下 -
    
    $python script.py # Unix/Linux
    or
    python% script.py # Unix/Linux
    or
    C: >python script.py # Windows/DOS
    

    集成开发环境

    如果系统具有支持 Python 的 GUI 应用程序,我们也可以从 GUI 环境运行 Python。下面给出了一些在各种平台上支持 Python 的 IDE -
    IDE for UNIX− UNIX,对于 Python,有 IDLE IDE。
    IDE for Windows− Windows 有 PythonWin IDE,它也有 GUI。
    IDE for Macintosh− Macintosh 有 IDLE IDE,可从主网站下载为 MacBinary 或 BinHex'd 文件。