jsoup - 教程

  • 简述

    jsoup 是一个基于 Java 的库,用于处理基于 HTML 的内容。它提供了一个非常方便的 API 来提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。它实现了 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。本参考将带您了解 jsoup 库中提供的简单实用的方法。
    本参考资料是为初学者准备的,以帮助他们了解与 jsoup 库中可用功能相关的基本功能。
    在您开始练习本参考中给出的各种类型的示例之前,我假设您已经了解基本的 Java 编程。
    jsoup - jsoup官方主页
    jsoup 库实现了 WHATWG HTML5 规范,并将 HTML 内容解析为与现代浏览器相同的 DOM。
    jsonp 库提供以下功能。
    • 多读支持 - 它使用 URL、文件或字符串读取和解析 HTML。
    • CSS 选择器 − 可以使用DOM 遍历或CSS 选择器查找和提取数据。
    • DOM 操纵 − 可以操作 HTML 元素、属性和文本。
    • 防止XSS攻击 − 可以根据给定的安全白名单清理用户提交的内容,以防止 XSS 攻击。
    • 美化HTML − 输出整洁的 HTML。
    • 处理无效数据 − jsoup 可以处理未闭合标签、隐式标签,并且可以可靠地创建文档结构。