jsoupa-解析遍历一个HTML

时间：2017-08-19 12:45:20 阅读：194 评论：0 收藏：0 [点我收藏+]

标签：对象解析 art int class document 没有 html 文档

解析个遍历一个HTML文档

String html ="<html><head><title>First parse</title></head>"
            +"<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc =Jsoup.parse(html);

jsoup解析器能够尽最大可能从html文档来创建一个干净的解析结果,无论html的格式是否完整。
jsoup可以处理如下异常情况
*)没有关闭的标签(比如LoremIpsum parses to LormIpsum)
*)隐式标签(比如它可以自动将<td>Table data </td>包装成<table><tr><td>....)
*)创建可靠的文档结果(html标签包含head和body,在head值出现恰当的元素)

一个文档的对象模型

*)文档由多个Elements和TextNodes组成(以及其他辅助nodes)
其继承结构如下
Document继承Element继承NodeTextNode继承Node
*)一个Element包含一个子节点集合,并拥有一个父Element。
还提供一个唯一的子元素过滤列表

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">

来自为知笔记(Wiz)

jsoupa-解析遍历一个HTML

标签：对象解析 art int class document 没有 html 文档

原文地址：http://www.cnblogs.com/ssgao/p/7395658.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行