码迷,mamicode.com
首页 > Web开发 > 详细

jsoupa-解析遍历一个HTML

时间:2017-08-19 12:45:20      阅读:194      评论:0      收藏:0      [点我收藏+]

标签:对象   解析   art   int   class   document   没有   html   文档   

解析个遍历一个HTML文档

 

String html ="<html><head><title>First parse</title></head>"
            +"<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc =Jsoup.parse(html);

  

  1. jsoup解析器能够尽最大可能从html文档来创建一个干净的解析结果,无论html的格式是否完整。
  2. jsoup可以处理如下异常情况
  3. *)没有关闭的标签(比如<p>Lorem<p>Ipsum parses to <p>Lorm</p><p>Ipsum</p>)
  4. *)隐式标签(比如它可以自动将<td>Table data </td>包装成<table><tr><td>....)
  5. *)创建可靠的文档结果(html标签包含headbody,在head值出现恰当的元素)
一个文档的对象模型
  1. *)文档由多个ElementsTextNodes组成(以及其他辅助nodes)
  2. 其继承结构如下
  3. Document继承Element继承NodeTextNode继承Node
  4. *)一个Element包含一个子节点集合,并拥有一个父Element
  5. 还提供一个唯一的子元素过滤列表
 
 
 
 
 
 
 

 

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">





jsoupa-解析遍历一个HTML

标签:对象   解析   art   int   class   document   没有   html   文档   

原文地址:http://www.cnblogs.com/ssgao/p/7395658.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!