Jsoup是一款Java 的HTML解析器。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤,本身还附带了一个Http下载器。jsoup代码简洁,总共53个类,代码大约9000行,无第三方依赖,代码结构如下所示
jsoup
├── examples #样例,包括一个将html转为纯文本和一个抽取所有链接地址的例子。
├── helper #一些工具类,包括读取数据、处理连接以及字符串转换的工具
├── nodes #DOM节点定义
├── parser #解析html并转换为DOM树
├── safety #安全相关,包括白名单及html过滤
└── select #选择器,支持CSS Selector以及NodeVisitor格式的遍历
Jsoup的入口是Jsoup
类。首先将html解析成DOM树,分别用CSS Selector以及NodeVisitor来操作Dom元素,示例代码如下
参考:http://my.oschina.net/flashsword/blog/156748
原文地址:http://www.cnblogs.com/flyingsnail/p/3818373.html