码迷,mamicode.com
首页 > 其他好文 > 详细

xsoup

时间:2016-05-11 13:32:27      阅读:2594      评论:0      收藏:0      [点我收藏+]

标签:

Xsoup 0.2.0 发布,HTML 抽取器

黄亿华 发布于: 2014年03月11日 (4评)
分享到: 

Xsoup 是一款基于 Jsoup 开发的,使用XPath抽取Html元素的工具。它被用于作者的爬虫框架 WebMagic中,进行XPath 解析和抽取。

此次更新主要增加了一些XPath语法的支持。

  1. 增加contains支持 #2

    1
    //div[contains(@id,‘test‘)]
  2. 增加筛选条件的逻辑运算支持(and/or) #4

    1
    2
    3
    4
    //div[@id=‘test‘ or @class=‘test‘]
    //div[@id=‘test‘ and @class=‘test‘]
    //div[@id=‘test‘ and @class=‘test‘ or @id=‘test1‘]
    //div[@id=‘test‘ and (@class=‘test‘ or @id=‘test1‘)]
  3. 增加整个XPath的或支持 #6

    1
    //div[@id=‘test‘]/text() | //div[@class=‘test‘]/div/text()

此次升级与Xsoup 0.1.0 API兼容,WebMagic 0.3.0以上的用户可以直接在项目添加依赖即可使用新语法。

1
2
3
4
5
<dependency>
  <groupId>us.codecraft</groupId>
  <artifactId>xsoup</artifactId>
  <version>0.2.0</version>
</dependency>

xsoup

标签:

原文地址:http://www.cnblogs.com/destim/p/5481461.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!