freecms使用jsoup和quartz抓取其他网站内容

时间：2015-10-23 18:05:29 阅读：278 评论：0 收藏：0 [点我收藏+]

标签：

这里提到了freecms，其实抓取和freecms没什么关系，主要还是靠jsoup

jsoup里提供了html解析和读取的方法，集成了httprequest，可以从网络和本地读取，支持非闭合标签等。

csdn中有比较详细的介绍

http://blog.csdn.net/column/details/jsoup.html

一般抓取页面的内容，都是后台进行的，多数是周期抓取，那么肯定要有调度的方法，包括 Timer，Scheduler, Quartz 以及 JCron Tab等等。这篇文件介绍和对比了这几种方法。

http://www.ibm.com/developerworks/cn/java/j-lo-taskschedule/

至于抓取后的数据怎么处理，这里就不多介绍了。切记要留意数据版权，不要侵权，该注明引用的地方要注明。数据不该落地的不要落地。

标签：

原文地址：http://www.cnblogs.com/slimo/p/4904792.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行