码迷,mamicode.com
首页 > Web开发 > 详细

freecms使用jsoup和quartz抓取其他网站内容

时间:2015-10-23 18:05:29      阅读:278      评论:0      收藏:0      [点我收藏+]

标签:

这里提到了freecms,其实抓取和freecms没什么关系,主要还是靠jsoup

jsoup里提供了html解析和读取的方法,集成了httprequest,可以从网络和本地读取,支持非闭合标签等。

csdn中有比较详细的介绍

http://blog.csdn.net/column/details/jsoup.html

一般抓取页面的内容,都是后台进行的,多数是周期抓取,那么肯定要有调度的方法,包括 Timer,Scheduler, Quartz 以及 JCron Tab等等。这篇文件介绍和对比了这几种方法。

http://www.ibm.com/developerworks/cn/java/j-lo-taskschedule/

 

至于抓取后的数据怎么处理,这里就不多介绍了。切记要留意数据版权,不要侵权,该注明引用的地方要注明。数据不该落地的不要落地。

freecms使用jsoup和quartz抓取其他网站内容

标签:

原文地址:http://www.cnblogs.com/slimo/p/4904792.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!