JAVA爬虫 WebCollector爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核:WebCollector 致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核...
分类:
编程语言 时间:
2015-08-11 07:07:41
阅读次数:
1484
最近在做一个项目参加比赛,需要截取很多数据,意外找到了一个程序叫webcollector 然而在使用的时候出了一个问题
java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver
不停得提示这个 ,在网上找了很久没发现解决方案
不想草草了之,google了NoClassDefFoundErro...
分类:
编程语言 时间:
2015-07-31 13:01:53
阅读次数:
270
一.简介:https://github.com/CrawlScript/WebCollector/blob/master/README.zh-cn.md二.使用: cn.edu.hfut.dmic.webcollector WebCollector 2.0...
分类:
Web程序 时间:
2015-07-11 11:51:11
阅读次数:
203
很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。
下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。
代码中的抽取器可以作为一个插件复用。
WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。...
分类:
编程语言 时间:
2015-06-25 10:30:17
阅读次数:
179
抓下来返回text是这样的:需要用到的包:下载地址:http://pan.baidu.com/s/1o69myOq两个类的代码
WeiboCN.javaimport java.util.Set;
import cn.edu.hfut.dmic.webcollector.*;
import org.openqa.selenium.Cookie;
import org.openqa.selenium....
分类:
Web程序 时间:
2015-06-11 17:09:29
阅读次数:
264
目标:动态网页爬取
说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个html里有,通过JS生成aaa。
这里用了WebCollector 2进行爬虫,这东东也方便,不过要支持动态关键还是要靠另外一个API -- selenium 2(集成htmlunit 和 phantomjs).
1)需要登录后的爬取,如新浪微博...
分类:
Web程序 时间:
2015-06-10 19:28:54
阅读次数:
1559
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。
本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。
教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。...
分类:
Web程序 时间:
2015-04-26 21:16:47
阅读次数:
4480
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:
Web程序 时间:
2015-01-02 23:44:58
阅读次数:
390
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:
其他好文 时间:
2014-12-24 14:42:27
阅读次数:
254
爬虫简介:
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
爬虫内核:
WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。
量级:
...
分类:
编程语言 时间:
2014-12-03 23:35:39
阅读次数:
609