码迷,mamicode.com
首页 >  
搜索关键字:webcollector    ( 39个结果
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核:WebCollector 致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核...
分类:编程语言   时间:2015-08-11 07:07:41    阅读次数:1484
java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver 问题解决方案
最近在做一个项目参加比赛,需要截取很多数据,意外找到了一个程序叫webcollector 然而在使用的时候出了一个问题  java.lang.NoClassDefFoundError: org/openqa/selenium/htmlunit/HtmlUnitDriver  不停得提示这个 ,在网上找了很久没发现解决方案 不想草草了之,google了NoClassDefFoundErro...
分类:编程语言   时间:2015-07-31 13:01:53    阅读次数:270
搜索引擎爬虫技术研究(爬虫框架)-WebCollector
一.简介:https://github.com/CrawlScript/WebCollector/blob/master/README.zh-cn.md二.使用: cn.edu.hfut.dmic.webcollector WebCollector 2.0...
分类:Web程序   时间:2015-07-11 11:51:11    阅读次数:203
WebCollector下载整站页面(JAVA网络爬虫)
很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。 下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。 代码中的抽取器可以作为一个插件复用。 WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。...
分类:编程语言   时间:2015-06-25 10:30:17    阅读次数:179
亲测超级好用WebCollector抓取新浪微博数据(提供下载所有爬虫包)
抓下来返回text是这样的:需要用到的包:下载地址:http://pan.baidu.com/s/1o69myOq两个类的代码 WeiboCN.javaimport java.util.Set; import cn.edu.hfut.dmic.webcollector.*; import org.openqa.selenium.Cookie; import org.openqa.selenium....
分类:Web程序   时间:2015-06-11 17:09:29    阅读次数:264
动态网页爬取例子(WebCollector+selenium+phantomjs)
目标:动态网页爬取 说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作;2)网页通过JS / AJAX动态生成,如一个html里有,通过JS生成aaa。 这里用了WebCollector 2进行爬虫,这东东也方便,不过要支持动态关键还是要靠另外一个API -- selenium 2(集成htmlunit 和 phantomjs). 1)需要登录后的爬取,如新浪微博...
分类:Web程序   时间:2015-06-10 19:28:54    阅读次数:1559
WebCollector多代理切换机制
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。 本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。 教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。...
分类:Web程序   时间:2015-04-26 21:16:47    阅读次数:4480
用WebCollector 2.x爬取新浪微博(无需手动获取cookie)
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:Web程序   时间:2015-01-02 23:44:58    阅读次数:390
开发网络爬虫应该怎样选择爬虫框架?
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:其他好文   时间:2014-12-24 14:42:27    阅读次数:254
JAVA爬虫 WebCollector
爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。 量级: ...
分类:编程语言   时间:2014-12-03 23:35:39    阅读次数:609
39条   上一页 1 2 3 4 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!