1、下载(页面html),请求头(如user-agent)处理,重定向,超时,代理,重试策略等 ? ? 1)使用jdk中的URL实现 ? ? HttpURLConnection con = URL.openConnection() ? ? 2)使用apache项目hc实现http://hc.a...
分类:
编程语言 时间:
2015-06-24 19:25:33
阅读次数:
228
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是...
分类:
编程语言 时间:
2015-06-18 21:40:14
阅读次数:
270
抓下来返回text是这样的:需要用到的包:下载地址:http://pan.baidu.com/s/1o69myOq两个类的代码
WeiboCN.javaimport java.util.Set;
import cn.edu.hfut.dmic.webcollector.*;
import org.openqa.selenium.Cookie;
import org.openqa.selenium....
分类:
Web程序 时间:
2015-06-11 17:09:29
阅读次数:
264
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。
本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。
教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。...
分类:
Web程序 时间:
2015-04-26 21:16:47
阅读次数:
4480
java思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就能知道怎么用了:1 Document doc = Jsoup.connect("http://www.oschina.....
分类:
编程语言 时间:
2015-04-02 13:12:26
阅读次数:
262
一、配置mvn依赖<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.1.2</version></dependency>二、代码1、获取网页内容packagecom.chenanyi.fuli.Helper;
importjava..
分类:
其他好文 时间:
2015-03-09 19:28:55
阅读次数:
241
这是我实现的第一个版本的爬虫,局限比较大,用的算法思想也比较简单。不过通过爬虫1号,我对爬虫和搜索引擎实现机制有了更多的认识,收获还是挺大的^_^,涂鸦之作,我不知道别人如何实现的,就按自己的想法写了个,大家有兴趣可以看看,用java实现的
这是工程目录:
下面是具体代码:
package com.rgy.reptile;
import com.rgy.utils.PageUtil...
分类:
其他好文 时间:
2015-01-30 22:51:46
阅读次数:
266
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:
Web程序 时间:
2015-01-02 23:44:58
阅读次数:
390
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:
其他好文 时间:
2014-12-24 14:42:27
阅读次数:
254
爬虫简介:
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。
爬虫内核:
WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。
量级:
...
分类:
编程语言 时间:
2014-12-03 23:35:39
阅读次数:
609