码迷,mamicode.com
首页 >  
搜索关键字:java爬虫    ( 135个结果
java爬虫理解
1、下载(页面html),请求头(如user-agent)处理,重定向,超时,代理,重试策略等 ? ? 1)使用jdk中的URL实现 ? ? HttpURLConnection con = URL.openConnection() ? ? 2)使用apache项目hc实现http://hc.a...
分类:编程语言   时间:2015-06-24 19:25:33    阅读次数:228
(转)Java爬虫,信息抓取的实现
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求,需要做一些指定网站查询后的数据的抓取,于是花了点时间写了个demo供演示使用。思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是...
分类:编程语言   时间:2015-06-18 21:40:14    阅读次数:270
亲测超级好用WebCollector抓取新浪微博数据(提供下载所有爬虫包)
抓下来返回text是这样的:需要用到的包:下载地址:http://pan.baidu.com/s/1o69myOq两个类的代码 WeiboCN.javaimport java.util.Set; import cn.edu.hfut.dmic.webcollector.*; import org.openqa.selenium.Cookie; import org.openqa.selenium....
分类:Web程序   时间:2015-06-11 17:09:29    阅读次数:264
WebCollector多代理切换机制
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。 本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。 教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。...
分类:Web程序   时间:2015-04-26 21:16:47    阅读次数:4480
Java爬虫,信息抓取的实现
java思想很简单:就是通过Java访问的链接,然后拿到html字符串,然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析,当然Jsoup很方便,也很简单,一行代码就能知道怎么用了:1 Document doc = Jsoup.connect("http://www.oschina.....
分类:编程语言   时间:2015-04-02 13:12:26    阅读次数:262
网络爬虫----男!生!福!利!
一、配置mvn依赖<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.1.2</version></dependency>二、代码1、获取网页内容packagecom.chenanyi.fuli.Helper; importjava..
分类:其他好文   时间:2015-03-09 19:28:55    阅读次数:241
爬虫1号
这是我实现的第一个版本的爬虫,局限比较大,用的算法思想也比较简单。不过通过爬虫1号,我对爬虫和搜索引擎实现机制有了更多的认识,收获还是挺大的^_^,涂鸦之作,我不知道别人如何实现的,就按自己的想法写了个,大家有兴趣可以看看,用java实现的 这是工程目录: 下面是具体代码: package com.rgy.reptile; import com.rgy.utils.PageUtil...
分类:其他好文   时间:2015-01-30 22:51:46    阅读次数:266
用WebCollector 2.x爬取新浪微博(无需手动获取cookie)
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:Web程序   时间:2015-01-02 23:44:58    阅读次数:390
开发网络爬虫应该怎样选择爬虫框架?
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?...
分类:其他好文   时间:2014-12-24 14:42:27    阅读次数:254
JAVA爬虫 WebCollector
爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。 量级: ...
分类:编程语言   时间:2014-12-03 23:35:39    阅读次数:609
135条   上一页 1 ... 10 11 12 13 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!