搜索关键字：java爬虫，搜索到135个结果！码迷,mamicode.com！

java爬虫理解

1、下载（页面html），请求头（如user-agent）处理，重定向，超时，代理，重试策略等 ? ? 1)使用jdk中的URL实现 ? ? HttpURLConnection con = URL.openConnection() ? ? 2)使用apache项目hc实现http://hc.a...

分类：编程语言时间：2015-06-24 19:25:33 阅读次数：228

（转）Java爬虫，信息抓取的实现

转载请注明出处：http://blog.csdn.net/lmj623565791/article/details/23272657今天公司有个需求，需要做一些指定网站查询后的数据的抓取，于是花了点时间写了个demo供演示使用。思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是...

分类：编程语言时间：2015-06-18 21:40:14 阅读次数：270

亲测超级好用WebCollector抓取新浪微博数据(提供下载所有爬虫包)

抓下来返回text是这样的：需要用到的包：下载地址：http://pan.baidu.com/s/1o69myOq两个类的代码 WeiboCN.javaimport java.util.Set; import cn.edu.hfut.dmic.webcollector.*; import org.openqa.selenium.Cookie; import org.openqa.selenium....

分类：Web程序时间：2015-06-11 17:09:29 阅读次数：264

WebCollector多代理切换机制

使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。本教程利用WebCollector爬取大众点评，展示WebCollector的多代理切换机制，相关内容都在代码注释中。教程中仅仅将网页保存在download文件夹中，如果需要抽取，请参考WebCollector其他教程。...

分类：Web程序时间：2015-04-26 21:16:47 阅读次数：4480

Java爬虫，信息抓取的实现

java思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。技术上使用Jsoup方便页面的解析，当然Jsoup很方便，也很简单，一行代码就能知道怎么用了：1 Document doc = Jsoup.connect("http://www.oschina.....

分类：编程语言时间：2015-04-02 13:12:26 阅读次数：262

网络爬虫----男！生！福！利！

一、配置mvn依赖<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.1.2</version></dependency>二、代码1、获取网页内容packagecom.chenanyi.fuli.Helper; importjava..

分类：其他好文时间：2015-03-09 19:28:55 阅读次数：241

爬虫1号

这是我实现的第一个版本的爬虫，局限比较大，用的算法思想也比较简单。不过通过爬虫1号，我对爬虫和搜索引擎实现机制有了更多的认识，收获还是挺大的^_^，涂鸦之作，我不知道别人如何实现的，就按自己的想法写了个，大家有兴趣可以看看，用java实现的这是工程目录：下面是具体代码： package com.rgy.reptile; import com.rgy.utils.PageUtil...

分类：其他好文时间：2015-01-30 22:51:46 阅读次数：266

用WebCollector 2.x爬取新浪微博（无需手动获取cookie)

用WebCollector 2.x 配合另一个项目WeiboHelper，就可以直接爬取新浪微博的数据（无需手动获取cookie）...

分类：Web程序时间：2015-01-02 23:44:58 阅读次数：390

开发网络爬虫应该怎样选择爬虫框架？

开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的？...

分类：其他好文时间：2014-12-24 14:42:27 阅读次数：254

JAVA爬虫 WebCollector

爬虫简介： WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。量级： ...

分类：编程语言时间：2014-12-03 23:35:39 阅读次数：609

共135条上一页 1 ... 10 11 12 13 14 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)