码迷,mamicode.com
首页 >  
搜索关键字:java爬虫    ( 135个结果
JAVA爬虫实践(实践三:爬虫框架webMagic和csdnBlog爬虫)
WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。 采用HttpClient可以实现定向的爬虫,也可以自己编写算法逻辑来实现多线程,创建链接池,自动解析网页代码获取请求链接,封装正则表达式等等。 但是如果使用框架,就不再 ...
分类:编程语言   时间:2017-04-24 17:14:47    阅读次数:654
Java爬虫(一)利用GET和POST发送请求,获取服务器返回信息
本人所使用软件 eclipse fiddle UC浏览器 分析请求信息 以知乎(https://www.zhihu.com)为例,模拟登陆请求,获取登陆后首页,首先就是分析请求信息。 用UC浏览器F12,点击Network,按F5刷新。使用自己账号登陆知乎后,点www.zhihu.com网址后,出现 ...
分类:编程语言   时间:2017-04-01 21:49:56    阅读次数:374
selenium-java爬虫实现
推荐的网站学习网站 1.官方文档 http://www.seleniumhq.org/docs/ 2.selenium多线程 http://www.cnblogs.com/dingmy/p/3438084.html Selenium Standalone Server 搭建RC环境 1.下载Sele ...
分类:编程语言   时间:2017-03-28 19:42:33    阅读次数:628
webmagic的设计机制及原理-如何开发一个Java爬虫 转
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-manual.md 之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫 ...
分类:编程语言   时间:2017-02-21 17:48:24    阅读次数:541
com.panie 项目开发随笔_爬虫初识(2017.2.7)
(一) 本章打算研究一下爬虫。我想用爬虫简单的爬取几篇文章,以及收集一下常用网站的信息。 (二) 以开源项目 JAVA爬虫 WebCollector 为源码研究。在此基础上改为适合自己项目的代码。 (三) WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核 ...
分类:其他好文   时间:2017-02-07 18:45:36    阅读次数:461
Java爬虫搜索原理实现
permike 原文 Java爬虫搜索原理实现 没事做,又研究了一下爬虫搜索,两三天时间总算是把原理闹的差不多了,基本实现了爬虫搜索的原理,本次实现还是俩程序,分别是按广度优先和深度优先完成的,广度优先没啥问题,深度优先请慎用,有极大的概率会造成死循环情况,下面深度优先的测试网站就造成了死循环。。。 ...
分类:编程语言   时间:2016-12-18 14:55:38    阅读次数:300
Java爬虫项目实战(一)
目的: 通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) 、市(City)、县(County)、镇(town)、村委会(village) 主网站链接: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.htm ...
分类:编程语言   时间:2016-09-16 22:36:52    阅读次数:666
福利贴——爬取美女图片的Java爬虫小程序代码
自己做的一个Java爬虫小程序废话不多说,先上图。文件夹命名是用标签缩写,如果大家看得不顺眼可以等下载完成后手动改一下,比如像有强迫症的我一样。。。 这是总大小,不过还有很多因为一些问题没有遍历下载...
分类:编程语言   时间:2016-08-28 18:17:39    阅读次数:2116
教你小小JAVA爬虫爬到HDU首页(只为学习)
记得以前刷hdu的时候总是发现有人能一分钟内提交很多次 而且还ac  感觉不可思议。后来百度搜了搜 原来是网络爬虫 带着这一届acm成员集训的时候有成员说hdu炸了  一直判断中  我就说是爬虫。。。然后就想了想 自己能不能写而且要用java写 结果一天没吃饭(因为感觉我能做出来)。。。直到晚上6点多 测试一个数据 A了  那种感觉   无法用言语表达。。。比吃了任何东西都快乐。 ...
分类:编程语言   时间:2016-08-13 12:57:13    阅读次数:305
爬虫6:多页面队列Java爬虫
之前写过很多单页面python爬虫,感觉python还是很好用的,这里用java总结一个多页面的爬虫,迭代爬取种子页面的所有链接的页面,全部保存在tmp路径下。 1 序言 实现这个爬虫需要两个数据结构支持,unvisited队列(priorityqueue:可以适用pagerank等算法计算出url ...
分类:编程语言   时间:2016-08-05 16:08:09    阅读次数:312
135条   上一页 1 ... 6 7 8 9 10 ... 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!