1. 爬虫的分类:分布式和单机 分布式主要就是apache的nutch框架,java实现,依赖hadoop运行,学习难度高,一般只用来做搜索引擎开发。 java单机的框架有:webmagic和webcollector以及crawler4j python单机的框架:scrapy和pyspider 2. ...
分类:
编程语言 时间:
2018-07-14 13:00:49
阅读次数:
842
1.近期接触到java 爬虫,开源的爬虫框架有很多,其中WebMagic 是国产的,文档也是中文的,网上资料很多,便于学习,功能强大,可以在很短时间内实现一个简单的网络爬虫。具体可参考官网 http://webmagic.io/docs/zh/。今天参考官网和网上资料实现了抓取网页图片,并保存在本地 ...
分类:
Web程序 时间:
2018-07-13 13:16:31
阅读次数:
610
Jsoup,Java爬虫解决方案,中文文档:jsoup 不得不说Java的生态真的好,原来我以为爬虫是只能用Pyhton来写的,结果发现Java的爬虫框架不要太多…… 一分钟你就可以写一个简单爬虫 WebMagic in Action 不过个人觉得Jsoup最好用,最直接也很简单 写了一个Demo, ...
分类:
编程语言 时间:
2018-06-20 15:39:23
阅读次数:
263
主要特点 框架代码结构简单易用,易于修改。例如针对出现验证码的处理方法。 采用gevent实现并发操作,与scrapy的twisted相比,代码更容易理解。 完全模块化的设计,强大的可扩展性。 使用方式和结构参考了 scrapy 和 webmagic 。对有接触过这两个框架的朋友非常友好。 对数据的 ...
分类:
其他好文 时间:
2018-06-16 21:06:18
阅读次数:
251
今天在写一个demo时报了以下错误 一看就是 SLF4J 依赖冲突,查看一下有哪些包依赖了 SLF4J 使用命令: 输出如下 可以看到webmagic-core 和 springboot-starter-aop 相冲突,所以在 pom 文件修改 再运行即可 ...
分类:
其他好文 时间:
2018-04-06 13:56:49
阅读次数:
4782
urllib使用方式参考如下网址:http://blog.51cto.com/shangdc/2090763使用python爬虫其实就是方便,它会有各种工具类供你来使用,很方便。Java不可以吗?也可以,使用httpclient工具、还有一个大神写的webmagic框架,这些都可以实现爬虫,只不过python集成工具库,使用几行爬取,而Java需要写更多的行来实现,但目的都是一样。下面介绍requ
分类:
编程语言 时间:
2018-03-24 23:55:03
阅读次数:
249
目录 一、爬一个简单的网站 二、模拟登录新浪 三、各种请求的发送 四、使用curl 五、模拟登录QQ空间 六、selenium的使用 七、phantomjs的使用 八、开源框架webmagic 九、开源框架scrapy 十、多线程爬取与反爬策略 十一、加密与解密 十二、APP数据抓取 十三、分布式爬 ...
分类:
Web程序 时间:
2018-01-19 11:28:42
阅读次数:
172
https://my.oschina.net/flashsword/blog/180623 重点 SeleniumDownloader 对于一些Javascript动态加载的网页,仅仅使用http模拟下载工具,并不能取到页面的内容。这方面的思路有两种:一种是抽丝剥茧,分析js的逻辑,再用爬虫去重现它 ...
分类:
Web程序 时间:
2017-12-26 00:53:57
阅读次数:
238
[爬虫技术收集整理] [通用知识] - 正则表达式中各种字符的含义 - Web Crawler Slide share - Quick & Dirty Python [Java语言] - [知了开发]“知了”优化 - WebMagic 调优 - ContentExtractor开源网页正文抽取工具 ...
分类:
其他好文 时间:
2017-11-19 01:55:23
阅读次数:
154
【转】使用webmagic搭建一个简单的爬虫 刚刚接触爬虫,听说webmagic很不错,于是就了解了一下。 webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 这句话说的真的一点都不假,像我这样什么都不懂的人直接下载部署,看了看可以调用的 ...
分类:
Web程序 时间:
2017-11-10 16:50:52
阅读次数:
275