码迷,mamicode.com
首页 >  
搜索关键字:分布式爬虫    ( 234个结果
怎样用java编程抓取动态生成的网页
刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中,再去浏览器查看源码果然是这样的,在源码中确实没有我需要的数据,看来不是我程序写错了,接下来让人身心疲惫的事情来...
分类:编程语言   时间:2014-09-22 20:02:53    阅读次数:301
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:编程语言   时间:2014-09-22 02:43:01    阅读次数:301
python使用异步任务celery出现异常崩溃时retry重试
前言:python下的celery是啥东西大家应该有了解,是一个异步的任务框架。话说,我以前写过一个报警平台的项目,也需要任务的扩展成分布式,当时总是觉得用celery不是那么太靠谱,所以就自己写了一个分布式的任务派发的系统。今个和朋友聊起了分布式爬虫,这哥们说任务有时候经..
分类:编程语言   时间:2014-09-03 02:42:47    阅读次数:1943
scrapy-redis实现爬虫分布式爬取分析与实现
一 scrapy-redis实现分布式爬取分析 所谓的scrapy-redis实际上就是scrapy+redis其中对redis的操作采用redis-py客户端。这里的redis的作用以及在scrapy-redis的方向我在自己fork的repository(链接:)已经做了翻译(README.rst)。 在前面一篇文章中我已经借助两篇相关文章分析了使用redis实现爬虫分布式的中心。归结起来...
分类:其他好文   时间:2014-07-24 23:13:44    阅读次数:306
234条   上一页 1 ... 22 23 24
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!