码迷,mamicode.com
首页 >  
搜索关键字:scrapy-redis    ( 131个结果
淘搜索之网页抓取系统分析与实现(4)- 实现&总结
以一淘搜索的crawler为核心展开的分析到此基本结束了,除了django和mysql部分没有涉及,其它部分都进行了test,尤其是围绕crawler,所展开的分析和实现主要有: 1. 分布式crawler与分布式pipeline处理。 使用scrapy+redis实现,用到了scrapy+scra ...
分类:Web程序   时间:2017-03-05 13:12:11    阅读次数:180
淘搜索之网页抓取系统分析与实现(2)—redis + scrapy
1.scrapy+redis使用 (1)应用 这里redis与scrapy一起,scrapy作为crawler,而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图 (2)为什么选择redis redis作为调度器的实现仍然和其特性相关,可见《一淘搜索之网页抓取系统分析与实现(1) ...
分类:Web程序   时间:2017-03-05 12:33:33    阅读次数:228
scrapy 和 scrapy_redis 安装
安装sqlslte,scrapy需要这个模块 yum install sqlite-devel python3.5 下载包自己编译安装 ./configure make make install 自带pip,升到最新版 pip3 install --upgrade pip python3 MySQL ...
分类:其他好文   时间:2016-09-26 18:03:59    阅读次数:333
Redis与Scrapy
Redis与Scrapy Redis is an open source, BSD licensed, advanced key-value cache and store. It is often referred to as a data structure server since keys ...
分类:其他好文   时间:2016-06-29 22:08:15    阅读次数:171
redis初识
学习redis并简单概述scrapy+redis爬虫的基本原理。 ...
分类:其他好文   时间:2016-06-17 00:36:33    阅读次数:458
scrapy-redis详解
scrapy-redis使用的爬虫策略: Slaver端从Master端拿任务进行数据抓取,在抓取数据的同时也生成新任务,并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时,会在redis中创建两个key,一个是(sp ...
分类:其他好文   时间:2016-05-19 16:27:49    阅读次数:362
linux下安装python、scrapy、redis、mysql
安装python安装pythonwget https://www.python.org/ftp/python/2.7.11/Python-2.7.11.tgz tar zxvf Python-2.7.11.tgz cd Python-2.7.11 ./configure –prefix=/usr/local make && make altinstall 检查Python版本 pyth...
分类:数据库   时间:2016-05-12 13:35:09    阅读次数:588
基于Redis的三种分布式爬虫策略
前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现。...
分类:其他好文   时间:2016-03-28 00:10:36    阅读次数:189
已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy
1.代码升级 之前的问题: 随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。 但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,甚至错误。 关于这个问题,我总结之后在scrapy-redis库中提了出来并开了issue和作者做了...
分类:其他好文   时间:2014-09-07 17:20:55    阅读次数:226
scrapy-redis源码分析
原创文章,链接: (I) connection.py 负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用,总之涉及到redis存取的都要使用到这个模块。 (II) dupefilter.py 负责执行requst的去重,实现的很有技巧性,使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...
分类:其他好文   时间:2014-07-28 16:10:23    阅读次数:395
131条   上一页 1 ... 11 12 13 14 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!