搜索关键字：scrapy-redis，搜索到131个结果！码迷,mamicode.com！

淘搜索之网页抓取系统分析与实现（4）- 实现&总结

以一淘搜索的crawler为核心展开的分析到此基本结束了，除了django和mysql部分没有涉及，其它部分都进行了test，尤其是围绕crawler，所展开的分析和实现主要有： 1. 分布式crawler与分布式pipeline处理。使用scrapy+redis实现，用到了scrapy+scra ...

分类：Web程序时间：2017-03-05 13:12:11 阅读次数：180

淘搜索之网页抓取系统分析与实现（2）—redis + scrapy

1.scrapy+redis使用 (1)应用这里redis与scrapy一起,scrapy作为crawler，而redis作为scrapy的调度器。如架构图中的②所示。图1 架构图 (2)为什么选择redis redis作为调度器的实现仍然和其特性相关，可见《一淘搜索之网页抓取系统分析与实现（1） ...

分类：Web程序时间：2017-03-05 12:33:33 阅读次数：228

scrapy 和 scrapy_redis 安装

安装sqlslte，scrapy需要这个模块 yum install sqlite-devel python3.5 下载包自己编译安装 ./configure make make install 自带pip，升到最新版 pip3 install --upgrade pip python3 MySQL ...

分类：其他好文时间：2016-09-26 18:03:59 阅读次数：333

Redis与Scrapy

Redis与Scrapy Redis is an open source, BSD licensed, advanced key-value cache and store. It is often referred to as a data structure server since keys ...

分类：其他好文时间：2016-06-29 22:08:15 阅读次数：171

redis初识

学习redis并简单概述scrapy+redis爬虫的基本原理。 ...

分类：其他好文时间：2016-06-17 00:36:33 阅读次数：458

scrapy-redis详解

scrapy-redis使用的爬虫策略： Slaver端从Master端拿任务进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给Master。Master端负责对Slaver提交的任务进行去重、加入待爬队列。 scrapy-redis在处理分布式时，会在redis中创建两个key，一个是(sp ...

分类：其他好文时间：2016-05-19 16:27:49 阅读次数：362

linux下安装python、scrapy、redis、mysql

安装python安装pythonwget https://www.python.org/ftp/python/2.7.11/Python-2.7.11.tgz tar zxvf Python-2.7.11.tgz cd Python-2.7.11 ./configure –prefix=/usr/local make && make altinstall 检查Python版本 pyth...

分类：数据库时间：2016-05-12 13:35:09 阅读次数：588

基于Redis的三种分布式爬虫策略

前言：爬虫是偏IO型的任务，分布式爬虫的实现难度比分布式计算和分布式存储简单得多。个人以为分布式爬虫需要考虑的点主要有以下几个：爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能 Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库，中间的调度任务等用scrapy-redis模块实现。...

分类：其他好文时间：2016-03-28 00:10:36 阅读次数：189

已将GitHub scrapy-redis库升级，使其兼容最新版本Scrapy

1.代码升级之前的问题：随着Scrapy库的流行，scrapy-redis作为使用redis支持分布式爬取的工具，也不断的被大家发现。但是，使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy，所以当你使用的是新版本的Scrapy时，不可避免的会出现警告，甚至错误。关于这个问题，我总结之后在scrapy-redis库中提了出来并开了issue和作者做了...

分类：其他好文时间：2014-09-07 17:20:55 阅读次数：226

scrapy-redis源码分析

原创文章，链接： (I) connection.py 负责根据setting中配置实例化redis连接。被dupefilter和scheduler调用，总之涉及到redis存取的都要使用到这个模块。 (II) dupefilter.py 负责执行requst的去重，实现的很有技巧性，使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实现的dupe...

分类：其他好文时间：2014-07-28 16:10:23 阅读次数：395

共131条上一页 1 ... 11 12 13 14 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)