Scrapy框架之如何给你的请求添加代理

时间：2016-12-08 18:30:25 阅读：323 评论：0 收藏：0 [点我收藏+]

首先做好准备工作，创建一个Scrapy项目，目录结构如下：

技术分享

注：spiders目录下多了3个文件，db.py，default.init和items.json。db.py是我简单封装的一个数据库访问的lib文件，default.init是我的数据库和代理相关的配置文件，items.json是最后的输出文件。

给请求添加代理有2种方式，第一种是重写你的爬虫类的start_request方法，第二种是添加download中间件。下面会分别介绍这2种方式。

重写start_request方法

我在我的爬虫类中重写了start_requests方法：

技术分享

比较简单，只是在meta中加了一个proxy代理。然后可以测试了，那么问题来了，我怎么知道我的请求是否带上了代理呢？可以在测试的时候去爬 "http://ip.filefab.com/index.php" 这个网站，它会显示你当前访问ip地址。一切准备就绪了，我在我的intellij控制台中输入命令： cd /spider和scrapy crawl dmoz，然后控制台打印：

技术分享

需要注意的一点是，在使用那种Basic认证的代理ip时，scrapy不同于python的requests包，这里不能直接把用户名和密码与代理ip放在一起。假设我这里使用一个基于Basic认证的代理ip，比如：http://username:passwd@180.125.196.155，把上述代码简单的改成：meta={‘proxy‘: ‘http://username:passwd@180.125.196.155‘} 是不正确的：

技术分享