码迷,mamicode.com
首页 > 编程语言 > 详细

第三百四十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware随机更换user-agent浏览器用户代理

时间:2017-08-11 14:46:37      阅读:221      评论:0      收藏:0      [点我收藏+]

标签:images   span   war   pytho   download   use   ble   back   ges   

第三百四十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware随机更换user-agent浏览器用户代理

 

downloadmiddleware介绍
中间件是一个框架,可以连接到请求/响应处理中。这是一种很轻的、低层次的系统,可以改变Scrapy的请求和回应。也就是在Requests请求和Response响应之间的中间件,可以全局的修改Requests请求和Response响应

 

源码里downloadmiddleware里的useragent.py下的UserAgentMiddleware()方法

我们可以从源码看到当Requests请求时默认的User-Agent是Scrapy,这个很容易被网站识别而拦截爬虫

技术分享

 

 

 

利用downloadmiddleware中间件随机更换Requests请求头信息的User-Agent浏览器用户代理

 

第一步、在settings.py配置文件,开启中间件注册DOWNLOADER_MIDDLEWARES={ }

将默认的将默认的UserAgentMiddleware设置为None,或者设置成最大就最后执行,这样我们自定义的中间件修改默认的user_agent就会先执行

settings.py配置文件

# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {              #开启注册中间件
   # ‘adc.middlewares.MyCustomDownloaderMiddleware‘: 543,
   scrapy.downloadermiddlewares.useragent.UserAgentMiddleware: None, #将默认的UserAgentMiddleware设置为None
}

 

第三百四十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware随机更换user-agent浏览器用户代理

标签:images   span   war   pytho   download   use   ble   back   ges   

原文地址:http://www.cnblogs.com/adc8868/p/7345436.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!