码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy 爬虫总结(I)

时间:2017-11-09 22:20:47      阅读:133      评论:0      收藏:0      [点我收藏+]

标签:shell   http   使用   bsp   正则   ges   建议   main   .com   

问题1:正则表达式没问题,但是爬虫进不了item方法

分析:

  1. 可能是下载不到list 页面的内容。可以用 scrapy shell url 进行测试

  技术分享

  2. 可能是allowed_domains 不允许

  技术分享

 

  3. list 页面里的链接不符合正则表达式 或者说list 页面里根本就没有相关的链接

解决方案

 针对第一种:有可能是所爬取的网站有反爬虫机制,比如禁掉你的ip(多数是通过ip的)

解决方案:可以更换动态更换 user_agent,或者使用ip池,更换ip网上有不少免费的IP代理,但是不是很稳定

2: 因为详情页的链接很可能并不是和list 页面在同一个domain 下,所以在不清楚domain 时,建议将allowed_domain 制空

 

3. 查看response 的text值,看看是否根本就不包含相关的url。有时你说看到的url 可能并不是list 页面中的链接,服务器上可能进行了处理

 

scrapy 爬虫总结(I)

标签:shell   http   使用   bsp   正则   ges   建议   main   .com   

原文地址:http://www.cnblogs.com/taoyoung/p/7811309.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!