码迷,mamicode.com
首页 > 编程语言 > 详细

Python Scrapy 自动爬虫注意细节

时间:2016-12-24 02:04:12      阅读:260      评论:0      收藏:0      [点我收藏+]

标签:注意   txt   pytho   com   import   art   url   mozilla   bsp   

一、首次爬取模拟浏览器

在爬虫文件中,添加start_request函数。如:

def start_requests(self):
  ua = {"User-Agent": ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400‘}
  yield Request("http://www.baidu.com", headers=ua)

 

需要导入:from scrapy.http import Request

二、自动爬取模拟浏览器

打开settings.py,为USER_AGENT赋值,如:USER_AGENT = ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400‘

 

三、注释原起始页

如使用了start_requests方法,需要注释:start_urls = [‘http://www.baidu.com/‘]

 

四、目标网站的爬虫协议

ROBOTSTXT_OBEY = False

 


 

Python Scrapy 自动爬虫注意细节

标签:注意   txt   pytho   com   import   art   url   mozilla   bsp   

原文地址:http://www.cnblogs.com/defineconst/p/6216442.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!