scrapy

时间：2018-01-10 14:13:51 阅读：184 评论：0 收藏：0 [点我收藏+]

标签：safari print object wow sel accept app default col

1. 创建项目

2. 创建爬虫

3. 运行爬虫

======

爬虫技巧

设置setting.py

1. 这是不遵循 ROBOTSTXT_OBEY

ROBOTSTXT_OBEY = False

2. 设置延时

DOWNLOAD_DELAY = 3

3. 设置 DEFAULT_REQUEST_HEADERS

DEFAULT_REQUEST_HEADERS = {
   ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
   ‘Accept-Language‘: ‘en‘,
   ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘
}

4. 设置下载中间件（设置爬虫的headers和proxoy）

// project_dir/middlewares.py
1 class ProxyMilldeware(object):
2     def process_request(self, spider, request):
3         print(‘*‘*100)
4         request.headers.setdefault(‘User-Agent‘, ‘在这里设置成你的浏览器用户代理‘)
5         request.meta[‘proxy‘]= ‘在这里设置成你的浏览器IP代理‘   # https://127.0.0.1:8080

scrapy

标签：safari print object wow sel accept app default col

原文地址：https://www.cnblogs.com/yugengde/p/8257834.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行