标签:ted linu pip 遵从 工程 中间 指定 用法 fir
- 就是一个集成了很多功能且具有很强通用性的一个项目模板。(项目的半成品)
- 学习每一个功能的作用及其用法即可
- 高性能的网络请求
- 高性能的数据解析
- 高性能的持久化存储
- 深度爬取
- 全栈爬取
- 分布式
- 中间件
- 请求传参
- mac/linux:pip install scrapy - window: - pip install wheel - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted - 进入下载目录,执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl # 飘红下载其他版本 - pip install pywin32 - pip install scrapy
- 新建一个工程:scrapy startproject ProName - 目录结构: - spiders(包):空包 - settings:配置文件 - 不遵从robots - UA伪装 - 日志等级的指定 - cd ProName:进入到工程目录中 - 在spiders(爬虫文件夹)中创建一个爬虫文件 - scrapy genspider spiderName www.xxx.com - 编写代码:主要的代码会编写在爬虫文件中 - 执行工程:scrapy crawl 爬虫文件名 #日志信息
新建一个工程:scrapy startproject 名字
执行工程:scrapy crawl 爬虫文件名 #日志信息
爬取数据前要在setting中
ROBOTSTXT_OBEY = True
改为 Flase
不想显示日志:
scrapy crawl 爬虫文件名 --nolog
加上不显示log,但也不会显示报错信息
显示报错信息,需在settings加
LOG_LEVEL =‘ERROR‘
将日志写在文件里
LOG_FILE = ‘./file.txt‘
UA伪装
USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘
标签:ted linu pip 遵从 工程 中间 指定 用法 fir
原文地址:https://www.cnblogs.com/Pythonzrq/p/11663647.html