码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy 框架

时间:2019-10-12 20:38:04      阅读:92      评论:0      收藏:0      [点我收藏+]

标签:ted   linu   pip   遵从   工程   中间   指定   用法   fir   


框架

- 就是一个集成了很多功能且具有很强通用性的一个项目模板。(项目的半成品)
- 学习每一个功能的作用及其用法即可

scrapy 框架

- 高性能的网络请求
- 高性能的数据解析
- 高性能的持久化存储
- 深度爬取
- 全栈爬取
- 分布式
- 中间件
- 请求传参

环境的安装

- mac/linux:pip install scrapy
- window:
    - pip install wheel
    - 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    - 进入下载目录,执行 pip install Twisted?17.1.0?cp35?cp35m?win_amd64.whl   # 飘红下载其他版本
    - pip install pywin32
    - pip install scrapy

 

基本使用

- 新建一个工程:scrapy startproject ProName
    - 目录结构:
        - spiders(包):空包
        - settings:配置文件
            - 不遵从robots
            - UA伪装
            - 日志等级的指定

- cd ProName:进入到工程目录中
- 在spiders(爬虫文件夹)中创建一个爬虫文件
    - scrapy genspider spiderName www.xxx.com
- 编写代码:主要的代码会编写在爬虫文件中
- 执行工程:scrapy crawl 爬虫文件名  #日志信息

新建一个工程:
scrapy startproject 名字
执行工程:scrapy crawl 爬虫文件名 #日志信息
  爬取数据前要在setting中
  ROBOTSTXT_OBEY = True

  改为 Flase
不想显示日志:
  scrapy crawl 爬虫文件名  --nolog
  加上不显示log,但也不会显示报错信息
  
  显示报错信息,需在settings加
  LOG_LEVEL =‘ERROR‘

  将日志写在文件里
  LOG_FILE = ‘./file.txt‘

  UA伪装
  USER_AGENT = ‘firstBlood (+http://www.yourdomain.com)‘



























scrapy 框架

标签:ted   linu   pip   遵从   工程   中间   指定   用法   fir   

原文地址:https://www.cnblogs.com/Pythonzrq/p/11663647.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!