码迷,mamicode.com
首页 > 其他好文 > 详细

命令含工具(2)

时间:2019-04-26 00:29:43      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:解析   用法   fetch   tin   ensp   edit   img   gen   基本命令   

一 配置文件scrapy.cfg

1 全局配置文件路径  盘符: ... \scrapy\scrapy

技术图片

 

2 项目配置文件

技术图片

  

配置文件的优先级别: 用户定义的配置文件优先级别高于系统范围的默认值.

 

二 创建醒目的基本命令

scrapy startproject myproject #创建项目

cd myproject #进入项目根目录

scrapy genspider mydomain mydomain.com #创建爬虫文件

scrapy crawl mydomain  #启动爬虫文件

 

三 命令分类

全局命令

  • startproject  #创建项目
  • genspider    #创建爬虫文件
  • settings     #查看配置信息
  • runspider    #启动某爬虫文件
  • shell       #启动爬虫shell交互界面
  • fetch       #爬取某网页
  • view       #网页查看爬取数据
  • version     #查看爬虫版本

 

仅限项目的命令:

  • crawl   #启动爬虫文件
  • check   #爬虫语法检测        
  • list   #查看爬虫列表
  • edit   #编辑爬虫文件
  • parse  #解析某网页
  • bench  

 

四 用法示例

$ scrapy list #查看爬虫列表
spider1
spider2

$ scrapy edit spider1 #编辑爬虫文件


$ scrapy view http://www.example.com/some/page.html #网页打开请求页面源码

$ scrapy shell [url] #启动shell

$ scrapy parse http://www.example.com/ -c parse_item

$ scrapy settings --get DOWNLOAD_DELAY

$ scrapy runspider myspider.py  #启动指定爬虫文件

$ scrapy version [-v] #查看爬虫版本

 

命令含工具(2)

标签:解析   用法   fetch   tin   ensp   edit   img   gen   基本命令   

原文地址:https://www.cnblogs.com/angle6-liu/p/10725284.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!