全局命令
Scrapy 可执行文件命令说明:
Fetch 命令
主要用来显示爬虫爬取的工程。如图:
如果在项目目录之外执行命令,则会调用 Scrapy 默认的爬虫来进行网页的爬取。
可以通过 Fetch 附带的参数进行爬取相关的数据,如:
- --headers 参数来控制显示对应的爬虫爬取网页的头信息。
- --nolog 参数可以控制不显示日志信息。
- --spider=SPIDER 参数来控制那个爬虫。
- --logfile=FILE 参数控制日志存储信息的文件。
- --loglevel=LEVEL 控制日志级别。
Runspider 命令
通过 Runspider 命令可以实现不依托 Scrapy 的爬虫项目,直接运行一个爬虫文件。
Setting 命令
可以查看 Scrapy 对应的配置信息。
Shell 命令
可以启动 Scrapy 的交互终端。
Startproject 命令
创建 Scrapy 项目。
version 命令
查看 Scrapy 版本信息。
View 命令可以下载某个网页用浏览器查看的功能。
$ scrapy view http: //news .163.com |
执行命令后会打开默认浏览器并记录相关信息:
项目命令
项目命令需要进入 Scrapy 创建的项目内部执行。
Bench 命令
测试本地硬件的性能。
$ scrapy banch |
Genspider 命令
使用 Genspider 创建 Scrapy 爬虫文件,这是一种迅速创建爬虫文件的方式。
查看模板:
$ scrapy genspider -l |
使用 basic 模板创建一个项目:
查看 csvfeed 爬虫模板中的内容:
$ scrapy genspider -d csvfeed |
Check 命令
实现对某个爬虫文件进行合同检查,这里是对爬虫名进行查询不是文件名。(slzcc 为创建的项目名)
$ scrapy check slzcc |
Crawl 命令
通过 Crawl 可以启动某个爬虫。
$ scrapy crawl slzcc |
List 命令
列出当前可以使用的爬虫
$ scrapy list |
Edit 命令
使用 list 后,可以对爬虫文件进行编辑。
Parse 命令
可以获取指定的 URL 网站。
$ scrapy parse http: //www .baidu.com --nolog |