spider-通过scrapyd网页管理工具执行scrapy框架

时间：2019-05-20 11:55:11 阅读：169 评论：0 收藏：0 [点我收藏+]

1.首先写一个scrapy框架爬虫的项目

scrapy startproject 项目名称     # 创建项目
cd 项目名称
scrapy genspider 爬虫名称 爬虫网址（www.xxxx）       #生成一个爬虫
scrapy crawl 爬虫名称             # 启动爬虫

2.部署环境

pip install scrapyd    
pip install scrapyd-client

3.在爬虫项目目录下输入命令：scrapyd，已经在本地6800端口运行

技术图片

4.在爬虫根目录执行：scrapyd-deploy,如果提示不是内部命令，需要到python目录下scripts下新建一个名为scrapyd-deploy.bat的文件，最好复制，其中有必要的空格可能会遗漏导致报错，路径参考各自的路径

@echo off
"C:\Users\lu\AppData\Local\Programs\Python\Python37-32\python.exe" "C:\Users\lu\AppData\Local\Programs\Python\Python37-32\Scripts\scrapyd-deploy" %*

5.在爬虫项目根目录下执行：

scrapyd-deploy 爬虫名称 -p 爬虫项目名称

6.如遇到报错：Unknown target: 爬虫名称，找到该爬虫项目的scrapy.cfg，作如下修改：

[deploy:abckg]      # 加冒号爬虫名称
url = http://localhost:6800/     #  去掉井号
project = ABCkg            # 项目名称

7.重新执行第5条操作：此时提示ok

技术图片

8.如果打开上图中链接显示状态为error，可以直接在6800端口复制：curl http://localhost:6800/schedule.json -d project=default -d spider=somespider在cmd命令行执行，可以得到状态：ok

curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

若遇到提示curl不是内部命令，可以在git bash里执行。

9.此时该项目已经部署到网页上

技术图片

10.点击jobs，此时scrapy项目已经在运行中，点击右侧log可以查看爬虫日志

技术图片

至此！完毕！！完美实现通过scrapyd网页管理工具执行scrapy框架

spider-通过scrapyd网页管理工具执行scrapy框架

标签：需要 start inf 技术实现 style 目的提示 ensp

原文地址：https://www.cnblogs.com/lutt/p/10893192.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行