码迷,mamicode.com
首页 > 其他好文 > 详细

pyspider爬虫框架

时间:2019-04-01 17:19:27      阅读:177      评论:0      收藏:0      [点我收藏+]

标签:use   src   启动   web   EDA   detail   code   建议   img   

特点:

去重处理,结果监控,多进程处理,pyquery提取,错误重试,webUI管理,代码简洁,JS渲染

安装:

anaconda里边没搜到pyspider,所以手动安装

技术图片

 

查看pyspider的命令:

技术图片

 

启动pyspider所有组件:

在启动之前,要先安装phantomjs浏览器,因为pyspider组件中有phantomjs组件。

下载地址:http://phantomjs.org/download.html。安装之后,配置环境变量(phantomjs.exe所在路径):

技术图片

之后,pyspider all命令开启pyspider所有组件:

技术图片

发现发生错误:

ValueError: Invalid configuration:
- Deprecated option ‘domaincontroller‘: use ‘http_authenticator.domain_controller‘ instead.

错误说,domaincontroller被弃用,建议用http_authenticator.domain_controller代替。

原因是因为WsgiDAV发布了版本 pre-release 3.x。

解决方法如下:

在安装包中找到pyspider的资源包,然后找到webui文件里面的webdav.py文件打开,修改第209行即可。

技术图片

‘domaincontroller‘: NeedAuthController(app),
修改为:

‘http_authenticator‘:{
‘HTTPAuthenticator‘:NeedAuthController(app),
},
然后再执行pyspider all就能够通过http://localhost:5000打开页面了。

(原文:https://blog.csdn.net/qq_37253540/article/details/88196994 )

技术图片

此时webui组件开启成功,在端口5000上,则在浏览器中输入http://localhost:5000打开pyspider的webui界面。

 技术图片

 

点击create创建一个项目。之后,右边是编辑器,左边是请求的参数

技术图片

技术图片

 

pyspider爬虫框架

标签:use   src   启动   web   EDA   detail   code   建议   img   

原文地址:https://www.cnblogs.com/wisir/p/10587938.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!