码迷,mamicode.com
首页 > 其他好文 > 详细

Pyspider

时间:2019-08-07 22:42:39      阅读:116      评论:0      收藏:0      [点我收藏+]

标签:xpath   查看   配置   splash   doc   耦合度   pts   编写   结果   

Pyspider是由国人(binux)编写的强大的网络爬虫系统

Ptspider带有强大的WebUi / 脚本编辑器 / 任务监控器 / 项目管理器以及结果处理器。他支持多种数据库后端 / 多种消息队列 / Javascript 渲染页面爬去。使用起来非常方便

基本功能

  1. 提供了方便易用的 WebUi 系统,可视化的编写和调试爬虫
  2. 提供爬去进度监控 / 爬去结果查看 / 爬虫项目管理等功能
  3. 支持多种后端数据库,如:MySQL / MongoDB / Rides 等
  4. 支持多种消息队列,如:RabbimMQ / Beanstalk / Redis / Kombu
  5. 提供优先级控制 / 失败重试 / 定时抓取等
  6. 对接了PhantonJS。可以抓取Javascript 渲染的页面
  7. 支持单机和分布式部署,支持 Docker 部署

Pyspider 和 Scrapy

Pyspider 提供了 WebUi ,爬虫编写 / 调试都是在WebUi 中进行的。
Scrapy原生是不具备这个功能的,他采用的代码和命令行的操作,但是可以通过对接Portia 实现可视化配置
Pyspider 调试非常便捷,WebUi 操作便捷直观
Scrapy 是使用parse 命令进行调试,方便程度不及Pyspider
Pyspider 支持PhantomJS 来进行Javascript 渲染页面的采集。
Scrapy 可以对接Scrapy-Splash组件实现,不过需要额外的配置
Pyspider 中内置了pyquery 作为选择器
Scrapy 对接了 Xpath / CSS 选择器和正则
Pyspider 的可扩展程度不足,可配置化程度不高。
Scrapy 可以通过对接Middleware / Pipelinc / Extension 等组件来实现非常强大的功能。模块之间的耦合度低,可扩展性高

 

Pyspider

标签:xpath   查看   配置   splash   doc   耦合度   pts   编写   结果   

原文地址:https://www.cnblogs.com/q240756200/p/11318138.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!