标签:代码 mon 状态 height min 运行 let 替换 端口
pyspide
目录
一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,
强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器
官方文档: http://docs.pyspider.org/en/latest/
开源地址: http://github.com/binux/pyspider
中文文档: http://www.pyspider.cn/
pyspider框架的特性
pyspider的安装
pip install pyspider
代码分析:
技巧:
enable css selector helper可以在点击了web 的网页预览下,获取网页的css选择器
点击图片箭头的按键,就会生成对应css选择器在光标所在的位置处
爬取链家网的信息:
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-11-02 10:54:11 # Project: ddd from pyspider.libs.base_handler import * class Handler(BaseHandler): crawl_config = { } @every(minutes=24 * 60) def on_start(self): self.crawl(‘https://cs.lianjia.com/ershoufang/‘, callback=self.index_page, validate_cert = False) @config(age=10 * 24 * 60 * 60) def index_page(self, response): for each in response.doc(‘.title > a‘).items(): self.crawl(each.attr.href, callback=self.detail_page, validate_cert = False) @config(priority=2) def detail_page(self, response): yield { ‘title‘: response.doc(‘.main‘).text(), ‘special‘: response.doc(‘.tags > .content‘).text(), ‘price‘: response.doc(‘.price > .total‘).text(), ‘sell point‘: response.doc(‘.baseattribute > .content‘).text() }
结果:分别爬取了卖房的标题(title),特点(special),卖点(sell point)和价格(price),因为字典保存,所以无序
标签:代码 mon 状态 height min 运行 let 替换 端口
原文地址:https://www.cnblogs.com/pywjh/p/9938628.html