码迷,mamicode.com
首页 > 其他好文 > 详细

CrawlSpider

时间:2020-01-14 20:39:32      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:页面   解析   note   子类   star   container   die   文件   ide   

  • CrawlSpider

    • 它就是一个类,是scrapy.Spider的一个子类(派生类)
    • 功能:
      • 非常强大
      • 很方便的实现全站数据的爬取
    • 两个属性(对象)
      • 链接提取器
        • 如何进行链接的提取
          • 由开发人员制定相关规则
          • 通过相应的规则进行链接的提取
        • 去哪进行链接的提取
          • 就是在页面(起始URL)中提取
      • 规则解析器
        • 在这进行规则的制定
        • 解析规则和解析数据
          • 如何使用crawlspider
      • 创建项目: scrapy startproject budejiepro
      • 创建基于crawlspider的爬虫文件:
        • cd budejiepro
        • scrapy genspider -t crawl budejie www.xxx.com
      • 执行爬虫文件:
        • 进入到爬虫文件夹
        • 使用命令执行: scrapy runspdier budejie.py

CrawlSpider

标签:页面   解析   note   子类   star   container   die   文件   ide   

原文地址:https://www.cnblogs.com/youhongliang/p/12193647.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!