标签:main 工程 创建 lsp scrapy xpath false OLE 设计原则
CrawlSpider是Spider的一个子类,除继承了Spider的特性和功能外,还派生了自由的更强大的特性和能力。最显著的功能是"LinkExtracts",Spider是所有爬虫的基类,设计原则只是为了爬取start_url列表中的网页,而从爬取到的网页中进一步提取url进行爬取的工作用CrawlSpider更合适。
创建爬虫:scrapy genspider -t crawl 爬虫名 起始url
process_request:是一个callable或string(该spider中同名的函数都将会被调用)。该规则提取到的每个request时都会调用该函数。该函数必须返回一个request或者None。用来过滤request。
restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接
标签:main 工程 创建 lsp scrapy xpath false OLE 设计原则
原文地址:https://www.cnblogs.com/tmdhhl/p/10661211.html