码迷,mamicode.com
首页 > 其他好文 > 详细

基于scrapy中---全站爬取数据----CrawlSpider的使用

时间:2018-12-18 19:30:54      阅读:401      评论:0      收藏:0      [点我收藏+]

标签:分享图片   nbsp   tag   tps   view   link   play   lin   raw   

#数据源:糗事百科

爬虫代码:

技术分享图片
 1 import scrapy
 2 from scrapy.linkextractors import LinkExtractor
 3 from scrapy.spiders import CrawlSpider, Rule
 4 
 5 
 6 class QiubaiSpider(CrawlSpider):
 7     name = qiubai
 8     # allowed_domains = [www.xxx.com]
 9     start_urls = [https://www.qiushibaike.com/pic/]
10     #第一页之后的所有url
11     link=LinkExtractor(allow=r/pic/page/\d+\?)
12     #第一页的url
13     link1=LinkExtractor(allow=r/pic/$)
14     rules = (
15         Rule(link, callback=parse_item, follow=True),
16         Rule(link1, callback=parse_item, follow=True),
17     )
18 
19     def parse_item(self, response):
20         print(response.xpath(//*[@id="qiushi_tag_121352783"]/a/div/span/text()).extract_first())
View Code

 

基于scrapy中---全站爬取数据----CrawlSpider的使用

标签:分享图片   nbsp   tag   tps   view   link   play   lin   raw   

原文地址:https://www.cnblogs.com/duanhaoxin/p/10138728.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!