码迷,mamicode.com
首页 > 其他好文 > 详细

Scrapy框架CrawlSpider类爬虫实例

时间:2018-12-30 19:06:04      阅读:196      评论:0      收藏:0      [点我收藏+]

标签:lsp   odi   顺序   web   连接   extra   code   elf   时间   

CrawlSpider类爬虫中:

rules用于定义提取URl地址规则,元祖数据有顺序

    #LinkExtractor 连接提取器,提取url地址

  #callback 提取出来的url地址的response会交给callback处理

 #follow 当前url地址的响应是否重新经过rules进行提取url地址

cf.py具体实现代码如下(简化版):

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from scrapy.linkextractors import LinkExtractor
 4 from scrapy.spiders import CrawlSpider, Rule
 5 import re
 6 
 7 class CfSpider(CrawlSpider):
 8     name = cf
 9     allowed_domains = [bxjg.circ.gov.cn]
10     start_urls = [http://bxjg.circ.gov.cn/web/site0/tab5240/Default.htm]
11 
12     rules = (
13         Rule(LinkExtractor(allow=r/web/site0/tab5240/info\d+\.htm), callback=parse_item, ),
14         Rule(LinkExtractor(allow=r/web/site0/tab5240/module14430/page\d+\.htm),follow=True, ),
15     )
16 
17     def parse_item(self, response):
18         item = {}
19         item[title] = re.findall("<!--TitleStart-->(.*?)<!--TitleEnd-->", response.body.decode())[0]
20         item[publish_date] = re.findall("发布时间:(20\d{2}-\d{2}-\d{2})", response.body.decode())[0]
21         print(item)

 

Scrapy框架CrawlSpider类爬虫实例

标签:lsp   odi   顺序   web   连接   extra   code   elf   时间   

原文地址:https://www.cnblogs.com/zhiliang9408/p/10199892.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!