码迷,mamicode.com
首页 > 其他好文 > 详细

编写spider爬取

时间:2017-08-29 23:48:47      阅读:285      评论:0      收藏:0      [点我收藏+]

标签:urllib   numbers   技术分享   parse   遍历   ref   extract   url   调用   

改写parse函数

实现功能:

1.获取文章列表页中的文章url并交给scrapy下载后,交给解析函数进行具体字段的解析
2.获取下一页的url并交给scrapy进行下载,下载完成后交给parse

提取一页列表中的文章url

#解析列表页中所有文章的url,遍历出来
def parse(self, response):
    # 解析列表页中的所有url并交给scrapy下载后进行解析
    post_urls = response.css(#archive .floated-thumb .post-thumb a::attr(href)).extract()
    for post_url in post_urls:
        print(post_url)

 调试输出结果

技术分享

 

如何让scrapy进行下载

引入request对象

from scrapy.http import Request

修改提取字段类类名为parse_detail,引入parse类进行域名拼接,yield下载

from urllib import parse

 

    def parse(self, response):

        #获取文章列表页中的文章url并交给解析函数进行具体字段的解析
        #获取下一页的url并交给scrapy进行下载,下载完成后交给parse
        post_urls = response.css(#archive .floated-thumb .post-thumb a::attr(href)).extract()
        for post_url in  post_urls:
            #yield Request(url=post_url,callback=self.parse_detail)
            yield Request(url=parse.urljoin(response.url, post_url),callback=self.parse_detail) #域名拼接 下载 下载完成后调用parse_detail解析字段

 

获取下一页并交给scrapy进行下载

        #提取下一页并交给scrapy下载
        next_url = response.css(.next.page-numbers::attr(href)).extract_first("")#空格去掉表示同时拥有两个属性
        if next_url:
            yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)  #继续调用parse解析出列表页中具体文章的url

 

调试前修改start_url为all-posts

技术分享

调试结果

技术分享

技术分享

编写spider爬取

标签:urllib   numbers   技术分享   parse   遍历   ref   extract   url   调用   

原文地址:http://www.cnblogs.com/coolwinds/p/7450338.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!