码迷,mamicode.com
首页 > 其他好文 > 详细

寒假学习报告06

时间:2020-02-06 23:27:34      阅读:77      评论:0      收藏:0      [点我收藏+]

标签:opened   rom   put   utf-8   self   url   分代   mic   spl   

学了使用scarpy框架进行爬虫,爬取了某网站的部分信息。

技术图片

 

部分代码:

技术图片
# -*- coding: utf-8 -*-
import scrapy
from dangdang01.items import Dangdang01Item
from scrapy.http import Request

class DdSpider(scrapy.Spider):
    name = dd
    allowed_domains = [dangdang.com]
    start_urls = [http://search.dangdang.com/?key=%C5%AE%D7%B0&act=input&page_index=1]

    def parse(self, response):
        item = Dangdang01Item()
        item["title"] = response.xpath("//a[@name=‘itemlist-title‘]/@title").extract()
        item["link"] = response.xpath("//a[@name=‘itemlist-title‘]/@href").extract()
        item["comment"] = response.xpath("//a[@name=‘itemlist-review‘]/text()").extract()
        yield item
        for i in range(2,81):
            url = http://search.dangdang.com/?key=%C5%AE%D7%B0&act=input&page_index=+str(i)
            yield Request(url,callback=self.parse)
View Code

 

寒假学习报告06

标签:opened   rom   put   utf-8   self   url   分代   mic   spl   

原文地址:https://www.cnblogs.com/baimafeima/p/12271212.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!