练习：一只豆瓣电影TOP250的爬虫

时间：2015-11-29 00:43:48 阅读：276 评论：0 收藏：0 [点我收藏+]

标签：

练习：一只豆瓣电影TOP250爬虫

①创建project

技术分享

②编辑items.py

import scrapy


class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    rank = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    rate = scrapy.Field()
    quote = scrapy.Field()

③创建douban_spider.py

import scrapy
from doubanmovie.items import DoubanmovieItem

class DoubanSpider(scrapy.Spider):
  """docstring for Movie250Spider"""
  name = ‘doubanmovie‘
  allowed_domains = ["douban.com"]
  start_urls = [
    "http://movie.douban.com/top250/"
  ]

  def parse(self, response):
    for info in response.xpath(‘//div[@class="item"]‘):
      item = DoubanmovieItem()
      item[‘rank‘] = info.xpath(‘div[@class="pic"]/em/text()‘).extract()
      item[‘title‘] = info.xpath(‘div[@class="pic"]/a/img/@alt‘).extract()
      item[‘link‘] = info.xpath(‘div[@class="pic"]/a/@href‘).extract()
      item[‘rate‘] = info.xpath(‘div[@class="info"]/div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()‘).extract()
      item[‘quote‘] = info.xpath(‘div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()‘).extract()
      yield item

    # 翻页
    next_page = response.xpath(‘//span[@class="next"]/a/@href‘)
    if next_page:
      url = response.urljoin(next_page[0].extract())
      yield scrapy.Request(url, self.parse)

关于xpath的查找，之前有说过，可以使用xpath checker这个插件，也可以直接使用审查元素
我们要找的内容就在<div class="item"></div>之内，所以得先声明在这之内查找//div[@class="item"]
如查找rank
技术分享
那么rank就在<div class="pic">下的<em class=""></em>之中，于是就写成div[@class="pic"]/em/text()

④运行，生成csv文件

[KANO@kelvin doubanmovie]$ scrapy crawl doubanmovie -o items.csv

最后的文件夹内容如下
技术分享

打开items.csv文件查看内容
技术分享

另外，如果需要，还可以在settings.py文件中加入user-agent

BOT_NAME = ‘doubanmovie‘

SPIDER_MODULES = [‘doubanmovie.spiders‘]
NEWSPIDER_MODULE = ‘doubanmovie.spiders‘

USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5‘

△注意，一定要记得先声明

# -*- coding: utf-8 -*-

否则运行会出错！！！

练习：一只豆瓣电影TOP250的爬虫

标签：

原文地址：http://www.cnblogs.com/XBlack/p/5003698.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行