码迷,mamicode.com
首页 > 其他好文 > 详细

scrapy抓取豆瓣电影相关数据

时间:2019-01-28 20:09:31      阅读:698      评论:0      收藏:0      [点我收藏+]

标签:utf-8   链接   cut   get   基本命令   ESS   awl   item   amp   

1. 任务分析及说明

目标网站:https://movie.douban.com/tag/#/

抓取豆瓣电影上,中国大陆地区,相关电影数据约1000条;数据包括:电影名称、导演、主演、评分、电影类型、语言、上映时间、短评top20等数据;

1.1 Fiddler抓包要点分析:

请求均为GET请求;拼接后的URL为是https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=电影&start=0

其中,range表示评分区间(0,10表示筛选评分在0-10之间的电影);

tags表示分类类别(电影?剧集?);

第一次请求默认返回20部电影相关信息,start=0;点击加载更多start=20,即每次点击一次加载更多,start增加20;

返回数据为json格式,数据包括电影名称、导演、电影详情的URL等信息;

从json数据中提取电影详情页的URL,访问并抓取详情信息;

抓取电影短评时,只抓取了最前面的20条,并利用//拼接成一个字符串,数据保存为excel形式。

2. 代码逻辑

2.1  项目创建

利用scrapy的基本命令创建项目、爬虫等,在此不细说,直接上命令。

scrapy startproject DoubanMovie  # 创建项目

cd DoubanMovie # 进入项目目录

scrapy genspider douban douban.movie.com # 创建爬虫

2.2 明确抓取字段

scrapy爬虫的套路都相似,创建项目后首先明确爬取字段;其次,编写爬虫逻辑;然后,编写数据保存逻辑;最后,做一些修修补补的工作,例如添加请求头啊,注册通道呀等等。

来到items.py文件中,明确要抓取的字段。

# -*- coding: utf-8 -*-
import scrapy

class DoubanmoviesItem(scrapy.Item):

    # 电影名称
    filmtitle = scrapy.Field()
    # 电影评分
    moviemark = scrapy.Field()
    # 导演名称
    moviedirt = scrapy.Field()
    # 电影主演
    movierole = scrapy.Field()
    # 电影类型
    movietype = scrapy.Field()
    # 制片地区
    moviearea = scrapy.Field()
    # 语言类型
    movielang = scrapy.Field()
    # 上映时间
    moviedate = scrapy.Field()
    # 剧情简介
    moviesyno = scrapy.Field()
    # 电影短评
    moviecoms = scrapy.Field()
    # # 电影影评
    # movierews = scrapy.Field()

2.3 爬虫逻辑

明确抓取字段后,开始到spiders文件夹下的douban.py中编写爬虫逻辑。豆瓣电影返回的数据为json格式,对json格式的数据进行解析,从中提取到电影详情页的url,访问并从中提取详细信息。

# -*- coding: utf-8 -*-
import re
import json
import scrapy

from DoubanMovies.items import DoubanmoviesItem

class DoubanSpider(scrapy.Spider):
    name = douban
    allowed_domains = [movie.douban.com]
    # start_urls = [‘http://movie.douban.com/‘]

    start = 0

    # 指定参数
    formdata = {
        sort: U,
        range: 0, 10,
        tags: 电影,
        start: 0,
        countries: 中国大陆  # 这里只抓取中国大陆地区,其他地区可做相应修改
    }

    base_url = https://movie.douban.com/j/new_search_subjects

    def start_requests(self):

        # 构造初始请求url
        url = self.base_url + ? + sort={}&range={}&tags={}&start={}&countries={}.format(
            self.formdata[sort], self.formdata[range], self.formdata[tags],
            self.formdata[start], self.formdata[countries]
        )

        # 发起请求
        yield scrapy.Request(
            url=url,
            callback=self.parse,
            meta={formdata: self.formdata}
        )


    def parse(self, response):
        """
        豆瓣默认返回json格式的数据
        :param response:
        :return:
        """
        formdata = response.meta[formdata]

        # 将json格式的数据转化为字典
        data_list = json.loads(response.body.decode())[data]

        # 数据解析
        for data in data_list:

            # 从json数据中解析基本信息
            item = DoubanmoviesItem()
            item[filmtitle] = data[title]
            item[moviemark] = data[rate]
            item[moviedirt] =  .join(data[directors])
            item[movierole] =  .join(data[casts])

            # 拿到详情页链接,获取影评等信息
            detail_url = data[url]
            yield scrapy.Request(
                url=detail_url,
                callback=self.parse_detail,
                meta={item: item, formdata: formdata}  # 传入item到parse_detail,继续解析数据
            )

        if not self.start == 1000:  # 抓取1020条数据
            self.start += 20
            formdata = self.formdata
            formdata[start] = str(self.start)

            url = self.base_url + ? + sort={}&range={}&tags={}&start={}&countries={}.format(
            formdata[sort], formdata[range], formdata[tags],
            formdata[start], formdata[countries])

            yield scrapy.Request(
                url=url,
                callback=self.parse,
                meta={formdata: formdata}
            )

    def parse_detail(self, response):
        """
        从详情页解析其他信息
        :param response:
        :return:
        """
        formdata = response.meta[formdata]
        item = response.meta[item]

        item[movietype] = /.join(response.xpath("//div[@id=‘info‘]/span[@property=‘v:genre‘]/text()").extract())
        item[moviearea] = formdata[countries]
        item[movielang] = ‘‘.join(re.findall(<span class="pl">语言:</span>(.*?)<br/>, response.body.decode()))
        item[moviedate] = /.join(response.xpath("//div[@id=‘info‘]/span[@property=‘v:initialReleaseDate‘]/text()").extract())
        item[moviesyno] = response.xpath("//div[@id=‘link-report‘]/span[1]/text()").extract_first().strip()

        # 新页面解析电影短评
        coms_url = response.xpath("//div[@id=‘comments-section‘]/div[1]/h2/span/a/@href").extract_first()
        yield scrapy.Request(
            url=coms_url,
            callback=self.parse_coms,  # 在parse_coms中提取电影短评,这里只提取前20 
            meta={item: item}
        )

    def parse_coms(self, response):
        """
        解析电影短评top20,将20条短评以//拼接成一个字符串
        :param response:
        :return:
        """
        item = response.meta[item]
        
        # 提取短评top20
        coms_list = response.xpath("//div[@id=‘comments‘]/div[@class=‘comment-item‘]/div[@class=‘comment‘]/p/span/text()").extract()
        item[moviecoms] = //.join(coms_list)

        yield item

 

2.4 数据保存

编写完爬虫逻辑后,来到pipelines.py文件中编写保存数据逻辑。这里将数据保存为excel格式。

# -*- coding: utf-8 -*-
from openpyxl import Workbook

class DoubanmoviesPipeline(object):

    def __init__(self):

        # 创建excel表格保存数据
        self.workbook = Workbook()
        self.booksheet = self.workbook.active
        self.booksheet.append([电影名称, 评分, 导演,
                               主演, 电影类型, 制片地区,
                               语言类型, 上映时间, 剧情简介,
                               短评(top20)])

    def process_item(self, item, spider):

        DATA = [
            item[filmtitle], item[moviemark], item[moviedirt],
            item[movierole], item[movietype], item[moviearea],
            item[movielang], item[moviedate], item[moviesyno],
            item[moviecoms]]
        self.booksheet.append(DATA)
        self.workbook.save(./results.xls)

        return item

2.5 其他

1. 通道注册,包括下载中间件,pipelines等的注册,还有不遵循爬虫协议

2. 延时处理,在settings.py文件中添加

DOWNLOAD_DELAY = 5  # 每个请求延迟5秒

3. 添加请求头

在下载中间件(middlewares.py)中给每个请求添加请求头

# -*- coding: utf-8 -*-
from DoubanMovies.settings import USER_AGENTS as ua
import random

class DoubanmoviesDownloaderMiddleware(object):

    def process_request(self, request, spider):
        """
                给每一个请求随机分配一个代理
                :param request:
                :param spider:
                :return:
                """
        user_agent = random.choice(ua)
        request.headers[User-Agent] = user_agent

4. 将运行命令写在main.py文件中

from scrapy import cmdline

cmdline.execute(scrapy crawl douban.split())

3. 完整代码

参见:https://github.com/zInPython/DoubanMovie

scrapy抓取豆瓣电影相关数据

标签:utf-8   链接   cut   get   基本命令   ESS   awl   item   amp   

原文地址:https://www.cnblogs.com/pythoner6833/p/10331509.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!