使用scrapy爬取豆瓣上面《战狼2》影评

时间：2018-01-15 00:20:59 阅读：185 评论：0 收藏：0 [点我收藏+]

标签：开始连接数 sso org 设置就是图片 sub class

这几天一直在学习scrapy框架，刚好学到了CrawlSpider和Rule的搭配使用，就想着要搞点事情练练手！！！

信息提取

算了，由于爬虫运行了好几次，太过分了，被封IP了，就不具体分析了，附上《战狼2》豆瓣影评页面链接：https://movie.douban.com/subject/26363254/reviews

抓包

影评页面是分页的，为了爬取到更多条影评，用Chrome抓包分析请求发现，其实上面的网址可以是这样的：https://movie.douban.com/subject/26363254/reviews?start=0

这下明了了，URL最后的"start=0"就是我们搞更大的事情要用的东西了，先放着。

准备工作

pymysql驱动(pip安装就行了)
mysql数据库
scrapy
***

开搞

创建一个scrapy项目

选择一个自己中意的目录，在终端打开，输入一下命令：

scrapy startproject douban

这样就创建成功了，我使用Pycharm打开的项目，项目目录结构大概就是这样：
技术分享图片
关于各个文件和文件夹有什么用，请自行百度，或者阅读scrapy官方文档
***

代码实现

items.py

因为只是练个手，就不爬太多东西了！

# items.py

import scrapy


class DoubanItem(scrapy.Item):
    title=scrapy.Field() 
    author=scrapy.Field()
    time=scrapy.Field()
    link=scrapy.Field()

title : 题目
author : 影评作者
time : 影评发布时间
link : 影评链接

doubanspider.py

爬虫核心代码

# doubanspider.py

from scrapy.spider import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
from douban.items import DoubanItem

class doubanspider(CrawlSpider):

    name=‘douban‘

    urls=[]
    for i in range(0,60,20):
        page=‘https://movie.douban.com/subject/26363254/reviews?start={0}‘.format(i)
        urls.append(page)

    start_urls=urls

    rules =(Rule(LinkExtractor(allow=(r‘https://movie.douban.com/review/\d+/‘)),callback=‘parse_item‘),)

    def parse_item(self,response):
        douban=DoubanItem()
        douban[‘title‘]=response.xpath(‘//div[@id="content"]//span[@property="v:summary"]/text()‘)[0].extract()
        douban[‘author‘]=response.xpath(‘//div[@class="main"]//span[@property="v:reviewer"]/text()‘)[0].extract()
        douban[‘time‘]=response.xpath(‘//span[@property="v:dtreviewed"]/text()‘)[0].extract()
        douban[‘link‘]=response.url
        # print(douban[‘title‘],douban[‘author‘],douban[‘content‘],douban[‘time‘])
        yield douban

name
关于name这个变量，是这个爬虫名字的代号，不可和其他爬虫程序重复
start_urls
是爬虫程序爬取的对象。前面说到要爬取更多条影评，抓包的到URL里面有 start 参数，通过改变这个参数就可以翻页爬取，这里一共爬取了三页。（尴尬的是其实一开始是一次性爬的5页，后来程序多运行了几次，被douban封了IP，然后我就改成了3页，虽然这个改动没什么用）
CrawlSpider
这里自定义的doubanspider继承自CrawlSpider,后者继承于Spider,需要注意的是，CrawlSpider 重写了parse 方法，所以在自己写的 doubanspider 里不能重写 parse 方法，否则爬虫程序会运行出错。
Rule
Rule 和 CrawlSpider 搭配使用更方便于爬取全站，上面的代码中的 rules 就定义了爬取规则：
```
rules =(Rule(LinkExtractor(allow=(r‘https://movie.douban.com/review/\d+/‘)),callback=‘parse_item‘),)
```
allow 参数传入要爬取内容的规则，callback 传入回调方法名，其实还有一个 follow 参数，默认为 True ，具体用途这里不赘述了。

目前爬取数据可以做到了，但是一运行发现服务器给了 304（呵呵），就在setting.py 里面做了这样一个改动：

ROBOTSTXT_OBEY = False

这个参数原来默认是 True 的，改了这个，然后程序愉快的跑起来了。
***

数据存储到MySQL

这一步。。。个人对连接数据库这个知识点不是很熟，有更好的请指教。
链接数据库主要用的是 SQLAlchemy 这个 python 包，挺好用的，不知道怎么用的可以取廖雪峰大神的教程里面看看。
直接贴代码：

# pipelines.py

from douban.models import Douban
from sqlalchemy.orm import sessionmaker
from sqlalchemy import create_engine

class DoubanPipeline(object):
    def process_item(self, item, spider):
        return item

class DOubanDatabasePipeline(object):

    def __init__(self):
        engine=create_engine(‘mysql+pymysql://root:password@localhost:3306/scrapy_spider?charset=utf8‘)
        self.DBsession=sessionmaker(bind=engine)

    def close_spider(self,spider):
        pass

    def open_spider(self,spider):
        pass

    def process_item(self,item,spider):
        douban=Douban(title=item[‘title‘],author=item[‘author‘],time=item[‘time‘],link=item[‘link‘])
        session=self.DBsession()
        session.add(douban)
        session.commit()
        session.close()

最后别忘了在 setting.py 中设置一下：

ITEM_PIPELINES={
    ‘douban.pipelines.DOubanDatabasePipeline‘:5
}

至此，基本上差不多了，感觉这个项目真的挺粗制滥造的。
github项目地址：https://github.com/killerYe/scrapy_spider
个人微信：yxw19971203
我只是一个初学编程的人，有兴趣可以加微信交流一下！！！

使用scrapy爬取豆瓣上面《战狼2》影评

标签：开始连接数 sso org 设置就是图片 sub class

原文地址：https://www.cnblogs.com/gracelove/p/8284796.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

使用scrapy爬取豆瓣上面《战狼2》影评

信息提取

抓包

准备工作

开搞

创建一个scrapy项目

代码实现

items.py

doubanspider.py

数据存储到MySQL