python爬虫----（5. scrapy框架，综合应用及其他）

时间：2014-08-21 09:55:44 阅读：251 评论：0 收藏：0 [点我收藏+]

标签：style blog http color 使用 io strong 数据

在分析和处理选择内容时，还需注意页面的JS可能会修改DOM树结构。

（一）GitHub的使用

由于之前使用Win，没使用过shell的。目前只是了解。以后再补充。找到几个不错的教程

GitHub超详细图文攻略 http://blog.csdn.net/vipzjyno1/article/details/22098621

Github修改提交 http://www.360doc.com/content/12/0602/16/2660674_215429880.shtml

以后再补充！！！！！

（二）FireFox的FireBug的使用

之前一直使用FireFox的F12默认调试工具，感觉就挺爽的了。刚才换了FireBug一试，那简直就更爽了。

Tools-->Web Developer-->Get More Tools 然后，一般第一个就是 FireBug 安装即可。之后按F12，就默认启用了。

功能简直强大到没朋友。可以直接获取元素的xpath,css path。还可修改cookies.....

（三）豆瓣电影抓取 http://www.ituring.com.cn/article/114408

（1）items.py

# -*- coding: utf-8 -*-

from scrapy import Item, Field


class MovieItem(Item):
    name = Field()
    year = Field()
    score = Field()
    director = Field()
    classification = Field()
    actor = Field()

（2）spiders/movie_spider.py

# -*- coding: utf-8 -*-
from scrapy import Selector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from douban.items import MovieItem


class MovieSpider(CrawlSpider):
    name = "movie"
    allowed_domains = ["douban.com"]
    start_urls = (
        ‘http://movie.douban.com/top250‘,
    )
    # rules可以自定义urls的抓取
    rules = (
        # 这个Rule只是在start_urls的基础上查找urls，并不是数据抓取的具体页面
        Rule(SgmlLinkExtractor(allow=(r‘http://movie.douban.com/top250\?start=\d+.*‘))),
        # 这个Rule是具体数据抓取的页面地址，callback是回调函数，负责处理返回的response数据
        Rule(SgmlLinkExtractor(allow=(r‘http://movie.douban.com/subject/\d+‘)), callback=‘parse_item‘),
    )

    def parse_item(self, response):
        sel = Selector(response)
        item = MovieItem()
        # 此处选择还可使用 css(), re() 等。还可利用FireBug协助选取
        item[‘name‘] = sel.xpath(‘//span[@property="v:itemreviewed"]/text()‘).extract()
        item[‘year‘] = sel.xpath(‘//span[@class="year"]/text()‘).extract()
        item[‘score‘] = sel.xpath(‘//strong[@class="ll rating_num"]/text()‘).extract()
        item[‘director‘] = sel.xpath(‘//a[@rel="v:directedBy"]/text()‘).extract()
        item[‘classification‘] = sel.xpath(‘//span[@property="v:genre"]/text()‘).extract()
        item[‘actor‘] = sel.xpath(‘//a[@rel="v:starring"]/text()‘).extract()
        return item

（3）Pipeline.py

# 将抓取的数据保存到数据库中，这里有两个版本
#一个是保存到MySQL数据库中
#另一个是保存到非关系型数据库MongoDB中

python爬虫----（5. scrapy框架，综合应用及其他）,布布扣,bubuko.com

python爬虫----（5. scrapy框架，综合应用及其他）

标签：style blog http color 使用 io strong 数据

原文地址：http://my.oschina.net/lpe234/blog/304966

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行