码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫scrapy-redis分布式实例(一)

时间:2017-10-06 16:25:29      阅读:218      评论:0      收藏:0      [点我收藏+]

标签:col   host   queue   .com   use   命令   spider   取域   sch   

目标任务:将之前新浪网的Scrapy爬虫项目,修改为基于RedisSpider类的scrapy-redis分布式爬虫项目,将数据存入redis数据库。

 

一、item文件,和之前项目一样不需要改变

# -*- coding: utf-8 -*-

import scrapy
import sys
reload(sys)
sys.setdefaultencoding("utf-8")


class SinanewsItem(scrapy.Item):
    # 大类的标题和url
    parentTitle = scrapy.Field()
    parentUrls = scrapy.Field()

    # 小类的标题和子url
    subTitle = scrapy.Field()
    subUrls = scrapy.Field()

    # 小类目录存储路径
    subFilename = scrapy.Field()

    # 小类下的子链接
    sonUrls = scrapy.Field()

    # 文章标题和内容
    head = scrapy.Field()
    content = scrapy.Field()

 

二、spiders爬虫文件,使用RedisSpider类替换之前的Spider类,其余地方做些许改动即可,具体代码如下:

 

# -*- coding: utf-8 -*-

import scrapy
import os
from sinaNews.items import SinanewsItem
from scrapy_redis.spiders import RedisSpider
import sys
reload(sys)
sys.setdefaultencoding("utf-8")


class SinaSpider(RedisSpider):
    name = "sina"
# 启动爬虫的命令
redis_key = "sinaspider:strat_urls"   # 动态定义爬虫爬取域范围 def __init__(self, *args, **kwargs): domain = kwargs.pop(domain, ‘‘) self.allowed_domains = filter(None, domain.split(,)) super(SinaSpider, self).__init__(*args, **kwargs) def parse(self, response): items= [] # 所有大类的url 和 标题 parentUrls = response.xpath(//div[@id="tab01"]/div/h3/a/@href).extract() parentTitle = response.xpath(//div[@id="tab01"]/div/h3/a/text()).extract() # 所有小类的ur 和 标题 subUrls = response.xpath(//div[@id="tab01"]/div/ul/li/a/@href).extract() subTitle = response.xpath(//div[@id="tab01"]/div/ul/li/a/text()).extract() #爬取所有大类 for i in range(0, len(parentTitle)): # 爬取所有小类 for j in range(0, len(subUrls)): item = SinanewsItem() # 保存大类的title和urls item[parentTitle] = parentTitle[i] item[parentUrls] = parentUrls[i] # 检查小类的url是否以同类别大类url开头,如果是返回True (sports.sina.com.cn 和 sports.sina.com.cn/nba) if_belong = subUrls[j].startswith(item[parentUrls]) # 如果属于本大类,将存储目录放在本大类目录下 if(if_belong): # 存储 小类url、title和filename字段数据 item[subUrls] = subUrls[j] item[subTitle] =subTitle[j] items.append(item) #发送每个小类url的Request请求,得到Response连同包含meta数据 一同交给回调函数 second_parse 方法处理 for item in items: yield scrapy.Request( url = item[subUrls], meta={meta_1: item}, callback=self.second_parse) #对于返回的小类的url,再进行递归请求 def second_parse(self, response): # 提取每次Response的meta数据 meta_1= response.meta[meta_1] # 取出小类里所有子链接 sonUrls = response.xpath(//a/@href).extract() items= [] for i in range(0, len(sonUrls)): # 检查每个链接是否以大类url开头、以.shtml结尾,如果是返回True if_belong = sonUrls[i].endswith(.shtml) and sonUrls[i].startswith(meta_1[parentUrls]) # 如果属于本大类,获取字段值放在同一个item下便于传输 if(if_belong): item = SinanewsItem() item[parentTitle] =meta_1[parentTitle] item[parentUrls] =meta_1[parentUrls] item[subUrls] = meta_1[subUrls] item[subTitle] = meta_1[subTitle] item[sonUrls] = sonUrls[i] items.append(item) #发送每个小类下子链接url的Request请求,得到Response后连同包含meta数据 一同交给回调函数 detail_parse 方法处理 for item in items: yield scrapy.Request(url=item[sonUrls], meta={meta_2:item}, callback = self.detail_parse) # 数据解析方法,获取文章标题和内容 def detail_parse(self, response): item = response.meta[meta_2] content = "" head = response.xpath(//h1[@id="main_title"]/text()) content_list = response.xpath(//div[@id="artibody"]/p/text()).extract() # 将p标签里的文本内容合并到一起 for content_one in content_list: content += content_one item[head]= head[0] if len(head) > 0 else "NULL" item[content]= content yield item

 

 

三、settings文件设置

SPIDER_MODULES = [‘sinaNews.spiders]
NEWSPIDER_MODULE = ‘sinaNews.spiders


# 使用scrapy-redis里的去重组件,不使用scrapy默认的去重方式
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis里的调度器组件,不使用默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 允许暂停,redis请求记录不丢失
SCHEDULER_PERSIST = True
# 默认的scrapy-redis请求队列形式(按优先级)
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 队列形式,请求先进先出
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 栈形式,请求先进后出
#SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

# 只是将数据放到redis数据库,不需要写pipelines文件
ITEM_PIPELINES = {
#    ‘Sina.pipelines.SinaPipeline‘: 300,
    scrapy_redis.pipelines.RedisPipeline: 400,
}

# LOG_LEVEL = ‘DEBUG‘

# Introduce an artifical delay to make use of parallelism. to speed up the
# crawl.
DOWNLOAD_DELAY = 1
# 指定数据库的主机IP
REDIS_HOST = "192.168.13.26"
# 指定数据库的端口号
REDIS_PORT = 6379

执行命令:

本次直接使用本地的redis数据库,将settings文件中的REDIS_HOST和REDIS_PORT注释掉。

启动爬虫程序

scrapy runspider sina.py

执行程序后终端窗口显示如下:

技术分享

表示程序处于等待状态,此时在redis数据库端执行如下命令:

redis-cli> lpush sinaspider:start_urls http://news.sina.com.cn/guide/

http://news.sina.com.cn/guide/为起始url,此时程序开始执行。

Python爬虫scrapy-redis分布式实例(一)

标签:col   host   queue   .com   use   命令   spider   取域   sch   

原文地址:http://www.cnblogs.com/xinyangsdut/p/7631222.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!