码迷,mamicode.com
首页 > 其他好文 > 详细

redis之分布式爬虫

时间:2017-06-06 22:08:54      阅读:213      评论:0      收藏:0      [点我收藏+]

标签:safari   agent   content   name   zha   队列   usr   技术   for   

分布式爬虫一般最少需要三台机器,一台为主服务器,用于生产爬虫任务,其它服务器用于消费爬虫任务。

 

 

准备爬取妹子图,主页地址

 

主服务器生产爬取任务

getUrlList.py

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
__Author__ = ‘KongZhaGen‘

import requests
import bs4
import redis

def creUrlList():
    # 连接到redis服务器,需要密码
    r = redis.Redis(host="192.168.10.106",password="redis")
    # 准备爬取10个页面的图片
    for i in range(10):
        url = "http://www.meizitu.com/a/" + str(5500+i) + ".html"
        req = requests.get(url)
        soup = bs4.BeautifulSoup(req.text,"lxml")
        # 通过css方法获取所有图片的路径
        a_list = soup.select("#picture p img")
        # 将图片路径放到redis数据库的imglist中,待客户端爬取
        for a in a_list:
            r.rpush("imglist",a.attrs[‘src‘])

if __name__ == ‘__main__‘:
    creUrlList()

 

客户端服务器用于消费爬取任务

getImg.py

#!/usr/bin/env python
# _*_ coding:utf-8 _*_
__Author__ = ‘KongZhaGen‘
import requests
import redis
import time

def downLoad(url):
    ‘‘‘
    给一个url,生成一张图片
    :param url: 
    :return:
    ‘‘‘
    # 设置headers用于反爬
    headers = {
       ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36‘
    }
    # 生成图片的名称
    name = ‘-‘.join(url.split("/")[-3:])
    # 获取图片的内容
    req = requests.get(url,headers=headers)
    # 如果获取成功,将内容写入文件中
    if req.status_code == 200:
        with open(name,‘wb‘) as fp:
            fp.write(req.content)
    else:
        print "get img faild"

def getImg():
    ‘‘‘
    循环读取redis队列任务,用于爬取图片
    :return:
    ‘‘‘
    # 连接redis
    r = redis.Redis(host="192.168.10.106",password="redis")
    Flag = True
    while Flag:
        # 从imglist中获取图片地址
        url = r.rpop("imglist")
        # 图片地址获取完后退出程序
        if url:
            try:
                downLoad(url)
                time.sleep(3)
                print url
            except Exception as e:
                print e
                time.sleep(10)
        else:
            Flag = False
            print "任务已取完"

if __name__ == ‘__main__‘:
    getImg()

  

在主服务器执行getUrlList.py

结果:生成了imglist列表
127.0.0.1:6379> keys *
1) "imglist"
2) "names"

  

在客户端执行getImg.py

技术分享

 

redis之分布式爬虫

标签:safari   agent   content   name   zha   队列   usr   技术   for   

原文地址:http://www.cnblogs.com/kongzhagen/p/6953637.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!