码迷,mamicode.com
首页 > Web开发 > 详细

Scrapy抓取360网站图片

时间:2018-07-18 16:53:59      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:res   注意   img   temp   名称   pipeline   lines   tar   pre   

项目名称:抓取360网站图片

目标url:http://image.so.com

项目描述:利用Scrapy的ImagePipeline抓取360网站的图片

要利用Scrapy抓取图片,第一步还是先定义item

1 # -*-coding: utf-8 -*-
2 import scrapy
3 
4 class ImageItem(scrapy.Item):
5     image_urls = scrapy.Field()

第二步是在settings.py中打开ImagePipeline,然后定义一下文件的存储路径。

1 ITEM_PIPELINES = {
2     scrapy.pipelines.images.ImagesPipeline: 1,
3 }
4 
5 IMAGES_STORE = alfred_images

第三步就是写spider了

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 import json
from ..items import ImageItem
4 5 class ImagesSpider(scrapy.Spider): 6 name = images 7 start_urls = http://image.so.com/zj?ch=home&sn=90&listtype=new&temp=1 8 9 def parse(self, response): 10 pics = json.loads(response.body) #因为返回的是json数据,所有这里多了一个解析的步骤 11 for i in pics[list]: 12 item = ImageItem() 13 item[image_urls] = [i["qhimg_url"]] #这里注意,图片的url必须放在一个列表中,否则会出现异常 14 yield item

几个要注意的地方:

  1.最好在item.py中定义好image_urls = Field()

  2.记得在settings中开启ImagePipeline,并且定义好图片储存路径

  3.图片的url必须放在列表中,必须放在列表中,必须放在列表中。

Scrapy抓取360网站图片

标签:res   注意   img   temp   名称   pipeline   lines   tar   pre   

原文地址:https://www.cnblogs.com/Alfred-ou/p/9329392.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!