下载文件和图片

时间：2018-10-27 23:38:36 阅读：349 评论：0 收藏：0 [点我收藏+]

标签：数据方法 ima 信息一般来说图片下载 images ges scrapy

下载文件和图片

Scrapy为下载item中包含的文件（比如在爬取到产品时，同时也想保存对应的图片）提供了一个可重用的item pipelines。这些pipeline有些共同的方法和结构我们称之为media pipeline。一般来说你会使用Files Pipline或者Images Pipeline。

为什么要选择使用`scrapy`内置的下载文件的方法

避免重新下载最近已经下载过的数据。
可以方便的指定文件存储的路径。
可以将下载的图片转换成通用的格式。比如png或jpg。
可以方便的生产缩略图。
可以方便的检测图片的宽和高，确保他们满足最小限制。
异步下载，效率非常高。

下载文件的`File Pipeline`：

当使用Files Pipline下载文件的时候，按照以下步骤来完成：

定义好一个Item，然后在这个item中定义两个属性，分别为file_urls以及files。file_urls是用来存储需要下载的文件的url链接，需要给一个列表。
当文件下载完成后，会把文件下载的相关信息存储到item的files属性中。比如下载路径、下载的url和文件的效验码等。
在配置文件settings.py中配置FILES_STORE，这个配置是用来设置文件下载下来的路径。
启动pipeline：在ITEM_PIPELINES中设置scrapy.pipelines.files.FilesPipline:1。

下载图片的`Images Pipline`：

当使用Images Pipeline下载文件的时候，按照以下步骤来完成：

定义好一个Item，然后在这个item中定义两个属性，分别为image_urls以及images。image_urls是用来存储需要下载的文件的url链接，需要给一个列表。
当文件下载完成后，会把文件下载的相关信息存储到item的images属性中。比如下载路径、下载的url和文件的效验码等。
在配置文件settings.py中配置IMAGES_STORE，这个配置是用来设置图片下载下来的路径。
启动pipeline：在ITEM_PIPELINES中设置scrapy.pipelines.images.ImagesPipline:1

下载文件和图片

标签：数据方法 ima 信息一般来说图片下载 images ges scrapy

原文地址：https://www.cnblogs.com/colden/p/9863810.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

下载文件和图片

下载文件和图片

为什么要选择使用scrapy内置的下载文件的方法

下载文件的File Pipeline：

下载图片的Images Pipline：

为什么要选择使用`scrapy`内置的下载文件的方法

下载文件的`File Pipeline`：

下载图片的`Images Pipline`：