python爬取图片

时间：2019-12-15 21:37:16 阅读：113 评论：0 收藏：0 [点我收藏+]

标签：输入 gbk src 请求没有 get erer box jpg

Python 抓取网页中的图片

　　Ps:目标网站为千图网，如有需求，请购买正版，该项目仅用于学习交流使用。

分析目标

1.分析网页的请求信息，将请求头加上，主要是防止反爬。这里需要注意的是它的content-type。

技术图片

2.分析元素内容，获取相应的目标。

技术图片

3.需要分析一下url

技术图片

代码工程

　　分析号目标后就可以着手写了

python代码：

import requests
from lxml import etree
import os


# 抓取图片
class Spider_qt(object):
    def __init__(self, pageNo, pageCount):
        # 反扒
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/74.0.3729.131 Safari/537.36",
            "Referer": "https://www.58pic.com/"
        }
        self.get_page(pageNo, pageCount)

    # 获取页面
    def get_page(self, pageNo, pageCount):
        for i in range(pageNo, pageNo + pageCount):
            print("===============================开始抓取第%s页===============================" % i)
            r = requests.get("https://www.58pic.com/piccate/53-0-0-p" + str(i) + ".html", headers=self.headers)
            page = etree.HTML(r.content.decode(‘gbk‘))
            self.get_images(page)

    # 获取图片
    def get_images(self, page):
        # xpath解析
        image_url = page.xpath("///div[@class=‘image-box‘]/img/@data-original")
        image_alt = page.xpath("//div[@class=‘image-box‘]/img/@alt")
        for url, alt in zip(image_url, image_alt):
            url = "http:" + url
            file_name = alt + ".jpg"
            save_path = "F:\\python\\spider\\images\\qt\\"
            if not os.path.exists(save_path):
                os.makedirs(save_path)
            file_save_path = save_path + file_name
            r = requests.get(url, headers=self.headers)
            print("正在抓取：" + file_name)
            try:
                with open(file_save_path, ‘wb‘) as f:
                    f.write(r.content)
            except:
                print("===============================抓取错误===============================")


def main():
    pageNo = int(input("请输入下载开始页："))
    pageCount = int(input("请输入需要下载的页数："))
    Spider_qt(pageNo, pageCount)


if __name__ == ‘__main__‘:
    main()

效果：

技术图片

Ps:需要注意的是如果没有requests和lxml需要下载的

python爬取图片

标签：输入 gbk src 请求没有 get erer box jpg

原文地址：https://www.cnblogs.com/lightbc/p/12045956.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行