码迷,mamicode.com
首页 > 其他好文 > 详细

requests实践02_下载斗图拉最新表情包

时间:2020-02-01 14:12:42      阅读:70      评论:0      收藏:0      [点我收藏+]

标签:详细   path   正则表达式   应用   正则表达   pat   utf-8   too   python-r   

下载斗图拉最新表情包

  • 要爬取的目标所在网址:http://www.doutula.com/photo/list/?page=1
  • 需要用到的第三方库:requests(用于请求图片链接得到图片内容)
  • 一点点正则表达式的应用:(.*?):在代码中用来匹配图片链接地址,(.*):用来匹配图片对应的名称更多的正则表达式使用参见正则表达式
  • re模块的使用,其中用到re.findall(‘匹配规则‘,字符串),将符合匹配规则从整个字符串从找出来,放在一个新的列表中,并返回这个列表(list),更多re模块使用参见菜鸟教程-Python正则表达式

  • 详细代码

    # !usr/bin/env/python
    # -*- coding:utf-8 -*-
    """
    time: 2020/02/01 12:37
    author: Tceo1
    OS: windows10
    """
    import re
    import requests
    
    # url地址:http://www.doutula.com/photo/list/ 有页数之后:http://www.doutula.com/photo/list/?page=2
    url = "http://www.doutula.com/photo/list/?page=1"
    response = requests.get(url)  # 返回一个响应类型
    m = r'data-original="(.*?)" alt="(.*)" class'
    # 查找符合的图片url,与图片名称
    result_list = re.findall(m, response.text)
    print(result_list)
    for image in result_list:
        image_url = image[0]
        image_name = image[1]
        # 通过切片获取到后缀名 如 .jpg
        image_type = image[0][-4:]
        # 请求图片url, 返回二进制响应
        image_content = requests.get(image_url).content
        save_path = r'E:/image/'
        with open(save_path + image_name + image_type, 'wb') as f:
            # 将二进制响应写入图片
            f.write(image_content)
    print("over")
  • 代码地址:https://github.com/Tceo1/scriptTools/blob/master/dtl.py

最后

感谢那些给予我帮助的人!

requests实践02_下载斗图拉最新表情包

标签:详细   path   正则表达式   应用   正则表达   pat   utf-8   too   python-r   

原文地址:https://www.cnblogs.com/thloveyl/p/12248334.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!