码迷,mamicode.com
首页 > 编程语言 > 详细

Python 豆瓣mv爬取

时间:2018-07-21 14:47:22      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:.com   获取   image   nbsp   parser   htm   XML   request   jpg   

爬取网址:https://www.dbmeinv.com/       豆瓣mv(现已更名)

注:自制力不好的同学,先去准备营养快线!

import requests
from bs4 import BeautifulSoup
import urllib.request

# 按照序号命名
x = 0

#获取图片
def getGrilsImg(page = 1):

    response = requests.get("https://www.dbmeinv.com/?pager_offset={}".format(page))
    # 获取网页
    html = response.text

    # 获取对象 解析网页 ‘html.parser‘为解析方式,还有一种为lxml
    soup = BeautifulSoup(html, html.parser)
    # 找到img标签  返回一个列表
    girl = soup.find_all(img)
    global x
    for i in girl:
        # 通过提取img标签中的src属性值,获取src路径
        imgsrc = i.get(src)
        # 记得新建images文件夹
        urllib.request.urlretrieve(imgsrc, ./images/%d.jpg%x)

        x += 1
        print("正在下载第%d张"%x)

# 1<= x < 11  下载前十页
for i in range(1,11):
    print("正在下载第{}页图片".format(i))
    getGrilsImg(i)

 

Python 豆瓣mv爬取

标签:.com   获取   image   nbsp   parser   htm   XML   request   jpg   

原文地址:https://www.cnblogs.com/tanrong/p/9346045.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!