python 图片爬虫

时间：2015-08-18 18:40:11 阅读：118 评论：0 收藏：0 [点我收藏+]

标签：

#!/usr/bin/env python
#coding:utf-8

import urllib
import re

def GetHtml(url):
    """获取HTML页面所有元素."""

    page =  urllib.urlopen(url)
    html = page.read()
    return html

def GetImg(html):
    """ 获取HTML页面所有.jpg图片."""

    reg = r‘src="(.+?\.jpg)"‘  
    imgre = re.compile(reg)
    imglist = re.findall(imgre, html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl, ‘%s.jpg‘ %x, cbx)
        x += 1
        print "img: %s is done!" %x

def cbx(a, b, c):
    """显示下载进度.
    @a: 已经下载的数据块
    @b: 数据块大小
    @c: 远程文件的大小
    """
    
    per = 100.0 * a * b / c
    if per > 100:
        per = 100
    print "%.2f%%" %per

html = GetHtml("http://www.baidu.com")
print GetImg(html)

python 图片爬虫

标签：

原文地址：http://www.cnblogs.com/hujianping/p/4740098.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行