Python3抓取百度贴吧图片

时间：2016-06-09 00:59:16 阅读：187 评论：0 收藏：0 [点我收藏+]

标签：python

我抓取的地址是http://tieba.baidu.com/p/3125473879?pn=2，这个帖子共有82页左右，下面的代码主要抓取82页的所有图片，具体代码如下：

"""抓取百度贴吧图片"""
#导入模块
import re
import urllib
from urllib.request import urlopen,urlretrieve
#获取抓取页面的源代码
def getHtml(url):
    page = urlopen(url)
    html = str(page.read())
    page.close()
    return html
#通过源代码以及正则表达式，匹配我们的url
def getImg(html):
    reg = r‘<img class="BDE_Image" src="(.+?\.jpg)" ‘
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urlretrieve(imgurl,‘C:\\Users\\Water\\PycharmProjects\\test\\image\\%s-%s.jpg‘ % (i,x))
        x = x + 1
#调用函数
i = 1
while i < 83:
    html = getHtml("http://tieba.baidu.com/p/3125473879?pn=" + str(i))
    getImg(html)
    i+=1
    print(i)

抓取结果如下，我这里只是简单些一下，以后再详细介绍。

本文出自 “小小水滴” 博客，请务必保留此出处http://wangzan18.blog.51cto.com/8021085/1787514

Python3抓取百度贴吧图片

标签：python

原文地址：http://wangzan18.blog.51cto.com/8021085/1787514

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行