码迷,mamicode.com
首页 > 其他好文 > 详细

简单图片爬虫

时间:2018-01-11 15:23:18      阅读:88      评论:0      收藏:0      [点我收藏+]

标签:pat   int   error   源代码   import   +=   ret   gen   except   

import re
import urllib.request
def craw(url,page):
    html1=urllib.request.urlopen(url).read()
    html1=str(html1)
    pat1=‘<div id="plist".+? <div class="page clearfix">‘
    result1=re.compile(pat1).findall(html1)
    #print(result1)
    result1=result1[0]
    pat2=‘<img width="220" height="220" data-img="1" data-lazy-img="//(.+?.jpg)">‘
    imagelist=re.compile(pat2).findall(result1)
    print(imagelist)
    x=1
    for imageurl in imagelist:
        imagename="/root/img1/" +str(page) + str(x) +".jpg"
        print(imagename)
        imageurl="http://" + imageurl
        try:
            urllib.request.urlretrieve(imageurl,filename=imagename)
        except urllib.error.URLError as e:
            if hasattr(e,"code"):
                x+=1
            if hasattr(e,"reason"):
                x+=1
        x+=1

for i in range(1,79):
    url="http://list.jd.com/list.html?cat=9987,653,655&page=" + str(i)
    craw(url,i)
~              

  爬取过程,首先通过urllib.request.urlopen(url).read(),读取对应网页的全部源代码,然后根据上面的第一个正则表达式进行第一次信息过滤,过滤完成后,进行第二次过滤,找出所有目标的图片链接,将这些链接地址存储到一个列表中,然后遍历该列表,并将对应链接通过urllib.request.urlretrieve(imageurl,filename=imagename)存储到本地。

简单图片爬虫

标签:pat   int   error   源代码   import   +=   ret   gen   except   

原文地址:https://www.cnblogs.com/guxiaobei/p/8267459.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!