码迷,mamicode.com
首页 > 编程语言 > 详细

Python学习之简单网页爬虫

时间:2018-04-05 20:08:25      阅读:117      评论:0      收藏:0      [点我收藏+]

标签:adl   案例   readline   \n   ref   body   简单   lin   爬取   

0x00案例   爬取博客园某页面的所有图片并下载到本地

连续搞了一周的python,收获颇多,主要还是锻炼了自己的脾气。。。话不多说,先贴上脚本

#coding:utf-8

import urllib2
import re

url="https://www.cnblogs.com/peterpan0707007/p/7620048.html"
headers={User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64; rv:59.0) Gecko/20100101 Firefox/59.0}
req=urllib2.Request(url,headers=headers)
resp=urllib2.urlopen(req).read()
data=re.compile(r‘http:.+\.png‘).findall(resp)  #正则匹配png图片
#print data
for i in data:
    with open(result.txt,a) as fw:
        fw.write(i+\n)
        
with open(result.txt,r) as fr:
    for line in fr.readlines():
        response=urllib2.urlopen(line).read()
        filename=line.strip(\n).split(-)[2]+.png
        with open(filename,wb) as fw:
            fw.write(response)
    print done

运行结果

技术分享图片

 

Python学习之简单网页爬虫

标签:adl   案例   readline   \n   ref   body   简单   lin   爬取   

原文地址:https://www.cnblogs.com/peterpan0707007/p/8723892.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!