1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径,一般是网址;参数data表示以post方式提交到url的数据(玩过web的人...
分类:
编程语言 时间:
2015-05-13 18:32:29
阅读次数:
180
下面我们再来看看urllib模块提供的 urlretrieve() 函数。urlretrieve() 方法直接将远程数据下载到本地。>>> help(urllib.urlretrieve)Help on function urlretrieve in module urllib:urlretriev...
分类:
Web程序 时间:
2015-05-02 16:30:54
阅读次数:
132
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。
由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法:
直接使用urllib自带的ope...
分类:
编程语言 时间:
2015-04-26 13:54:36
阅读次数:
295
前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍。当然 urllib 还有一些其它很有用的辅助方法,比如对 url 进行编码、解码等等。辅助方法:1. urllib.quote(string[,safe]) : 对字符串进行编码,参数sa...
分类:
编程语言 时间:
2015-04-24 16:11:11
阅读次数:
137
可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.urlopen可以接受Request对象作为参数,从而可以控制HTTP Request的headers,进而实现模拟浏览器、模拟登录等操作。
做HTTP Request时应当尽量使用urllib2库,但是urllib.urlretrieve函数以及urllib.quote等一系列quote和unquote功能没有被加入ur...
分类:
编程语言 时间:
2015-04-23 13:27:14
阅读次数:
128
最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片。通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_1到0_0_75,简单来说文章就两句话:如何分析源代码通过正则表达式提取指定URL;如何通过Python下载图片。...
分类:
编程语言 时间:
2015-03-20 18:42:34
阅读次数:
240
利用python3提供的urllib.request很方便爬网页上的东西。
1、urllib.request.urlopen(url)打开网页,并读取read()
2、python正则分析图片链接,如
3、urllib.request.urlretrieve(url, filename)下载相应的url图片,保存到filename
详细看代码:
# coding = utf-8
#...
分类:
编程语言 时间:
2015-03-02 01:05:13
阅读次数:
245
urllib.urlretrieve(url[, filename[, reporthook[, data]]])参数说明:url:外部或者本地urlfilename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据);reporthook:是一个回调函数,当连接上...
分类:
Web程序 时间:
2014-12-30 16:52:10
阅读次数:
136
Python urllib模块urlopen()与urlretrieve()的使用方法详解。1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示...
分类:
编程语言 时间:
2014-11-19 18:07:26
阅读次数:
186
突然想搞个这样的工具,写来写去都不知道在干嘛了,本来两个文件,现在整合在一起了。乱得不行,懒得整理了,能用就行。下载部分用了多线程,但是下载一个文件还是用的单线程,也就是没管http头的range问题。貌似速度也不咋地。开始遇到的一个问题是直接用urllib的urlretrieve或者是先urlop...
分类:
编程语言 时间:
2014-10-29 23:46:24
阅读次数:
271