码迷,mamicode.com
首页 > Web开发 > 详细

基本urllib库

时间:2018-09-26 22:13:25      阅读:200      评论:0      收藏:0      [点我收藏+]

标签:alt   round   元素   color   代码   指定   百度   相关   pen   

urlib库

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。

urlopen函数:

在Python3的urllib库中,所有和网络请求相关的方法,被集到url1ib.request横块下面了,以先来看下orlopen数基本的使用:
fron urllib import request         #导入urllib模块下的request包

resp = request.urlopen("https://www.baidu.com")    #打开url 

print(resp.read())      #读出resp对象的代码(bytes数据类型) 

#print(resp.read().decode(‘utf-8‘))  #bytes转str数据类型

实际上,使用刻宽器访问百度,右键查看源代码。你会发现,跟我们刚才打印出来的数据有的或许不同,但使用下面代码是相同的。原因是返回回来的值是bytes数据类型,我们要把他转换为str类型,才能更清楚的阅读代码。也就是说,上面的三行代码就已经帮我们把百度的首页的全部代码爬下来了。一个基本的ur请求对应的python代码真的非常简单。

urlretrieve函数:

urlretrieve函数简单来讲就是将一个网页或网页上的某一元素保存到本地。用法实现:

技术分享图片

关于url编码和解码问题:

 在上面说过read()读出来是一个bytes数据类型,所以,如需bytes与str数据类型的转换,有:

bytes-->decode-->str

str-->encode-->bytes

 

基本urllib库

标签:alt   round   元素   color   代码   指定   百度   相关   pen   

原文地址:https://www.cnblogs.com/c-pyday/p/9709972.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!