码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫3-----Urllib库的基本使用1

时间:2018-10-12 17:03:29      阅读:35      评论:0      收藏:0      [点我收藏+]

标签:python爬虫   一个   txt   --   none   站点   set   方法   byte   

什么是Urllib

Urllib是python内置的HTTP请求库
包括以下模块
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块

urlopen

关于urllib.request.urlopen参数的介绍:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子:

import urllib.request  
‘‘‘‘‘ 
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据 
urlopen 方法用来打开一个url 
read方法 用于读取Url上的数据 
‘‘‘

response = urllib.request.urlopen(http://www.baidu.com)
print(response.read().decode(utf-8))

urlopen一般常用的有三个参数,它的参数如下:
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容,如果没有read(),将返回一个object对象

data参数的使用

上述的例子是通过请求百度的get请求获得百度,下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示(该网站可以作为练习使用urllib的一个站点使用,可以
模拟各种请求操作)。

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({word: hello}), encoding=utf8)
print(data)
response = urllib.request.urlopen(http://httpbin.org/post, data=data)
print(response.read())

这里就用到urllib.parse,通过bytes(urllib.parse.urlencode())可以将post数据进行转换放到urllib.request.urlopen的data参数中。这样就完成了一次post请求。
所以如果我们添加data参数的时候就是以post请求方式请求,如果没有data参数就是get请求方式

timeout参数的使用
在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况,或者请求异常,所以这个时候我们需要给
请求设置一个超时时间,而不是让程序一直在等待结果。例子如下:

import urllib.request

response = urllib.request.urlopen(http://httpbin.org/get, timeout=1)
print(response.read())

运行之后我们看到可以正常的返回结果,接着我们将timeout时间设置为0.1
运行程序会提示如下错误

 

所以我们需要对异常进行抓取,代码更改为

import socket
import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen(http://httpbin.org/get, timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print(TIME OUT)   #给个异常处理

 

Python爬虫3-----Urllib库的基本使用1

标签:python爬虫   一个   txt   --   none   站点   set   方法   byte   

原文地址:https://www.cnblogs.com/edeny/p/9778911.html

(0)
(0)
   
举报
评论 一句话评论(0
0条  
登录后才能评论!
© 2014 mamicode.com 版权所有 京ICP备13008772号-2
迷上了代码!