标签:_for html 爬虫 时间 安装 对象 logs 方法 patch
1 安装
pip install requests
2 主要的方法
requests.request() 支撑所有的基础方法
requests.get()
requests.head()
requests.post()
requests.put()
requests.patch()
requests.delete()
3 Get方法
r = requests.get(URL)
r是一个Response对象, 包含爬虫返回的内容
URL的Request
requests.get(url, params=None, **kwargs)
基本操作方法
import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)
4 Response对象属性
status_code
HTTP请求的返回状态, 200表示成功
text
页面内容
encoding
根据header猜测的内容编码方式
apparent_encoding
从内容中分析出来的编码方式
content
HTTP相应的二进制形式
4 Requests库的异常
ConnectionError
网络链接错误, 例如DNS查询失败, 拒绝链接等
HTTPError
HTTP错误
URLRequires
冲过最大重定向次数
ConnectTimeout
链接超时异常, 仅仅是链接的时候的时间超出
Timeout
url请求超时, 是这个过程的时间超出
5 通用代码框架
通用代码框架如下
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url = "http://www.python.org"
print(getHTMLText())
标签:_for html 爬虫 时间 安装 对象 logs 方法 patch
原文地址:http://www.cnblogs.com/weihuchao/p/6676176.html