码迷,mamicode.com
首页 > 其他好文 > 详细

Mooc爬虫01-request库

时间:2017-04-07 00:34:50      阅读:165      评论:0      收藏:0      [点我收藏+]

标签:_for   html   爬虫   时间   安装   对象   logs   方法   patch   

1 安装

  pip install requests

2 主要的方法

  requests.request()  支撑所有的基础方法

  requests.get()      

  requests.head()

  requests.post()

  requests.put()

  requests.patch()

  requests.delete()

3 Get方法

  r = requests.get(URL)

    r是一个Response对象, 包含爬虫返回的内容

    URL的Request

  requests.get(url, params=None, **kwargs)

  基本操作方法

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)

4 Response对象属性

  status_code

    HTTP请求的返回状态, 200表示成功

  text

    页面内容

  encoding

    根据header猜测的内容编码方式

  apparent_encoding

    从内容中分析出来的编码方式

  content

    HTTP相应的二进制形式

4 Requests库的异常

  ConnectionError

    网络链接错误, 例如DNS查询失败, 拒绝链接等

  HTTPError

    HTTP错误

  URLRequires

    冲过最大重定向次数

  ConnectTimeout

    链接超时异常, 仅仅是链接的时候的时间超出

  Timeout

    url请求超时, 是这个过程的时间超出

5 通用代码框架  

  通用代码框架如下

import requests


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"


if __name__ == "__main__":
    url = "http://www.python.org"
    print(getHTMLText())

  

Mooc爬虫01-request库

标签:_for   html   爬虫   时间   安装   对象   logs   方法   patch   

原文地址:http://www.cnblogs.com/weihuchao/p/6676176.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!