码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫2

时间:2018-03-27 21:57:50      阅读:116      评论:0      收藏:0      [点我收藏+]

标签:bsp   erro   col   重定向   ror   _for   cts   div   dns   

爬取网页的通用代码框架

异常 说明
requests.ConnectionError 网络连接错误异常,比如DNS查询失败、拒绝连接等
requests.HTTPError HTTP错误异常
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.Timesout 请求URL超时,产生超时异常

 

 

 

 

 

 

 

理解requests库的异常:

r.raise_for_status() 如果不是200,产生异常requests.HTTPError

 

示例:

import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return 产生异常

结果:

技术分享图片

 

技术分享图片

 

爬虫2

标签:bsp   erro   col   重定向   ror   _for   cts   div   dns   

原文地址:https://www.cnblogs.com/rayshaw/p/8559733.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!