标签:ror 网站 data 一段 .com ext china roc 代码
错误信息如下:
requests.exceptions.SSLError: ("bad handshake: Error([(‘SSL routines‘, ‘tls_process_server_certificate‘, ‘certificate verify failed‘)],)",)
python做爬虫,对于有的网站,需要验证证书,比如:12306,https://inv-veri.chinatax.gov.cn/等网站
那么我参考这个作者的简书:http://www.jianshu.com/p/e42005d48929 解决了这个错误:
加上一个参数:verify=证书路径,或verify=False
#方法一
import requests from bs4 import BeautifulSoup url = ‘https://inv-veri.chinatax.gov.cn/‘ req = requests.get(url,verify=False) req.encoding = ‘utf-8‘ soup = BeautifulSoup(req.text,‘lxml‘) print(soup)
错误消失了但是有提醒,不过没事,可以解析出源代码。然后我根据他的简书继续下载证书,但是不知道为什么,我下载的证书不管用,然后没辙,幸好之前做过12306这个网站。OK,第二种简单的方法来了,下载啥安全证书?不需要,不需要。直接上一段添加证书代码:
ssl._create_default_https_context = ssl._create_unverified_context#注意用了这个就不能用requests了,得用urllib2.Request
完整代码如下:
# 方法二(推荐):
import ssl import urllib2 ssl._create_default_https_context = ssl._create_unverified_context req = urllib2.Request(‘https://inv-veri.chinatax.gov.cn/‘) data = urllib2.urlopen(req).read() print(data)
快下班了,此处写的急点,排版垃圾,不过实用。。。
标签:ror 网站 data 一段 .com ext china roc 代码
原文地址:http://www.cnblogs.com/fh-fendou/p/7479812.html