码迷,mamicode.com
首页 > Web开发 > 详细

学习爬虫过程中解决下载网页乱码的问题

时间:2020-02-22 12:02:45      阅读:60      评论:0      收藏:0      [点我收藏+]

标签:爬虫   原因   html   就是   res   coding   https   com   网页   

这个问题肯定是字符的编码错乱导致的。网上也有很多解决方案。我看过的方案很多,最好的就是这个了。

https://www.sohu.com/a/289375951_420744

原因文章说得很清楚,理论也讲得明白。解决方案我录在下面。版权归原作者。

方法一:直接指定res.encoding

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = "gbk"
html = res.text
print(html)

方法二:通过res.apparent_encoding属性指定

import requests
url = "http://search.51job.com"
res = requests.get(url)
res.encoding = res.apparent_encoding
html = res.text
print(html)

方法三:通过编码、解码的方式

import requests
url = "http://search.51job.com"
res = requests.get(url)
html = res.text.encode(‘iso-8859-1‘).decode(‘gbk‘)
print(html)

学习爬虫过程中解决下载网页乱码的问题

标签:爬虫   原因   html   就是   res   coding   https   com   网页   

原文地址:https://www.cnblogs.com/xiaolee-tech/p/12344592.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!