码迷,mamicode.com
首页 > 编程语言 > 详细

python-网页乱码且decode encode均无效

时间:2016-04-25 20:58:50      阅读:430      评论:0      收藏:0      [点我收藏+]

标签:

在某个网页看到这么一句话:“大多数网站都对支持gzip压缩的浏览器做了gzip的压缩,在python中可以通过gzip包处理gzip压缩过的网页”

所以问题就是内容有压缩过,直接decode不行,需要用gzip来解压。然后再decode。

import gzip
...
html = gzip.decompress(response)
        html = html.decode(‘gbk‘)

用gb2312不行,用gbk却可以,因为gbk包含gb2312,所以可以知道的是网页源码有超出gb2312编码范围的字符

python-网页乱码且decode encode均无效

标签:

原文地址:http://www.cnblogs.com/sunjter/p/5432581.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!