码迷,mamicode.com
首页 > 编程语言 > 详细

[Python] - 使用chardet检查网页编码格式时发现的问题

时间:2014-11-29 15:49:02      阅读:184      评论:0      收藏:0      [点我收藏+]

标签:blog   http   ar   使用   sp   on   2014   问题   log   

最近在使用chardet检查网页编码格式时发现如下问题:

用urllib打开网页再检查编码格式和用urllib2打开网页检查编码格式结果不一样,所以urllib2打开可能导致问题,需要注意。

使用urllib2打开网页,检查编码格式:

bubuko.com,布布扣

结果如下,结果中出现了新浪网的字符编码格式为None的情况:

bubuko.com,布布扣

但如果使用urllib打开url,则不会出现检查不到编码格式的问题:

bubuko.com,布布扣

运行的结果中,所有URL的字符编码都侦测到了,结果如下:

bubuko.com,布布扣

 

[Python] - 使用chardet检查网页编码格式时发现的问题

标签:blog   http   ar   使用   sp   on   2014   问题   log   

原文地址:http://www.cnblogs.com/mizhon/p/4131021.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!