UnicodeDecodeError: ‘XXX' codec can't decode bytes in position X 的问题

时间：2015-07-01 09:51:39 阅读：132 评论：0 收藏：0 [点我收藏+]

标签：

错误信息：
UnicodeDecodeError: ‘XXX‘ codec can‘t decode bytes in position 2-5: illegal multibyte sequence
这是因为遇到了非法字符，例如：全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，
这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1，因此在转码的过程中出现了异常。
而之前在处理新浪微博数据时，遇到了非法空格问题导致无法正确解析数据。

解决办法：
#将获取的字符串strTxt做decode时，指明ignore，会忽略非法字符,
#当然对于gbk等编码，处理同样问题的方法是类似的

strTest = strTxt.decode(‘utf-8‘, ‘ignore‘)
return strTest

补充：
默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?号取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position X 的问题

标签：

原文地址：http://www.cnblogs.com/xuxianren/p/4612383.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行