GB 18030 wiki:https://zh.wikipedia.org/wiki/GB_18030
单字节,其值从0到0x7F。
双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。
【解码错误的一种处理方式】
错误:
UnicodeDecodeError: 'gb18030' codec can't decode byte 0xff in position 129535: illegal multibyte sequence
异常对象:UnicodeDecodeError
import codecs
# gb18030 乱码 handler
def WalkerGB18030ReplaceHandler(exc):
print('exc.start: %d' % exc.start)
print('exc.end: %d' % exc.end)
print('exc.encoding: %s' % exc.encoding)
print('exc.reason: %s' % exc.reason)
text = ''
for ch in exc.object[exc.start:exc.end]:
print('ch:')
print(ch)
text += ('0x%02X' % ch)
return (text, exc.end)
# 注册自定义handler
codecs.register_error("myreplace", WalkerGB18030ReplaceHandler)【相关阅读】
*** walker 的流水账 ***
原文地址:http://blog.51cto.com/walkerqt/2054425