码迷,mamicode.com
首页 > 编程语言 > 详细

Python3 处理 gb18030 乱码

时间:2017-12-25 17:31:04      阅读:264      评论:0      收藏:0      [点我收藏+]

标签:gb2312   gbk   

关于 gb18030 编码

  •  GB 18030 wiki:https://zh.wikipedia.org/wiki/GB_18030

  • 单字节,其值从0到0x7F。

  • 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。

  • 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。


解码错误的一种处理方式

  • 错误:

UnicodeDecodeError: 'gb18030' codec can't decode byte 0xff in position 129535: illegal multibyte sequence
import codecs

# gb18030 乱码 handler
def WalkerGB18030ReplaceHandler(exc):
	print('exc.start: %d' % exc.start)
	print('exc.end: %d' % exc.end)
	print('exc.encoding: %s' % exc.encoding)
	print('exc.reason: %s' % exc.reason)
	text = ''
	for ch in exc.object[exc.start:exc.end]:
		print('ch:')
		print(ch)
		text += ('0x%02X' % ch)
		
	return (text, exc.end)
	
# 注册自定义handler
codecs.register_error("myreplace", WalkerGB18030ReplaceHandler)


相关阅读

关于 Python3 的编码


*** walker 的流水账 *** 


Python3 处理 gb18030 乱码

标签:gb2312   gbk   

原文地址:http://blog.51cto.com/walkerqt/2054425

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!