python中编码总结：

时间：2015-02-28 16:26:15 阅读：213 评论：0 收藏：0 [点我收藏+]

python中编码总结：

1 python默认使用程序文件的编码对中文字符串进行编码，所以utf-8 、gbk程序的记录的中文是不同的编码

2 可以强制使用unicode编码进行编码，使用u字符 str = u‘中文字符‘

3. utf-8 每个中文占用3个字节 \xe8\x80\x83

4 gbk 每个中文占用2个字节 \xbf\xbc

5 编码介绍

编码规则

UTF-8编码：一个英文字符等于一个字节，一个中文（含繁体）等于三个字节

Unicode编码：一个英文等于两个字节，一个中文（含繁体）等于两个字节。

验证：

记事本中写1个汉字，查看文件的大小

gbk：2字节 | unicode：4字节 | utf-8: 6字节

记事本中写2个汉字，查看文件的大小

gbk：4字节 | unicode：6字节 | utf-8: 9字节

好像有问题，除了gbk之外，另外两种编码完全不符合编码规则。。。，最后通过可查看16进制编辑器（UltraEdit）查看文件的内容发现记事本对于 unicode、utf-8编码开头会加一个字符，分别占用一个汉字的空间（2字节、3字节），所以去除这个字符占用字符应该是这样的。

记事本中写1个汉字，查看文件的大小

gbk：2字节 | unicode：2字节 | utf-8: 3字节

记事本中写2个汉字，查看文件的大小

gbk：4字节 | unicode：4字节 | utf-8: 6字节

备注：

1 如果想获取中文的编码可使用 str.encode(‘hex‘)

str = "考"
<span style="white-space:pre">	</span>for item in str:  
<span style="white-space:pre">	</span>print item.encode("hex")  #每个汉子 使用3个字节

2 字节（byte）： 8位（bit）

原文地址：http://blog.csdn.net/metecyu/article/details/43986905

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行