码迷,mamicode.com
首页 > 其他好文 > 详细

1个汉字在UTF-8编码占3个字节

时间:2016-10-30 11:49:09      阅读:268      评论:0      收藏:0      [点我收藏+]

标签:dia   arc   观察   net   notepad   eww   win   google   进制   

http://blog.csdn.net/ns_code/article/details/14162087

 

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

8. 实例

下面,举一个实例。

打开"记事本"程序Notepad.exe,新建一个文本文件,内容就是一个"严"字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式保存。

然后,用文本编辑软件UltraEdit中的"十六进制功能",观察该文件的内部编码方式。

1)ANSI:文件的编码就是两个字节"D1 CF",这正是"严"的GB2312编码,这也暗示GB2312是采用大头方式存储的。 

2)Unicode:编码是四个字节"FF FE 25 4E",其中"FF FE"表明是小头方式存储,真正的编码是4E25。

3)Unicode big endian:编码是四个字节"FE FF 4E 25",其中"FE FF"表明是大头方式存储。

4)UTF-8:编码是六个字节"EF BB BF E4 B8 A5",前三个字节"EF BB BF"表示这是UTF-8编码,后三个"E4B8A5"就是"严"的具体编码,它的存储顺序与编码顺序是一致的。

1个汉字在UTF-8编码占3个字节

标签:dia   arc   观察   net   notepad   eww   win   google   进制   

原文地址:http://www.cnblogs.com/wincai/p/6012602.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!