码迷,mamicode.com
首页 > 其他好文 > 详细

Coded Character Set

时间:2015-01-03 18:33:10      阅读:155      评论:0      收藏:0      [点我收藏+]

标签:

ASCII -> GB2312 -> GBK

ASCII -> Unicode( Universal Multiple-octet Coded Character Set, Abbreviation:UCS)

UTF: UCS Transformation Format

 

UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

 

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。  

 

BOM: byte order mark

 

 

Windows 32和64, java, Net framework 都是2bytes, UTF-16编码.  类Unix下都是4bytes, UTF-32编码

Coded Character Set

标签:

原文地址:http://www.cnblogs.com/faeriesoft/p/4199723.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!