标签:
一.字符编码
字符编码其实就是一种映射规则。由于计算机只能理解二进制,我们在屏幕上看到的英文,汉字等字符都是二进制转换后的结果。按照何种约定将字符存储在计算机中,如‘a‘用什么表示,称之为编码。反之,如何将存储在计算机中的二进制数据解析显示出来,称之为“解码”。
字符集指一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,字符编码指的是一套规则,将字符转换为计算机可以接受的数字系统的二进制数值。常见的字符集有ASCII字符集,Unicode字符集,GB2312字符集
ASCII(American Standard Code for Information Interchange),即美国信息交换标准代码,其是基于拉丁字母的一套计算机编码系统。
ASCII字符集:主要包括控制字符(回车键,退格,换行键);可显示字符(英文大小写字符,阿拉伯数字和西文符号)。
ASCII编码:将ASCII字符集转换为计算机可以接受的数字系统的数的规则。使用7位(bits)表示一个字符,共128个字符;但是7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCIII扩展字符集使用8位(bits)表示一个字符,共256个字符。
ASCII及扩展ASCII码,最多只能编码256个字符,因此使用ASCII可支持的字符是有限的,例如,ASCII就不能对汉字,日文,韩文等进行编码
为了消除这个严重缺陷,使各种语言可统一编码,双字节编码应运而生。在双字节字符集中一个字符可由1个或2个字节组成。这就是UTF编码,即通常所说的Unicode码。
Unicode说明:Unicode码包括UTF-8,UTF-16,UTF-32三种标准。UTF-8编码长度不固定,UTF-16占两字节,UTF-32占4字节
UTF-8在编码时,将部分字符编码为1字节,部分字符编码为2字节,部分字符编码为3字节,还有一部分编码为4字节。其中,值在0x0080以下的字符压缩成1字节,主要存放美国使用的字符,值在0x0080-0x07ff间的字符使用2字节存储,主要存放欧洲及中东地区语言字符,值在0x07ff以上的字符使用3字节存储,主要存储东亚地区的语言。
UTF-16
标签:
原文地址:http://www.cnblogs.com/fenghuan/p/4855522.html