码迷,mamicode.com
首页 > 其他好文 > 详细

字符串

时间:2015-10-05 12:57:13      阅读:111      评论:0      收藏:0      [点我收藏+]

标签:

一.字符编码

字符编码其实就是一种映射规则。由于计算机只能理解二进制,我们在屏幕上看到的英文,汉字等字符都是二进制转换后的结果。按照何种约定将字符存储在计算机中,如‘a‘用什么表示,称之为编码。反之,如何将存储在计算机中的二进制数据解析显示出来,称之为“解码”。

字符集指一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,字符编码指的是一套规则,将字符转换为计算机可以接受的数字系统的二进制数值。常见的字符集有ASCII字符集,Unicode字符集,GB2312字符集

ASCII(American Standard Code for Information Interchange),即美国信息交换标准代码,其是基于拉丁字母的一套计算机编码系统。

ASCII字符集:主要包括控制字符(回车键,退格,换行键);可显示字符(英文大小写字符,阿拉伯数字和西文符号)。

ASCII编码:将ASCII字符集转换为计算机可以接受的数字系统的数的规则。使用7位(bits)表示一个字符,共128个字符;但是7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCIII扩展字符集使用8位(bits)表示一个字符,共256个字符。

ASCII及扩展ASCII码,最多只能编码256个字符,因此使用ASCII可支持的字符是有限的,例如,ASCII就不能对汉字,日文,韩文等进行编码

为了消除这个严重缺陷,使各种语言可统一编码,双字节编码应运而生。在双字节字符集中一个字符可由1个或2个字节组成。这就是UTF编码,即通常所说的Unicode码。

Unicode说明:Unicode码包括UTF-8,UTF-16,UTF-32三种标准。UTF-8编码长度不固定,UTF-16占两字节,UTF-32占4字节

UTF-8在编码时,将部分字符编码为1字节,部分字符编码为2字节,部分字符编码为3字节,还有一部分编码为4字节。其中,值在0x0080以下的字符压缩成1字节,主要存放美国使用的字符,值在0x0080-0x07ff间的字符使用2字节存储,主要存放欧洲及中东地区语言字符,值在0x07ff以上的字符使用3字节存储,主要存储东亚地区的语言。

UTF-16

字符串

标签:

原文地址:http://www.cnblogs.com/fenghuan/p/4855522.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!