编码 Unicode utf-8

时间：2015-12-25 22:28:35 阅读：206 评论：0 收藏：0 [点我收藏+]

标签：

编码的发展史：

一开始计算机只在美国使用。8位的字节可以组合出256种不同的状态。他们将0到32种状态规定为”控制码“，后来又用其中32号以后的状态表示空格、标点符号、数字和大小写字母。这样一直编到了127号状态。这样计算机就可以用不同字节来存储英文的文字了。这种指定某个状态为某个动作或者符号的过程称为编码。而以上的方案的编码称为ASNI的ASCII编码（ASCII: American Standard Code for Information Interchange, 美国信息互换标准代码）。当时世界上所有的计算机都是用同样的ASCII方案来保存英文字。
后来欧洲各地都开始使用计算机，但是很多国家是英用的不文。于是各国人民决定用127号之后的空位来表示新的字母、符号。ASCII从127个扩展到255个。至此，8位的字节所有状态都用了，没有新的状态可以用了。
等到中国人们得到计算机，已经没有可以利用的字节状态来表示汉字了。更何况中国有6000多个常用汉字需要编码。这个难不倒中国人。我们不客气的将127号之后的奇葩符号直接取消掉，并且规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起是，就表示一个汉字，前面一个字节（即高字节）从0xA1用到0xF7,后面一个字节（低字节）从0xA1到0xFE，这样就可以组合出大约7000多个简体汉字了。其中，还包括数学符号、罗马希腊字母、日本的假名，在ASCII里本来就有的数字、标点、字母都重新编了两个字节长的编码。两个字节长的字符常称为”全角“字符，而原来127号以下的字符常称为”半角“字符。这种ASCII的汉字扩展方案叫做”GB2313“
后来中国人还是觉得不够，于是就干脆不要要求低字节一定是要大于127的内码。而规定只要高字节大于127，低字节可以取尽0-255. 结果又增加了近20000个新的汉字和符号。而这种编码方案称为”GBK“，它包含了”GB2312“的所有内容。后来少数民族也用电脑了，于是我们再扩展，GBK扩成了GB18030.
中国自己扩展了ASCII，其他国家也自己扩展了ASCII。结果是相互之间谁也不懂谁的编码，谁也不支持谁的编码。这样一旦中国要显示印度的文字，就是一片乱码。而且还有那些一时用不上电脑的穷苦人民，他们的文字怎么办？
百乱之中, ISO(国际标准化组织)着手解决这个问题。他们的方法：废了所有的地区性编码方案，重新搞一个包括地球上所有文化、所有字母和符合的编码。它叫”UNversal Multiple-Octet Coded Character Set“, 俗称”UNICODE“。Unicode开始制订时，计算机的存储器容量已经极大的发展了，空间再也不成问题。于是ISO就直接规定必须用两个字节（16位）来统一表示所有字符。对于ASCII里的前127个字符，Unicode保持其编码不变，只是在其前面加8个零，扩展为16位。而其他文化的语言字符则全部重新统一编码。
Unicode到来了，那么Unicode如何在网络上传输就变成了一个必须解决的问题。于是面向传输的众多标准出现了。其中一种叫做utf-8, 8是指每次传输8位数据。Unicode到utf-8的转变的规则，下面来介绍。

Unicode向utf-8转换的规则：

Unicode	utf-8
0000 - 007F	0xxx xxxx
0080 - 07FF	110x xxxx 10xx xxxx
0800 - FFFF	1110 xxxx 10xx xxxx 10xx xxxx

如上表举例，”汉“字的Unicode编码是6c49，在800-FFFF之间，写成二进制的话是：0110 1100 0100 1001. 将这16位二进制从左到右依次填入1110 xxxx 10xx xxxx 10xx xxxx 的x中，得到： 1110-0110 10-11 0001 10-00 1001，即E6 B1 89.

编码 Unicode utf-8

标签：

原文地址：http://www.cnblogs.com/haoshine/p/5076901.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行