码迷,mamicode.com
首页 > 其他好文 > 详细

Unicode和UTF-8之间的关系

时间:2018-05-01 10:42:09      阅读:229      评论:0      收藏:0      [点我收藏+]

标签:ali   utf-8   占用   ack   pad   开始   form   lin   import   

https://blog.csdn.net/xiaolei1021/article/details/52093706

 

Unicode,又称万国码,规定了符号与二进制码的对应关系,没有规定二进制码的保存方式。

假如,‘a’的Unicode码为0x0d12,‘b’的unicode码为0x23d4;给0x od12 23d4,并不能够解读为

‘ab’,因为0x od12 23d4 在unicode码表中表示为另一个符号。

那么,我们就要规定unicode的二进制吗的存储方式,UTF-8就是在互联网上使用最广的一种Unicode的实现方式。

utf-8是一种 变长的 编码方式,为了节约内存资源,英文数字采用1字节保存(兼容ascii编码),中文一般 3字节保存。

UTF-8的编码规则很简单,只有二条:

1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。

2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

下表总结了编码规则,字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表,解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。

下面,还是以汉字"严"为例,演示如何实现UTF-8编码。

已知"严"的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000 FFFF),因此"严"的UTF-8编码需要三个字节,即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后,从"严"的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,"严"的UTF-8编码是"11100100 10111000 10100101",转换成十六进制就是E4B8A5。

Unicode和UTF-8之间的关系

标签:ali   utf-8   占用   ack   pad   开始   form   lin   import   

原文地址:https://www.cnblogs.com/mynotep/p/8975481.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!