标签:符号 联网 法语 并且 范围 字符 问题 bar lead
就是由于发信人和收信人使用的编码
方式不一样.
能够想象, 假设有一种编码, 将世界上全部的符号都纳入当中. 每个符号都给予一个独
一无二的编码, 那么乱码问题就会消失. 这就是Unicode, 就像它的名字都表示的, 这是
一种全部符号的编码.
Unicode也是一种字符编码方法, 只是它是由国际组织设计, 能够容纳全世界全部语言文
字的编码方案. Unicode的学名是"Universal Multiple-Octet Coded Character Set",
简称为UCS. UCS能够看作是"Unicode Character Set"的缩写.
Unicode当然是一个非常大的集合, 如今的规模能够容纳100多万个符号. 每一个符号的编码都
不一样, 比方, U+0639表示阿拉伯字母Ain, U+0041表示英语的大写字母A, U+4E25表示汉
字"严". 详细的符号相应表, 能够查询unicode.org, 或者专门的汉字相应表.
2.2 Unicode的问题
须要注意的是, "Unicode仅仅是一个符号集, 它仅仅规定了符号的二进制代码, 却没有规定这
个二进制代码应该怎样存储".
比方, 汉字"严"的unicode是十六进制数4E25, 转换成二进制数足足有15位
(100111000100101), 也就是说这个符号的表示至少须要2个字节. 表示其它更大的符号,
可能须要3个字节或者4个字节, 甚至很多其它.
这里就有两个严重的问题, 第一个问题是, 怎样才干差别unicode和ascii?计算机怎么知
道三个字节表示一个符号, 而不是分别表示三个符号呢?
第二个问题是, 我们已经知道,
英文字母仅仅用一个字节表示就够了, 假设unicode统一规定, 每一个符号用三个或四个字节
表示, 那么每一个英文字母前都必定有二到三个字节是0, 这对于存储来说是极大的浪费,
文本文件的大小会因此大出二三倍, 这是无法接受的.
它们造成的结果是:
1) 出现了unicode的多种存储方式, 也就是说有很多种不同的二进制格式,
能够用来表示unicode.
2) unicode在非常长一段时间内无法推广, 直到互联网的出现
3. UTF-8
互联网的普及, 强烈要求出现一种统一的编码方式. UTF-8就是在互联网上使用最广的一
种unicode的实现方式. 其它实现方式还包含UTF-16和UTF-32, 只是在互联网上基本不用.
反复一遍, 这里的关系是, UTF-8是Unicode的实现方式之中的一个.
UTF-8最大的一个特点, 就是它是一种变长的编码方式. 它能够使用1~6个字节表示一个符
号, 依据不同的符号而变化字节长度.
3.1 UTF-8的编码规则
UTF-8的编码规则非常easy, 仅仅有两条:
1) 对于单字节的符号, 字节的第一位设为0, 后面7位为这个符号的unicode码. 因此对于
英语字母, UTF-8编码和ASCII码是同样的.
2) 对于n字节的符号(n>1), 第一个字节的前n位都设为1, 第n+1位设为0, 后面字节的前
两位一律设为10. 剩下的没有提及的二进制位, 所有为这个符号的unicode码.
下表总结了编码规则, 字母x表示可用编码的位.
(零宽度非换行空格(FEFF))
Unicode规范中定义, 每个文件的最前面分别增加一个表示编码顺序的字符, 这个字符
的名字叫做"零宽度非换行空格"(ZERO
WIDTH NO-BREAK SPACE), 用FEFF表示. 这正好是
两个字节, 并且FF比FE大1.
// Big Endian(FEFF) Little Endian(FFFE)
NOTE:
假设一个文本文件的头两个字节是FE FF, 就表示该文件採用大头方式; 假设头两个字节
是FF FE, 就表示该文件採用小头方式.
5. Unicode与UTF-8之间的转换(C语言版)
从表1我们非常明显能够得知Unicode与UTF-8的关系, 以下以C语言实现两者之间的转换.
-- unicode_to_utf8
local function unicode_to_utf8(convertStr)
if type(convertStr)~="string" then
return convertStr
end
local bit = require("bit")
local resultStr=""
local i=1
while true do
local num1=string.byte(convertStr,i)
local unicode
if num1~=nil and string.sub(convertStr,i,i+1)=="\\u" then
unicode=tonumber("0x"..string.sub(convertStr,i+2,i+5))
i=i+6
elseif num1~=nil then
unicode=num1
i=i+1
else
break
end
if unicode <= 0x007f then
resultStr=resultStr..string.char(bit.band(unicode,0x7f))
elseif unicode >= 0x0080 and unicode <= 0x07ff then
resultStr=resultStr..string.char(bit.bor(0xc0,bit.band(bit.rshift(unicode,6),0x1f)))
resultStr=resultStr..string.char(bit.bor(0x80,bit.band(unicode,0x3f)))
elseif unicode >= 0x0800 and unicode <= 0xffff then
resultStr=resultStr..string.char(bit.bor(0xe0,bit.band(bit.rshift(unicode,12),0x0f)))
resultStr=resultStr..string.char(bit.bor(0x80,bit.band(bit.rshift(unicode,6),0x3f)))
resultStr=resultStr..string.char(bit.bor(0x80,bit.band(unicode,0x3f)))
end
end
resultStr=resultStr..‘\0‘
return resultStr
end标签:符号 联网 法语 并且 范围 字符 问题 bar lead
原文地址:http://www.cnblogs.com/lxjshuju/p/6812387.html