标签:超级 字母 长度 unicode编码 rnn form 意思 war title
ASCII 美国制定了一套字符编码,用来表示英文的字母就那么几个加上标点也用不了多少。 ASCII 码一共规定了128个字符的编码,用一个字节就能表示,且只占用了一个字节的后面7位,最前面的一位统一规定为0。
ASCII 是不能表示中文的因为汉字超级多的,别的国家使用的符号可能更多, Unicode 就是一个很大的集合,表示100多万个符号,把每个国家的字符都包含进来。
Unicode中一个符号要 几位或者几个字节 表示,比如:一个汉字 "哭" unicode编码为 \u54ed 二进制 101010011101101 需要2字节 而一个文字需要一个字节 ,如果 Unicode 统一规定,每个符号用2个或3个...,那么文件就会变的很大。 解决的办法就是,页面一开始就说明,你要使用几个字节来表示一个字符。
UTF 是 Unicode Transformation Format 的缩写,意思是“Unicode转换格式”,
UFT-8:一种变长的编码方案,使用 1~6 个字节来存储;(UTF-8 是兼容 ASCII 的可以一个字节表示)
UFT-32:一种固定长度的编码方案,不管字符编号大小,始终使用 4 个字节来存储;
UTF-16:介于 UTF-8 和 UTF-32 之间,使用 2 个或者 4 个字节来存储,长度既固定又可变。
标签:超级 字母 长度 unicode编码 rnn form 意思 war title
原文地址:https://www.cnblogs.com/myniu/p/11744191.html