UCS-2/UCS-4/UTF

时间：2019-01-18 13:32:38 阅读：264 评论：0 收藏：0 [点我收藏+]

Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值，这个值称为代码点（Code Point）。代码点的值通常写成 U+ABCD 的格式。
而文字和代码点之间的对应关系就是UCS-2（Universal Character Set coded in 2 octets）。
UCS-2是用两个字节来表示代码点，其取值范围为 U+0000～U+FFFF。
为了能表示更多的文字，人们又提出了UCS-4，即用四个字节表示代码点。它的范围为 U+00000000～U+7FFFFFFF，其中 U+00000000～U+0000FFFF和UCS-2是一样的。
UCS-2和UCS-4只规定了代码点和文字之间的对应关系，并没有规定代码点在计算机中如何存储。

规定存储方式的称为UTF（Unicode Transformation Format），其中应用较多的就是UTF-16和UTF-8了。