Unicode 详解

时间：2017-04-14 09:53:10 阅读：200 评论：0 收藏：0 [点我收藏+]

一、Unicode 简介

(1) Unicode 称为统一码或万国码，能够支持几乎所有国家的语言，在 Unicode 之前，用的都是 ASCII ，ASCII 只支持美国的语言（即只支持英文字符）
(2) UTF-8 是以 8 位字节对 Unicode 进行编码的一种格式，支持多个国家的语言
(3) 在 Python 中，字符串默认都是 ASCII 编码格式，可以通过在字符串前面加一个 ‘u‘ 以声明是 Unicode 字符串

二、Unicode 术语

(1) ASCII ：美国标准信息交换码
(2) BMP ：基本多文种平面，是 Unicode 中的一个编码区段
(3) BOM ：字节顺序标记，是标识字节顺序的字符
(4) CJK ： CJK 是中文（Chinese）、日文（Japanese）、韩文（Korean）三国文字的缩写，顾名思义，它能够支持这三种文字
(5) Code point ：类似于 ASCII 值，代表 Unicode 字符的值
(6) Octet ：八位二进制数的位组
(7) UCS ：通用字符集
(8) UCS2 ：UCS 的双字节编码方式
(9) UCS4 ：UCS 的四字节编码方式
(10) UTF ：Unicode 或 UCS 的转换格式
(11) UTF-8 ：以 8 位字节对 Unicode 进行编码
(12) UTF-16 ：以 16 位字节对 Unicode 进行编码
(13) Codec ：定义了文本跟二进制值的转换方式，支持多种编码格式，如 ASCII 、UTF-8 、UTF-16 等
(14) 编码：编码是信息从一种格式转换为另一种格式的过程，比如计算机只认识二进制，所以要把诸如文本、音频、视频等编码成二进制来进行存储
(15) 解码：即编码的逆过程，把二进制转换成我们需要的格式显示出来

Unicode 详解

标签：标识信息日文多个 pytho 字节顺序 span 计算机 height

原文地址：http://www.cnblogs.com/pzk7788/p/6707023.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行