计算机常用编码 (整理的资料)

时间：2016-04-19 19:55:38 阅读：1187 评论：0 收藏：0 [点我收藏+]

标签：

注意： 编码的基础知识：

1.位 bit 最小的单元

字节 byte 机器语言的单位

换算 1byte=8bits 1kb=1024byte 1MB=1024KB 1GB=1024MB

2.进制 二进制 binary | 八进制 octal | 十进制 decimal |十六进制hex

3.字符：是各种文字和符号的总称，包括各个国家的文字，标点符号，图形符号，数字等。 字符集：字符集是多个符号的集合，每个字符集包含的字符个数不同。

字符编码：字符集只是规定了有哪些字符，而最终决定采用哪些字符，每一个字符用多少字节表示等问题，则是由编码来决定的。计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种文字。

一、Base 64是网络上最常见的用于传输8Bit字节代码的编码方式之一

1.项目中牵涉到中文字符的提交可能都需要base 64编码一下在提交。

技术分享

转码过程例子：

3*8=4*6

内存1个字符占8位

转前： s 1 3

先转成ascii：对应 115 49 51

2进制： 01110011 00110001 00110011

6个一组（4组） 011100110011000100110011

然后才有后面的 011100 110011 000100110011

然后计算机是8位8位的存数 6不够，自动就补两个高位0了

所有有了高位补0

科学计算器输入 00011100 00110011 00000100 00110011

得到 28 51 4 51

查对下照表 c z E z

技术分享

二、ASCll字符集：美国信息互换标准代码，是基于罗马字母表的一套电脑编码系统，主要显示英语和一些西欧语言，是现今最通用的单字节编码系统。

包含内容：

控制字符（回车键，退格，换行键等）

可显示字符（英文大小写，阿拉伯数字，西文符号）

扩展字符集（表格符号，计算符号，希腊字母，拉丁符号）

编码方式：

第 0-31 号及 127号是控制字符或通讯专用字符；

第 32-126号是字符，其中 48-57 号为 0-9 十个阿拉伯数字， 65-90 号为 26 个大写英文字母， 97-122 号为 26个英文小写字母，其余为一些标点符号，运算符号等。

在计算机存储单元中，一个 ASCII 码值占一个字节（ 8个二进制位），最高位是用作奇偶检验位。【奇偶校验是指：在代码传送的过程中，用来检验是否出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定：正确的代码一个字节中 1 的个数必须是奇数，若非奇数，则在最高位添 1；偶校验规定：正确的代码一个字节中 1 的个数必须是奇数，若非奇数，则在最高位添1。

三、GB2312字符集：信息交换用汉字编码字符集。是中国标准的简体中文字符集，它所收录的汉字已经覆盖99.75%的使用频率，在中国大陆和新加坡广泛使用。

包含内容：

GB2312收录了简化汉字及一般字符，序号，数字，拉丁字母，日文假名，希腊字母，俄文字母，汉语拼音符号，汉语注音字母，共 7445 个图形字符。其中包括 6763个汉字，一级汉字 3755 个，二级汉字 3008 个。

编码方式：

GB2312对所收汉字进行了“分区”处理，每区含有94个汉字或者符号，这种表示方法也叫做“区位码”。它是用双字节表示的，前面的字节为第一字节，又称“高字节”，后面的为第二字节，“低字节”。高位字节，把 01-87 区的区号加上 0xA0 （相当于数字 160）；低位字节把 01-94 区的区号加上 0xA0（相当于数字160）。举个简单的小例子：第一个汉字— —“啊”，它的区号为 16，位号 01，则区位码是 1601。则高字节位：

16+0xA0=0xB0；低字节位：01+0xA0=0xA1，所以“啊”的汉字处理编码为

0xB0A1

四、GBK字符集：GBK 是 GB2312 字符集的扩展（ K）(中国的中文编码表升级，融合了更多的

中文文字符号。)，它收录了 21886 个符号，它分为汉字区和图形符号区，

汉字区包括 21003个字符。 GBK 字符集主要扩展了繁体中文字的支持。

五、BIG5 字符集：又称大五码，由台湾五家软件公司创立。因为当时台湾没有一个标准的字符

集，而且 GB2312又没有收录繁体字，所以才推出了 BIG5。

包含内容：

BIG5 字符集共收录了13053 个中文字，该字符集在台湾使用。但是没有考虑

到社会上流通的人名，地方用字，方言用字，化学及生物科等用字，没有包

含日文平假名及片假字母。

编码方式：

BIG5也采用双字节存储方法，一两个字节编码一个字。高位字节的编码范围

是0xA1-0xF9,低位字节的编码范围是 0xA1-0xFE。

六、GB18030 字符集：GB18030 字符集标准解决汉字，日文假名，朝鲜语和中国少数民族文字组成

的大字符集计算机编码问题。

包含内容：

该标准的字符总编码空间超过150 万个编码位，收录了 27484 个汉字，覆盖

中文，日文，朝鲜语和中国少数民族文字。满足中国大陆，香港，台湾，日

本和韩国等东南亚地区信息交换多文种，大字量，多用途，统一编码格式的

要求。

编码方式：

GB8030标准采用单字节，双字节和四字节三种方式对字符编码。单字节部

分使用 0x00-0x7F码（对应于 ASCII 码的相应码）；

双字节部分，首字节码从0x81-0xFE,尾字节码分别是 0x40-0x7E 和 0x80-0xFE。

四字节部分采用0x30-0x39 作为双字节编码扩充的后缀，这样扩充的四字节

编码，其范围是0x81308130-0x0xFE39FE39,其中第一，三个字节编码位均为 0x81-0xFE，第二，四个为

七、ISO8859-1：拉丁码表。欧洲码表。用一个字节的 8 位表示。

八、 Unicode 字符集：（国际标准码，融合了多种文字。所有文字都用两个字节来表示,Java 语言

使用的就是unicode） University multiple-object coded character set（通用多

八位编码字符集），支持世界上超过650 种语言的国际字符。 Unicode 允许在

同一服务器上混合使用不同语言，它为每种语言的每个字符设定了统一并且

唯一的二进制编码，以满足跨平台，跨语言进行文本转换，处理的要求。

编码方式：

Unicode标准始终使用十六进制数字，固定使用 2 个字节来表示一个字符，

共可以表示 65536个字符。而且书写时在前面加上前缀“ U+”，例如 A 的编

码是004116，则书写成“ U+0041”。

l Unicode字符集包含的编码方案：

? UTF-8：（最多用三个字节来表示一个字符。） UTF8 是 unicode 其中的一个使用方式。UTF 的意思是： unicode translation format，即把 unicode 转作某种格式的意思。 UTF-8

使用可变长度字节来存储unicode 字符，如 ASCII 字母还是采用一个

字符来存储，希腊字母等采用2 个字符来存储，而常用的汉字要使

用 3字节，辅助平面字符则使用 4 字节。

? UTF-16：

使用一个或两个未分配的16 位代码单元的序列对 unicode 代码

点进行编码，即 2个字节表示一个字符。

? UTF-32：

将每一个 unicode代码点表示为相同值的 32 位整数。

? 关于 unicode编码的一个问题：

使用记事本另存为时，可以在 ANSI ， GBK,Unicode ， unicode big endian 和 UTF-8 这几种编码之间相互转换。同样是 txt文

件， windows是怎么识别编码的呢？

答：平时注意的话可以发现Unicode， unicode big endian 和 UTF-8

编码的 txt文件的开头会多出几个字节，分别是(FF,FE),（ FE,FF），

（EF,BB,BF）。那么这些标记都是基于什么标准呢？ ANSI 字符集： ASCII 字符集，以及由此派生并兼容的字符集。 UTF-16 与UTF-8：如“连通”两个字，在 UTF-16 中为：DE 8F 1A 90，

两个字节决定一个汉字；在UTF-8 中则为： E8 BF 9E E9 80 9A，即 3

个字节决定一个字符。

当一个软件打开一个文本时，首先是要决定这个文本究竟是使用

哪种字符集的哪种编码保存的，软件一般采用三种方式来决定文本

的字符集和编码：检测文件头标识，提示用户选择，根据一定的规

则猜测。不同编码方式的开头字节如下：EF BB BF UTF-8 FF FE UTF-16， little endian FE FF UTF-16， big endian FF FE 00 00UTF-32， little endian 00 00 FE FF UTF-32， big endian

注： endian是指字节序， big endian（大尾）和 little endian（小

尾）是 CPU处理多字节数的不同方式。例如“汉”的 unicode 编码

是6C49，写到文件中，如果将 6C 写在前面就是 big endian，将 49

写在前面就是 littleendian。

8．总结：

从 ASCII， GB2312， GBK 到 GB18030，这些编码方法是向下兼容的，即同一

个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编

码中，英文和中文可以统一的处理。区分中文编码的方法是高字节的最高位不为0。

计算机使用的缺省编码方式就是计算机的内码。有的中文 windows 的缺省内

码还是 GBK，可以通过 GB18030

计算机常用编码 (整理的资料)

标签：

原文地址：http://blog.csdn.net/love_missrou/article/details/51191816

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行