字符编码

时间：2016-02-11 16:53:54 阅读：212 评论：0 收藏：0 [点我收藏+]

标签：

ASCII码

标准ASCII码使用7位二进制数表示大写或小写字母，数字0到9标点符号以及在美式英语中使用的特殊控制字符。

在标准ASCII码中，最高位（b7）用作奇偶校验位，所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分寄校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展（或“高”）ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。

常见的ASCII码大小：

换行LF为0x0A，回车CR为0x0D，空格为0x20，‘0‘为0x30，‘A’为0x41，‘a‘为0x61

查询ASCII技巧，方便查询ASCII码对应的字符：新建一个文本文档，按住ALT+要查询的码值（注意，这里是十进制），松开即可显示出对应字符。例如：按住ALT+97,则会显示出‘a‘。

扩展ASCII码

扩展ASCII码是从128-255的字符。

Unicode编码

注意：Unicode只是一个符号集，它规定了符号的二进制代码，却没有规定二进制代码如何存储。

所称的Unicode编码指的是UCS编码方式，即直接存入符号的Unicode二进制代码。

UTF-8编码

UTF-8是互联网上使用最广的一种Unicode的实现方式。

UTF-8是一种变长的编码方式，它使用1-4个字节表示一个符号，根据不同的符号选择不同长度的字节表示。

UTF-8的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。

2）对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

Unicode符号范围（16进制）	UTF-8编码方式（2进制）
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表，解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

Unicode与UTF-8的转换方式：

在Windows系统最简单的方式是采用记事本打开文档然后选择编码方式另存为。

借鉴：

ASCII_百度百科

阮一峰的日志

字符编码

标签：

原文地址：http://www.cnblogs.com/jxzheng/p/5186490.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行