标签:
字符集:简单的说字符集就规定了某个文字对应的二进制数字存放方式(编码)和某串二进制数值代表了哪个文字(解码)的转换关系;字符集只是一个规则集合的名字,就相当于 英语,汉语。一个字符集要正确编码转码一个字符需要三个关键元素:字库表,编码字符集,字符编码。
字符集 | 16进制编码 | 对应的二进制数据 |
---|---|---|
UTF-8 | 0xE5B18C | 1110 0101 1011 0001 1000 1100 |
UTF-16 | 0x5C4C | 1011 1000 1001 1000 |
GBK | 0x8CC5 | 1000 1100 1100 0101 |
字库表:相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现标示所有字符的范围
编码字符集:即用一个编码值code point来标示一个字符在字库中的位置。
字符编码:将编码 字符集和实际存储数值之间的转换关系。 一般来说都会直接将code point的值作为编码后的值直接存储。
UTF-8和Unicode的关系就比较简单了。Unicode就是上文中提到的编码字符集,而UTF-8就是字符编码,即Unicode规则字库的一种实现形式。随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字,并将为他们编号
要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单,这里用最常见的UTF-8被错误用GBK展示时的乱码为例,来说明具体反解和识别过程。
假设我们在页面上看到寰堝睂
这样的乱码,而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。当然查表编码效率很低,我们也可以用以下SQL语句直接通过MySQL客户端来做编码工作:
1
2
3
4
5
6
7
|
mysql [localhost] {msandbox} > select hex( convert ( ‘寰堝睂‘ using gbk)); + -------------------------------------+ | hex( convert ( ‘寰堝睂‘ using gbk)) | + -------------------------------------+ | E5BE88E5B18C | + -------------------------------------+ 1 row in set (0.01 sec) |
现在我们得到了解码后的二进制字符串E5BE88E5B18C
。然后我们将它按字节拆开。
Byte 1 | Byte 2 | Byte 3 | Byte 4 | Byte 5 | Byte 6 |
---|---|---|---|---|---|
E5 | BE | 88 | E5 | B1 | 8C |
然后套用之前UTF-8编码介绍章节中总结出的规律,就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话,我们就能大胆假设乱码之前的编码字符集是UTF-8
然后我们就能拿着E5BE88E5B18C
用UTF-8解码,查看乱码前的文字了。当然我们可以不查表直接通过SQL获得结果:
1
2
3
4
5
6
7
|
mysql [localhost] {msandbox} ((none)) > select convert( 0xE5BE88E5B18C using utf8); +------------------------------------+ | convert( 0xE5BE88E5B18C using utf8) | +------------------------------------+ | 很屌 | +------------------------------------+ 1 row in set ( 0.00 sec) |
所谓Emoji就是一种在Unicode位于\u1F601
-\u1F64F
区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围\u0000
-\uFFFF
。Emoji表情随着IOS的普及和微信的支持越来越常见。下面就是几个常见的Emoji:
那么Emoji字符表情会对我们平时的开发运维带来什么影响呢?最常见的问题就在于将他存入MySQL数据库的时候。一般来说MySQL数据库的默认字符集都会配置成UTF-8(三字节),而utf8mb4在5.5以后才被支持,也很少会有DBA主动将系统默认字符集改成utf8mb4。那么问题就来了,当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错:ERROR 1366: Incorrect string value: ‘\xF0\x9D\x8C\x86‘ for column
。 如果认真阅读了上面的解释,那么这个报错也就不难看懂了。我们试图将一串Bytes插入到一列中,而这串Bytes的第一个字节是\xF0
意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的,所以报了错。
那么遇到这种情况我们如何解决呢?有两种方式:升级MySQL到5.6或更高版本,并且将表字符集切换至utf8mb4。第二种方法就是在把内容存入到数据库之前做一次过滤,将Emoji字符替换成一段特殊的文字编码,然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。第二种方法我们假设用-*-1F601-*-
来替代4字节的Emoji,那么具体实现python代码可以参见Stackoverflow上的回答
标签:
原文地址:http://www.cnblogs.com/it-zhoujian/p/4344035.html