标签:字符编码
经常听别人说编码方式不一致是导致乱码产生的原因。这是标准答案,但不一定是你想要的答案,因为不理解啊!那就说的再明白一点。
你知道一个中文字符在网络上是怎么传输的吗?比如“中国”这两个字,猜一下也知道在传输过程中肯定不是“中国”这样的字符,而是字节,也就是0|1这样的二进制数。
你需要把“中国”通过某种编码方式转换成二进制数进行传输,而接收方在收到二进制数之后再根据相应的编码方式解码成“中国”。问题就出在双方使用的编码方式是否一致上面。
编码方式是什么东西?听说过字符集吧?常见的字符集有UTF-8,GBK,GB2312,ISO8859-1之类的。每种字符集都会在它所包含的字符和字节之间建立映射关系。而一个字节就是8个二进制位。所以你也可以把字符集看成是字符和二进制数进行转换的公式或映射表。
“中国”用GBK转成二进制数是11010110110100001011100111111010(在GBK中每个中文字符对应两个字节,每个字节对应8位二进制数,因此这串数字应该是32位,对应“中国”这两个中文字符,不信你可以数数,呵呵。),再把这一串二进制数用UTF-8转换成字符试试,肯定不是原来的“中国”了(因为在UTF-8字符集中,一个字符对应三个字节,所以用脚趾头都能猜到肯定找不回“中国”了)。这就是我所理解的中文乱码产生的原因。
版权声明:本文为博主原创文章,未经博主允许不得转载。
标签:字符编码
原文地址:http://blog.csdn.net/keketrtr/article/details/47123819