码迷,mamicode.com
首页 > 其他好文 > 详细

令人心烦意乱的字符编码与转码

时间:2018-06-05 10:15:56      阅读:118      评论:0      收藏:0      [点我收藏+]

标签:汉字   unicode编码   代码   nic   bsp   转码   支持中文   国家   utf-8   

ASC-II码:英文1个字节(8 byte),不支持中文;

高大上的中国,扩展出自己的gbk、gb2312、gb2318等字符编码。 

由于各个国家都有自己的编码,于是就需要统一的编码形式用于国际流传,防止乱码,就有了万国码;

万国码:unicode(默认无论中文还是英文都是至少占用2个字节),为了解决占用字节变多,占用空间增倍的情况,又衍生了扩展集utf-8;

UTF-8:原有的ASC-II码中内容仍用1个字节,欧洲国家的字符用2个字节,汉字等其他的字符用3个字节

 


 

dncode: 解码到unicode,encode: 将unicode编码到其他格式(如,utf-8,gbk等)

日常中如果我们想要读取其他国家的代码时,先解码(decode)为万国码,再编码(encode)为我们适用的编码形式读取;

比如:GBK到uff-8,先将GBK(decode)到 unicode,再(encode)到utf-8;

 

令人心烦意乱的字符编码与转码

标签:汉字   unicode编码   代码   nic   bsp   转码   支持中文   国家   utf-8   

原文地址:https://www.cnblogs.com/feigebaqi/p/9138218.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!