码迷,mamicode.com
首页 > 其他好文 > 详细

字符编码介绍

时间:2015-07-26 22:36:44      阅读:215      评论:0      收藏:0      [点我收藏+]

标签:

 

参考:http://www.cnblogs.com/lizhenghn/p/3690406.html

 

GB 2312     1981年5月发布    

1、GB:国标拼音首字母;

2、共收入汉字6763个和非汉字图形字符682个;

 

GBK           1995年12月发布

1、    GBK:"国标"、"扩展"拼音首字母;

2、    GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准(ISO 10646.1等同于GB 13000.1);

3、    共收录了21003个汉字,包含了GB2312中的全部字符,包含了BIG5编码中的所有汉字;

 

GB18030     GB18030-2000,于2000年发布

                   GB18030-2005,于2005年发布    

1、    向下兼容 GBK 和 GB2312 标准;

2、    GB18030 编码是一二四字节变长编码;

3、    收入汉字70000余个,支持藏、蒙古、傣、彝、朝鲜、维吾尔文;

 

Unicode     1994年发布    

  1. Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案;

 

UTF-8        Ken Thompson于1992年创建    

1、    Unicode Transformation Format-8bit;

2、    是在互联网上使用最广的一种unicode的实现方式;

3、    UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,因此可以节省存储空间;

4、    英文使用8位(即一个字节),中文使用24为(三个字节)来编码;

  

  • 总结
  1. ASCII用于表示英文字符,是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符;
  2. GB2312简体中文的编码格式, 只支持6763个常用汉字;
  3. GBK是GB2312基础上扩容后兼容GB2312的标准,包含全部中文字符,支持简体中文及繁体中文;
  4. GBK通用性比UTF8差,不过UTF8占用的数据库比GBK大;
  5. GB2312、GBK到GB18030都属于双字节字符集 (DBCS);
  6. 从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0;

 

字符编码介绍

标签:

原文地址:http://www.cnblogs.com/ant-wjf/p/4678772.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!