码迷,mamicode.com
首页 > 其他好文 > 详细

编码方式小解

时间:2016-11-11 23:03:28      阅读:186      评论:0      收藏:0      [点我收藏+]

标签:ati   eric   美国   编码方式   文化   可靠性   数据转换   地区性   查表   

ASCII

简介: 最早出现的编码方式,全称:American Standard Code for Information Interchange,美国信息互换标准代码

内容: 大小写字母、数字、标点符号、空格 用连续的字节状态表示(不包括扩展字符集)

长度: 1个字节 8位

数目: 最初0~127 随着计算机的普及扩展到255,后面的被称为“扩展字符集”,终于达到阈值,前128位不变,后面的是扩展集,可改变

 

GB2312

简介: 国人对ASCII的扩展字符集,前128未不变,两个大于127的字符连在一起时表示一个汉字,前面一个字节(高字节)从0xA1到0xF7,后面一个字节(低字节)从oxA1到oxFE,

组合成大约7000个简体汉字,也加入数字符号,罗马希腊字母,日文假名等,连原有的字母、数字、标点、空格也重新编成两个字节长,这就是“全角字符”,127以下的叫“半角”字符

内容: 原有的基础上加上部分汉字,数学符号,罗马希腊字母,日文假名

长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)

 

GBK,GB18030

简介: GBK是对GBK2312的改进,GB18030是对GBK的改进

内容: 更多的汉字,繁体字,符号,GB18030还包括部分少数民族文字

长度: 前128 一个字节 8位(半角),后面 两个字节 16位(全角)

 

UNICODE

简介: 为应对各国都弄出的五花八门的编码方式导致乱了套,ISO废了所以的地区性编码方案,搞出一个包括地球上所有文化,字母和符号的编码,全称“Universal Multiple-Octet Coded Character Set”,简称UCS

内容: 地球上所有文化,字母和符号的编码

长度: 全部两个字节 16位,不过前128位的前八位都是0!

与GBK的冲突:在制订时没有考虑与任何一种现有的编码方案保持兼容,这使得 GBK 与UNICODE 在汉字的内码编排上完全是不一样的,没有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码进行转换,这种转换必须通过查表来进行

 

UTF-8, UTF-16

简介: 为了解决UNICODE在网络上传输的问题,面向传输的UTF(UCS Transfer Format)标准出现,UTF-8每次8位传输数据,UTF16每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要通过一些算法和规则来转换。

 

国内依旧有人使用GBK,这最初是出于空间的考虑,UNICODE体积较大,但随着电脑空间的扩大已经无关紧要,建议统一使用UTF-8!

 

Base64

简介: 某些系统只能使用ASCII,Base64就是用来将非ASCII字符的数据转换成ASCII字符的一种方法,例如图片、文档,特别适合在http,mime协议下快速传输数据。

 

编码方式小解

标签:ati   eric   美国   编码方式   文化   可靠性   数据转换   地区性   查表   

原文地址:http://www.cnblogs.com/yanze/p/6055505.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!