标签:
Java Web编码
一、 常见的编码格式
1.ASCLL码
这是美国在19世纪60年代的时候为了建立英文字符和二进制的关系时制定的编码规范,它能表示128个字符,其中包括英文字符、阿拉伯数字、西文字符以及32个控制字符。它用一个字节来表示具体的字符,但它只用后7位来表示字符(2^7=128),最前面的一位统一规定为0。
2.ISO-8859-1
128个字符显然不够用,于是ISO组织在ASCLL码的基础上又制定了一系列标准来扩展ASCLL码,他们是ISO-8859-1至ISO-8859-1,其中ISO-8859-1涵盖了大多数西欧语言字符,所以应用的最广泛。他仍是单位字节码,他总共能表示256个字符。
3.GB2312
GB2312是汉子的国标码,由中华人民共和国政府制定的,简体汉字编码规范。其表示汉字时是双字节编码,而英文字母和ISO 8859-1一致(兼容ISO 8859-1编码),共包含682个符号:B0-F7是汉字区,包含6763个汉字。
4.GBK
又称GBK大字符集,简而言之就是将所有亚洲文字的双字节字符,包括简体中文,繁体中文,日语,韩语等,都使用一种格式编码,这样就能够做到在所有的语言 平台上面兼容。而且,目前GB2312,BIG5所包含的汉字数量也不足,比如朱总理的名字一般就打不出。而GBK大字符集包含的汉字数量GB2312 和BIG5多的多了,足够使用。简而言之,GBK编码能够用来同时表示繁体字和简体字,而GB2312只能表示简体字,因此GBK又是兼容GB2312编 码的。
5.UTF-8
互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种unicode的实现方式。其他实现方式还包括UTF-16和UTF-32,不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。
UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
UTF-8的编码规则很简单,只有两条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
在web中涉及到的编解码图解:
乱码解决办法:
在Servlet中设置编码:
request.setCharacterEncoding("utf-8");
response.setCharacterEncoding("utf-8");
注:必须在request.getParameter方法之前设置,因为post表单提交的参数在第一次调用request.getParameter方法时解码。
2.<script src=”” charset=”utf-8”></script>
3. String s_iso88591 = new String("中".getBytes("UTF-8"),"ISO8859-1"),
标签:
原文地址:http://www.cnblogs.com/gkl2013/p/4594394.html