标签:
java char类型是16位的(UTF-16编码),它不能满足所有unicode字符的编码,java代码点是指某个字符对应的unicode编码值,如A字符的unicode代码点就为u+0041。代码点的数量其实也就是unicode字符的数量。
每个char变量其实就是一个代码单元,一个字符一般对应一个代码单元或者多个代码单元。
字符串的length方法返回的是代码单元的数量(注意,不是字符数量),而codePointCount方法返回则是代码点的数量,也就是unicode字符数量。
在编译java源代码的时候,javac的-encoding选项可以指定源代码字符文件使用的编码,因为如果不加这个选择,javac会选择一种默认的编码假定为源文件的编码,但是如果假定的编码和文件实际编码不匹配则不能编译通过。在很多代码场景下,和编码相关的操作都牵扯默认编码,所以不要依赖默认编码,在代码中指明一个流的编码总是对的。
标签:
原文地址:http://www.cnblogs.com/qscoding/p/4802310.html