标签:
UTF-16是Unicode字符编码五层次模型的第三层,字符编码表(Character Encoding Form,)的一种实现方式。即把Unicode的字符集的抽象码位
映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。
UTF-16比起UTF-8,好处在于大部分字符都以固定长度的字节 (2字节) 储存,但UTF-16却无法兼容于ASCII编码。
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码;
GBK是GB2312的扩展,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名。
UTF-8和GBK的区别:
字符均使用双字节来表示,只不过区分中文,将其最高位都定成1.
至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文
使用24位(三个字节)来编码。对于英文字符使用较多的论坛则用UTF-8节省空间。
GBK包括全部中文字符;UTF-8则包含全世界所有国家需要用到的字符。
UTF-8编码的文字可以在各国各种支持UTF-8字符集的浏览器上显示。
大家都使用过Word,Word在打开文本文件的时候,如果其检测不是系统默认编码,就会让用户选择,并且推荐一种编码给用户(有时候不一定对,因为猜,就有几率不对),让用户自己决定要用什么编码显示.
CSV文件:CSV(comma seperated value)即逗号分隔符,用记事本打开的话hi"a","b","c"这种格式。
好处:可以轻松的导入表格和数据库中,一行代表一条数据,这样就可以批量的导入导出数据库中的值。
半角逗号 ,
全角逗号 ,
二者外观差不多,但是,半角逗号只占半个汉字的位置,而全角逗号占一个汉字的位置,半角逗号用在英文里面。
假如你有一个TXT文件,并且各项之间以逗号分隔,那么你直接将扩展名改为CSV文件,以EXCEL打开,以逗号分隔的每一列就自动到了EXCEL的每一列中。
你也可以用EXCEL将你的内容存成CSV文件格式。
标签:
原文地址:http://www.cnblogs.com/xh0102/p/5244190.html