码迷,mamicode.com
首页 > 其他好文 > 详细

关于编码

时间:2016-05-12 15:52:26      阅读:175      评论:0      收藏:0      [点我收藏+]

标签:

字库是输出设备的一个组成部分。

Windows首先将文本数据转换到它内部使用的编码格式:Unicode,然后按照文本的Unicode去字体文件中查找字体图像,最后将图像显示到窗 口上。

  • 步骤1:文字首先以某种编码保存在文件中。
  • 步骤2:Windows将文件中的文字编码映射到Unicode。
  • 步骤3:Windows按照Unicode在字体文件中查找字体图像,画到窗口上。
记事本支持4种编码格式:ANSI、Unicode、Unicode big endian、UTF-8。更准确的名称应该是UTF-16LE(Little Endian)、UTF-16BE(Big Endian)和UTF-8,它们是基于Unicode的不同编码方案。

记事本默认的保存编码方式为ANSI。打开编码方式会根据文本内容有所不同。

打开记事本,输入“联”,保存(默认以ANSI保存)。再打开时,会以UTF-8打开,显示乱码。

不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、Big5、Shift_JIS 等各自的编码标准。这些使用 1 至 4 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。 不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种语言的文字,存储在同一段 ANSI 编码的文本中。


代码页(Code Page)代码页规定了适用于特定地区的字符集合和这些字符的编码。可以将代码页理解为字符和字节数据的映射表。

http://biancheng.dnbcw.info/c/54822.html

http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html#_3.3.UTF-16


GBK采用双字节表示,总体编码范围为8140-FEFE,首字节在81-FE 之间,尾字节在40-FE 之间,剔除 xx7F一条线。总计23940 个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号883 个。


关于编码

标签:

原文地址:http://blog.csdn.net/huang_yx005/article/details/51362630

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!