码迷,mamicode.com
首页 > 其他好文 > 详细

程序中的字符编码

时间:2016-08-27 23:23:39      阅读:141      评论:0      收藏:0      [点我收藏+]

标签:

     每个程序员都经历过字符乱码的困扰,经过一通折腾后,总算显示正常,但之后似乎还是时不时碰到乱码的问题。

     当我们打开notepad或者ultraedit后,这些工具都会自带编码转换的选项,里面各种字符编码格式十分复杂,往往一头雾水。

     这里不谈具体编码格式问题,这是一个很学究的话题。其实对于软件开发而言,除非专门做字符编码相关的软件,否则我们一般遇到的最多的也就那么几种字符编码,如utf和gbk。这里要说的是,当我们要考虑字符编码时,理解一个基本的场景模型,然后根据这个模型,在遇到乱码问题后就可以定位大致方向。

     下面是这个基本模型的示意图:

 技术分享

1) Text source: 程序读取的外部数据容器

     比如读取的外部配置文件、数据库、网络数据流甚至标准输入等。

2) pp context: 程序代码的当前上下文

     比如图中列举的程序中字符串变量的值、断点调试时变量显示的值等。

3)Text destination: 程序输出的外部数据容器

     比如保存到输出到外部的文件、数据库甚至标准输出等。

     这3个部分都有一个字符编码类型,举个列子:程序上下文环境是gbk的字符编码,读取一个utf的配置文件,然后写到设置了gbk字符编码的数据库中,结果会怎样?

     Utf的配置文件被读取后,二进制内容不变,但解释不再以utf编码格式,而是gbk编码格式,所以视觉上会造成乱码。一般程序本身不会改变读取字符的二进制数据(少数情况会对特殊字符进行处理、比如‘\r’字符),之后存储到数据库中,由于数据库的字符编码是gbk,所以视觉上仍然是乱码,但如果数据库编码是utf的,则乱码会少很多(之前程序中改变了部分字符的二进制)或者完全没有乱码。

 

程序中的字符编码

标签:

原文地址:http://www.cnblogs.com/PattonCCNU/p/5813992.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!