码迷,mamicode.com
首页 > 其他好文 > 详细

UTF-8和UTF-8无BOM,一个会导致文件中中文变量无法匹配的bug

时间:2017-09-22 15:28:45      阅读:116      评论:0      收藏:0      [点我收藏+]

标签:编码问题   解析xml   bug   bom   blog   使用   分享   资料   读取文件   

 

昨晚用dom4j中的selectSingleNode解析xml,匹配节点。

技术分享

发现匹配不到,但是确实存在该节点技术分享

将regex改为regex1后则可以匹配,也就是说文件中的“阿里旺旺”和程序中的“阿里旺旺”不相等。

技术分享

此时有经验的人都会想到编码问题,于是我尝试各种编码发现都不行,结果最后在此处发现UTF-8还有两种格式

技术分享

尝试讲文件换成UTF-8无BOM格式则匹配成功

技术分享

查阅资料发现BOM其实是一个编码标识符,用来标识该文件的编码的,因此windows下程序读取文件的时候会有编码问题,因此在需要读取中文并且做匹配的时候,请使用UTF-8无BOM格式编码的文件。

 

UTF-8和UTF-8无BOM,一个会导致文件中中文变量无法匹配的bug

标签:编码问题   解析xml   bug   bom   blog   使用   分享   资料   读取文件   

原文地址:http://www.cnblogs.com/liuxiaopang/p/7574691.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!