码迷,mamicode.com
首页 > 其他好文 > 详细

进行中文关键词搜索时要留意编码

时间:2016-04-21 18:02:03      阅读:150      评论:0      收藏:0      [点我收藏+]

标签:

在进行关键词搜索(Keyword Search)时,要留意编码的问题,因为这牵涉到搜索结果,会影响到取证分析,不可不慎。

 

什么是character set?亦即所谓的"字符集",如Big5及GB,分别是台湾常用的大五码及大陆常用的汉字字符集,其它还有日本的JIS及万国码UTF8等等。而code page即所谓的"代码页",例如codepage 950是繁体中文Big5,codepage 936是简体中文GBK,codepage 65001则是Unicode UTF8。

 

因此,若欲搜索的是中文字,就要挑选合适的编码,如下图所示。也许有人会说,我只要在搜索窗口输入繁体中文关键词,取证软件应该可以帮我顺便把相应的简体中文关键词一并进行搜索吧?答案是"否",取证软件只会忠实地依你所挑选的编码进行处理,它可无法智慧到贴心地猜出你想顺便连简体中文一起搜索。

技术分享

以中文字"说"为例,如下图所示,左半部为繁体中文的编码Hex值,右半部则为简体中文的编码Hex值,是不是全然不同呢?因此,往住在一些牵涉到两岸三地有信件或文件往来的案件中,若要进行关键词搜索,除了繁体中文外,简体中文的关键词也要纳入才行,才不致错失重要线索。

技术分享

进行中文关键词搜索时要留意编码

标签:

原文地址:http://www.cnblogs.com/pieces0310/p/5417840.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!