搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-07-08 23:15:59
阅读次数:
231
python乱码处理是一个比较头的话题。。。过程大概是这样子的。。。。字符串在python的内部表示为unicode,因此,在做编码转换的时,通常需要一unicode作为中间编码,即先把其他编码转换通过decode成unicode,再从unicode编码转化成另一种编码所以在编码转换的时候一定要先搞...
分类:
编程语言 时间:
2014-07-08 23:12:01
阅读次数:
267
def FirstNotRepeatingChar(string):
hashStr = [0] * 256
for c in string:
hashStr[ord(c)] += 1
for c in string:
if hashStr[ord(c)] == 1:
return c
这里说下ord, 可以作为atoi来用,功能是若给定的参数是一个长度为1的字符串,那么若...
分类:
其他好文 时间:
2014-07-08 16:15:10
阅读次数:
183
在程序员网站上经常看到一个段子(满满的都是泪啊)
手持两把锟斤拷,口中疾呼烫烫烫。
解释一下为什么会是这两个东西不是别的= =:
棍斤拷乱码:
源于GBK字符集和Unicode字符集之间的转换问题。Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD
REPLACEMENT CHAR...
分类:
其他好文 时间:
2014-07-08 13:25:05
阅读次数:
196
1.config.properties文件写不进中文,写进去都变成了unicode,解决办法是右键该文件——Properties——Resource——Text file encoding ,选other,我将other改为了UTF-8,这样可以写进去中文,但是读取时又变成乱码了。
2,解决读取乱码:
String content = new String(PropertiesConfig.getProperty("mail.content").getBytes("ISO8859-1"), "utf-8"...
分类:
编程语言 时间:
2014-07-08 13:23:03
阅读次数:
160
UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种...
分类:
其他好文 时间:
2014-07-07 00:31:25
阅读次数:
305
1、前端开发仓库比较基础的前端资源,包含html css javascript及常用在线工具。属于国内个人(诨名:小叉)的前端资源整理,是github上的开源项目。一些常见效果较为实用,如jQuery展示类插件,Unicode在线编码,代码在线压缩等。前端开发仓库
分类:
其他好文 时间:
2014-07-06 23:12:34
阅读次数:
199
Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF...
分类:
其他好文 时间:
2014-07-06 22:53:28
阅读次数:
285
0x00废话一堆虽说要尊重开发者,但是这个东西,流氓软件。练手用P.S.我不是死宅0x01桃‘’色兑换码看到这个,我还以为里面有什么儿童不宜的东西,兴奋了……APKIDE搜索没有相关“桃色”无果,转unicode\u6843\u8272。就是这里\u5151\u6362\u6210\u529f\uf...
分类:
其他好文 时间:
2014-07-06 13:28:55
阅读次数:
189
场景:
1.本以为vs设置了源文件的UTF8编码,代码中出现的中文字符串就一定是utf8编码了,可惜不是,如果源码中出现了中文字符串,会在内存中转码为ANSI编码。
Unicode(UTF8带签名) 代码页(65001),从菜单->文件->高级保存选项 设置.
例子:
char path[] = "resources\\中文\\";
for(int i = 0; i < str...
分类:
编程语言 时间:
2014-07-04 08:29:25
阅读次数:
534