最近在项目中部署结巴分词的时候遇到了乱码情况,明明是中文,确显示不出来或者显示乱码。解决方案如下。利用isinstance 来判断是否已经编码,s是出问题的字符串。unicode是没编码isinstance(s, unicode): 用print 打印,如果结果是true说明没编码。如果是false说明编码了,但是编的码不对print isinstance(s,unicode)如果没编码,加入编码...
分类:
编程语言 时间:
2014-12-09 15:48:34
阅读次数:
177
--用sys用户登录,解锁ctxsys用户alter user ctxsys account unlock;--授权给对应用户grant execute on ctx_ddl to yw;--用yw用户登录--创建分词,分词名为my_lexerexec ctx_ddl.create_preferen...
分类:
数据库 时间:
2014-12-08 19:32:25
阅读次数:
222
??
1 Lucene卡发包结构分析
包名
功能
org.apache.lucene.analysis
Analysis提供自带的各种Analyzer
org.apache.lucene.collation
包含collationKey...
RT,NLP第一次实验,96人民日报语料分词+unigram和bigram词频统计。
一开始写了个RMM,用了各种序列排序,然后分词的算法用了简单的前缀暴力匹配,果然跑语料的时间根本无法估计、、
果断重写、、又找了一个blog,发现MM算法 一开始是想得太复杂了,导致循环太多,后来修改成简单版本的即可正常时间运行、
python代码:
# -*- coding: cp936 -*-
imp...
分类:
其他好文 时间:
2014-12-06 22:54:40
阅读次数:
250
李克华云计算高级群: 292870151 交流:Hadoop、NoSQL、分布式、lucene、solr、nutch 在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: ...
分类:
其他好文 时间:
2014-12-05 17:02:09
阅读次数:
148
考虑典型的文本分类,一个经典的方法就是 分词,扫描所有特征,建立特征词典
重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
学习参数 w
存储学习参数 w , 存储特征映射词典
预测截断装载学习参数w,装载特征映射词典
扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到...
分类:
其他好文 时间:
2014-12-04 17:47:41
阅读次数:
327
sphinx是一个专业的开源搜索引擎,但不支持中文。coreseek相当于sphinx的中文版,使用了mmseg3来支持中文分词。虽然coreseek里面的shpinx版本很低,目前稳定版的coreseek 3.2.14自带的shpinx只有0.9.9,但还用就行。很多教程中,先安装shpinx的最新版,再安装coreseek,这个,不知道是怎么传的,反正这么安装是完全没必要的。...
分类:
其他好文 时间:
2014-12-04 12:16:17
阅读次数:
181
以下这几种lucene内置查询对象,不过在实际的项目开发中,这种查询方式应用的不多。一般用QueryParser去获取查询对象。因为QueryParser内部基本实现了所有的内置查询对象。
这是最常见的QueryParse的写法:
这是对term(最小分词单元)的查询:
多值查询(BooleanQuery)可以用来连接多个子查询:
前缀搜索(PrefixQuery),注意也是对词的前缀搜索:
通配符搜索(WildcardQuery):...
分类:
Web程序 时间:
2014-12-03 21:21:41
阅读次数:
207
1.准备环境sudoapt-getinstallgccg++cpplibncurses5-devmakelibssl-devsysv-rc-confbisonlibbz2-devlibcurl3-openssl-devlibjpeg62-devlibpng12-devlibxpm-devlibt1-devlibfreetype6-devlibgmp3-devlibmcrypt-devlibmhash-devlibpspell-devlibsnmp9-devlibmm-devlibtidy-devlib..
分类:
数据库 时间:
2014-12-03 19:32:30
阅读次数:
492
上次在使用Lucene建立索引时使用的时自带的StandAnalyzer分词器,而这个分词器在对中文进行分词时只是机械的按字进行划分,因此使用它lucene就不能很好的对中文索引,也就不能实现对中文关键词的检索了,因此其实上次的实践只能对英文进行。
为了解决这个问题,可以使用IKAnalyzer,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。它支持中英文等分词...
分类:
Web程序 时间:
2014-12-03 19:18:59
阅读次数:
299