码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
python 中文乱码问题解决方案
最近在项目中部署结巴分词的时候遇到了乱码情况,明明是中文,确显示不出来或者显示乱码。解决方案如下。利用isinstance 来判断是否已经编码,s是出问题的字符串。unicode是没编码isinstance(s, unicode): 用print 打印,如果结果是true说明没编码。如果是false说明编码了,但是编的码不对print isinstance(s,unicode)如果没编码,加入编码...
分类:编程语言   时间:2014-12-09 15:48:34    阅读次数:177
Oracle 全文索引相关命令
--用sys用户登录,解锁ctxsys用户alter user ctxsys account unlock;--授权给对应用户grant execute on ctx_ddl to yw;--用yw用户登录--创建分词,分词名为my_lexerexec ctx_ddl.create_preferen...
分类:数据库   时间:2014-12-08 19:32:25    阅读次数:222
3.Lucene3.x API分析,Director 索引操作目录,Document,分词器
?? 1  Lucene卡发包结构分析 包名 功能 org.apache.lucene.analysis Analysis提供自带的各种Analyzer org.apache.lucene.collation 包含collationKey...
分类:Windows程序   时间:2014-12-08 00:55:24    阅读次数:390
最大正向匹配分词MM
RT,NLP第一次实验,96人民日报语料分词+unigram和bigram词频统计。 一开始写了个RMM,用了各种序列排序,然后分词的算法用了简单的前缀暴力匹配,果然跑语料的时间根本无法估计、、 果断重写、、又找了一个blog,发现MM算法 一开始是想得太复杂了,导致循环太多,后来修改成简单版本的即可正常时间运行、 python代码: # -*- coding: cp936 -*- imp...
分类:其他好文   时间:2014-12-06 22:54:40    阅读次数:250
在Solr中配置中文分词IKAnalyzer
李克华云计算高级群: 292870151 交流:Hadoop、NoSQL、分布式、lucene、solr、nutch 在Solr中配置中文分词IKAnalyzer1、在配置文件schema.xml(位置{SOLR_HOME}/config/下),配置信息如下: ...
分类:其他好文   时间:2014-12-05 17:02:09    阅读次数:148
Feature hashing相关 - 1
考虑典型的文本分类,一个经典的方法就是 分词,扫描所有特征,建立特征词典 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量 学习参数 w 存储学习参数 w , 存储特征映射词典 预测截断装载学习参数w,装载特征映射词典 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到...
分类:其他好文   时间:2014-12-04 17:47:41    阅读次数:327
shpinx / coreseek 安装配置教程
sphinx是一个专业的开源搜索引擎,但不支持中文。coreseek相当于sphinx的中文版,使用了mmseg3来支持中文分词。虽然coreseek里面的shpinx版本很低,目前稳定版的coreseek 3.2.14自带的shpinx只有0.9.9,但还用就行。很多教程中,先安装shpinx的最新版,再安装coreseek,这个,不知道是怎么传的,反正这么安装是完全没必要的。...
分类:其他好文   时间:2014-12-04 12:16:17    阅读次数:181
Lucene中内置常用Query对象
以下这几种lucene内置查询对象,不过在实际的项目开发中,这种查询方式应用的不多。一般用QueryParser去获取查询对象。因为QueryParser内部基本实现了所有的内置查询对象。 这是最常见的QueryParse的写法: 这是对term(最小分词单元)的查询: 多值查询(BooleanQuery)可以用来连接多个子查询: 前缀搜索(PrefixQuery),注意也是对词的前缀搜索: 通配符搜索(WildcardQuery):...
分类:Web程序   时间:2014-12-03 21:21:41    阅读次数:207
ubunutu 源码lamp mysql5.5 PHP5.4 +swsc中文分词
1.准备环境sudoapt-getinstallgccg++cpplibncurses5-devmakelibssl-devsysv-rc-confbisonlibbz2-devlibcurl3-openssl-devlibjpeg62-devlibpng12-devlibxpm-devlibt1-devlibfreetype6-devlibgmp3-devlibmcrypt-devlibmhash-devlibpspell-devlibsnmp9-devlibmm-devlibtidy-devlib..
分类:数据库   时间:2014-12-03 19:32:30    阅读次数:492
使用Lucene实现多个文档关键词检索demo(二)
上次在使用Lucene建立索引时使用的时自带的StandAnalyzer分词器,而这个分词器在对中文进行分词时只是机械的按字进行划分,因此使用它lucene就不能很好的对中文索引,也就不能实现对中文关键词的检索了,因此其实上次的实践只能对英文进行。 为了解决这个问题,可以使用IKAnalyzer,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。它支持中英文等分词...
分类:Web程序   时间:2014-12-03 19:18:59    阅读次数:299
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!