码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
lucene(三)分词
分词lucene在查询和建立索引文件的过程中,都是基于语素单元来操作的。而分词就是将查询语句,转换为一个个单独的语素单元。 主要通过Analyzer类解析实现,Analyzer通过调用TokenStream来实现。 分词的主要架构:Analyzer 常用的有: SimpleAnalyzer: 将查询语句转换为语素单元时完成转换为小写的操作。 StandardAnalyzer :最为...
分类:Web程序   时间:2015-06-03 11:49:11    阅读次数:153
Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器(Tokenizer)、词元过滤器(Token Filter)、 词干化(Stemming)
文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理。 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理。文本处理对搜索引擎的搜索结果有着重要的影响,特别是对如召回率的影响。 文本分析是将一个文本域的值转化为一个词序列。词是Lucene实际索....
分类:其他好文   时间:2015-06-02 13:03:24    阅读次数:3739
数学之美札记:谈谈中文分词
之前的札记中,提到了使用统计语言模型进行自然语言的处理,而这些语言模型是建立在词的基础上,因为词是表达语义的最小单位。西方的拼音语言,词之间有明确的分界符,统计和使用语言模型处理相对简单。而对...
分类:其他好文   时间:2015-06-02 11:31:34    阅读次数:424
Redhat下R安装Rwordseg包
常用来做中文文本分析的一个包是Rwordseg,虽然很久没见更新了,但是在做中文分词时,它还是一个很好地选择。Rwordseg包的安装很容易出错,不管是在windows还是在Linux的系统下。之前在windows系统下装过一次,各种纠结最后搞定,最近转战Redhat又重新遭遇各种新问题。还是把过程记录下来,留作以后查看。     Rwordseg依赖包rJava,但是安装rJava包也是一个比...
分类:其他好文   时间:2015-06-01 22:40:43    阅读次数:210
Thinkphp 3.2 中词分词 加权搜索
原文地址:http://www.cnblogs.com/kekukele/p/4544349.html 前段时间,利用业余时间做了一个磁力搜索的网站Btdog,其中使用到了简单的中文分词与加权搜索,在这里分享给大家,供大家参考。 在我的网站中,中文分词使用的是SCWS分词系统,这个分词系统提供P.....
分类:Web程序   时间:2015-06-01 18:42:50    阅读次数:179
MySql性能调优(六)InnoDB引擎和Myisam引擎的性能对比
对于这两种存储引擎的选择,要根据项目的应用特点来权衡,而对于复杂的应用系统,也可以根据实际情况来选择多种存储引擎的组合。不过这种方法不建议采取。      MyISAM支持全文索引,这是一种基于分词创建的索引,支持一些比较复杂的查询,但不是事务安全的,而且不支持外键。每张MyISAM表存放在3个文件中:frm文件存放表格定义;数据文件是MYD;索引文件是MYI;对于MyISAM表,可以手工或者自...
分类:数据库   时间:2015-06-01 09:47:50    阅读次数:217
Solr查询query效果对比
q条件默认分词(org.apache.solr.analysis.TokenizerChain) "parsedquery"IK分词(org.wltea.analyzer.lucene.IKAnalyzer) "parsedquery"title:李大霄title:招商银行"title:李 t...
分类:其他好文   时间:2015-05-29 20:16:07    阅读次数:191
Solr 使用自定义 Query Parser(短语查询,精准查询)
原文出处:http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html由于 Solr 默认的 Query Parser 生成的 Query 一般是 “短语查询”,导致只有很精确的结果才被搜索出来。大部分时候我们要分词后的 Boole...
分类:其他好文   时间:2015-05-29 20:02:33    阅读次数:189
利用word分词提供的文本相似度算法来辅助记忆英语单词
本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词 本文使用的英语单词囊括了几乎所有的考纲词汇共18123词: /** ?*?考纲词汇 ?*?@return ?*/ public?static?Set<Word>?getSyllabusVoca...
分类:编程语言   时间:2015-05-29 14:09:38    阅读次数:199
solr分词一:mmseg4j
刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。 几年过去了,Lucene和Solr...
分类:其他好文   时间:2015-05-29 11:40:57    阅读次数:215
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!