在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...
分类:
其他好文 时间:
2016-05-12 23:44:31
阅读次数:
225
通常情况下,我们根据整个字段来索引数据,字段最长时,也不过十个字;但是还有一种情况,如果我们索引的是一篇文章呢?这时候如何处理这个字段,分词器很好的解决了这个问题。...
分类:
其他好文 时间:
2016-05-12 12:34:07
阅读次数:
161
mmseg4j是一个很好的中文分词器,solr与mmseg4j的整合也非常简单。如下: 第一步:下载mmseg4j的jar包,网上搜索一下有很多下载地址,如下是csdn上的一个连接:http://download.csdn.net/detail/nrs12345/6986585 第二步:将下载的mm ...
分类:
其他好文 时间:
2016-04-25 22:32:36
阅读次数:
267
IK分词器相对于mmseg4J来说词典内容更加丰富,但是没有mmseg4J灵活,后者可以自定义自己的词语库。IK分词器的配置过程和mmseg4J一样简单,其过程如下: 1.引入IKAnalyzer.jar包到solr应用程序的WEB-INF/lib/目录下 2.打开solr的home/conf目录下 ...
分类:
其他好文 时间:
2016-04-16 18:39:53
阅读次数:
124
Solr与mmseg4j部署 Solr与mmseg4j部署 一. solr安装 1. 下载solr http://www.apache.org/dyn/closer.cgi/lucene/solr/ 2. apache-solr-1.4.1.zip解压,复制dist/apache-solr-1.4. ...
分类:
其他好文 时间:
2016-04-16 16:59:06
阅读次数:
218
这个本质上还是Lucene的analyzerchain,Solr的只是方便了使用:通过配置xml文件就可以把tokenizer和filter链接起来。我们有时候需要在自己代码里使用这个chain。本文记录怎么做。先看整体代码(groovy):classMyAnalyzer{
defanalyzer=newAnalyzer(){
@Override
protectedToke..
分类:
其他好文 时间:
2016-04-07 10:57:18
阅读次数:
172
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:13:24
阅读次数:
1565
使用标准分词器,如图: 使用word分词器 下载word-1.3.jar,注意solr的版本和word分词的版本 将文件word-1.3.jar拷贝至文件夹C:\workspace\Tomcat7.0\webapps\solr\WEB-INF\lib\下 修改如下文件C:\workspace\sol...
分类:
其他好文 时间:
2015-12-16 00:09:18
阅读次数:
322
分类:程序语言|标签:C|日期: 2015-05-01 02:00:24 MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实...
分类:
Web程序 时间:
2015-12-08 01:59:11
阅读次数:
1234
环境:Jdk 1.7????Solr 5.3.0????Tomcat 7????mmseg4j-solr-2.3.0 1、Solr环境搭建 1.解压solr 5.3.0 2.新建solr_home,将解压文件中的 server/solr 文件夹的复制到solr_home 3.配置solr_home。在sol...
分类:
其他好文 时间:
2015-10-24 17:33:57
阅读次数:
1468