原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4...
分类:
编程语言 时间:
2015-06-26 14:55:47
阅读次数:
152
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4jmmseg4j的下载地址:https://code.google.com/p/mmseg4j/通过以下几步就可以把mmseg4j分词器集成到solr中:1、解压mmseg4j-1.9.1.zip,把dist...
分类:
其他好文 时间:
2015-06-16 19:01:59
阅读次数:
128
演示使用solr管理后台,以mysql为数据源,批量建索引的方法测试于:Solr 4.5.1, mmseg4j 1.9.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7配置数据源[root@devnote ~]# cd /root/solr-4.5.1/exam...
分类:
数据库 时间:
2015-06-16 18:31:46
阅读次数:
205
刚接触Lucene2.x和Solr2.x的时候,谈到中文分词,会让我立即想到用庖丁中文分词,庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库,而且是纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本而出名。 几年过去了,Lucene和Solr...
分类:
其他好文 时间:
2015-05-29 11:40:57
阅读次数:
215
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smart...
分类:
其他好文 时间:
2015-05-12 11:48:11
阅读次数:
295
机器上已安装 : Tomcat 7 jdk1.7
访问 http://www.apache.org/dyn/closer.cgi/lucene/solr , 在这个网址里选择一个路径 , 下载 solr 3.5 的版本
1、将将解压后的solr中的lucene\apache-solr-3.5.0\example\solr目录下的文件拷贝到要作为服务器的位置,我是放在这个路径下的:...
分类:
其他好文 时间:
2015-04-14 16:52:40
阅读次数:
174
可能需要连接上篇《Solr与tomcat整合》
1.从http://code.google.com/p/mmseg4j/ 下载mmseg4j
2.从下载的文件中把mmseg4j-all-1.8.4.jar和mmseg4j_solr-1.8.4.jar拷贝到tomcat下WEB-INF下的lib目录下。将data里的.dic文件拷贝到solrproject->home 下的dic...
分类:
其他好文 时间:
2015-01-29 09:39:49
阅读次数:
153
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。
1.首先下载对应的jar包。
版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:
其他好文 时间:
2015-01-25 11:12:29
阅读次数:
172
到了分词这部,相信你已经把solr整合到tomcat里了,没有的话看我前面的文章有讲到。我这里使用的是mmseg4j-1.9.1版本的。http://down.51cto.com/data/1275975这个是下载zip的链接。解压后把mmseg4j-1.9.1 文件夹下dist下的三个jar包拷贝...
分类:
其他好文 时间:
2015-01-16 18:25:37
阅读次数:
235