1. 要求 环境: Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本 实现功能: 1).给定输入文本,获取中文拆分词结果;2).给定输入文本,对该文本按一定规则进行权重打分;如:文本中包含指定关键词的频率越高,分值越高。 2. 实现代码 输出: 原文:亭 ...
分类:
Web程序 时间:
2018-07-24 17:59:49
阅读次数:
193
背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 ...
分类:
其他好文 时间:
2017-12-09 19:34:40
阅读次数:
239
paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。 mmseg4j:最新版已从 https://code.googl ...
分类:
其他好文 时间:
2017-09-03 16:06:37
阅读次数:
244
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。 前者最新版本更新到2012年,所 ...
分类:
其他好文 时间:
2017-02-27 15:48:01
阅读次数:
221
Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词,所以要设置编码,进入tomcat安装目录,使用vi修改confserver.xml配置 增加 URIEncoding="UTF-8" ...
分类:
系统相关 时间:
2016-12-16 16:52:39
阅读次数:
249
1、solr自带的分词器远远满足不了中文分词的需求,经查使用最多的分词器是solr是mmseg4j分词器,具体整合大家可以参考 https://github.com/zhuomingliang/mmseg4j 一定要注意版本 2、将这两个包直接拷贝到tomcat下的solr/lib中 3、在solr ...
分类:
其他好文 时间:
2016-10-01 00:07:23
阅读次数:
201
由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用。当然前提是有elasticsearch的插件。 至于插件怎么开发,这里有一片文章介绍: ...
分类:
其他好文 时间:
2016-08-09 00:06:01
阅读次数:
231
如今做任何一个系统都有搜索,而搜索界有著名的三剑客: solr/elasticsearch/sphinx solr/elasticsearch 为同一类的,都是基于lucene开发的产品,本人也早在几年前用过solr做过类似中关村的产品搜索,faceting功能非常好用. 近期手头上又有个项目要搭建 ...
分类:
数据库 时间:
2016-06-22 20:37:11
阅读次数:
619
配置solr服务器
1.登录solr的官方网站下载最新版本,目前是5.5.0。http://lucene.apache.org/solr/downloads.html
2.linux下载tgz类型,windows系统下载solr-5.5.0.zip
3.解压之后打开文件夹,在此目录下打开cmd命令窗口 bin\solr start 默认是8983端口,使用...
分类:
其他好文 时间:
2016-05-13 03:43:43
阅读次数:
388
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:
其他好文 时间:
2016-05-13 03:36:00
阅读次数:
255