码迷,mamicode.com
首页 >  
搜索关键字:mmseg4j    ( 34个结果
Lucene4:获取中文分词结果,根据文本计算boost
1. 要求 环境: Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本 实现功能: 1).给定输入文本,获取中文拆分词结果;2).给定输入文本,对该文本按一定规则进行权重打分;如:文本中包含指定关键词的频率越高,分值越高。 2. 实现代码 输出: 原文:亭 ...
分类:Web程序   时间:2018-07-24 17:59:49    阅读次数:193
ansj --词性说明
背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 ...
分类:其他好文   时间:2017-12-09 19:34:40    阅读次数:239
第三方中文分词器整理
paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。 mmseg4j:最新版已从 https://code.googl ...
分类:其他好文   时间:2017-09-03 16:06:37    阅读次数:244
solr中文分词
solr分词,就是solr配置的字段类型根据注册的分词文件分词断句的行为。 例如:你们村村通工程知道吗? 不分词的时候会是这样: 分词的话,我们把“村村通工程 ”名词化,分词结果为: 说说中文分词 中文分词器有多中,常用的有 IKAnalyzer、 mmseg4j。 前者最新版本更新到2012年,所 ...
分类:其他好文   时间:2017-02-27 15:48:01    阅读次数:221
Linux下安装使用Solr
Linux下安装使用Solr 1、首先下载Solr、mmseg4j分词包、tomcat并解压,这用google、百度都可以搜索得到下载地址。 2、因为要使用到中文分词,所以要设置编码,进入tomcat安装目录,使用vi修改confserver.xml配置 增加 URIEncoding="UTF-8" ...
分类:系统相关   时间:2016-12-16 16:52:39    阅读次数:249
【solr】solr5.0整合中文分词器
1、solr自带的分词器远远满足不了中文分词的需求,经查使用最多的分词器是solr是mmseg4j分词器,具体整合大家可以参考 https://github.com/zhuomingliang/mmseg4j 一定要注意版本 2、将这两个包直接拷贝到tomcat下的solr/lib中 3、在solr ...
分类:其他好文   时间:2016-10-01 00:07:23    阅读次数:201
Elasticsearch 中文分词(elasticsearch-analysis-ik) 安装
由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使用。当然前提是有elasticsearch的插件。 至于插件怎么开发,这里有一片文章介绍: ...
分类:其他好文   时间:2016-08-09 00:06:01    阅读次数:231
Solr6 +mmseg4j+IK-Analyzer + SQLserver +DIH 完全配置
如今做任何一个系统都有搜索,而搜索界有著名的三剑客: solr/elasticsearch/sphinx solr/elasticsearch 为同一类的,都是基于lucene开发的产品,本人也早在几年前用过solr做过类似中关村的产品搜索,faceting功能非常好用. 近期手头上又有个项目要搭建 ...
分类:数据库   时间:2016-06-22 20:37:11    阅读次数:619
solr-5.4.1 和 mmseg4j-2.3.0版本的配置
配置solr服务器   1.登录solr的官方网站下载最新版本,目前是5.5.0。http://lucene.apache.org/solr/downloads.html  2.linux下载tgz类型,windows系统下载solr-5.5.0.zip  3.解压之后打开文件夹,在此目录下打开cmd命令窗口   bin\solr start  默认是8983端口,使用...
分类:其他好文   时间:2016-05-13 03:43:43    阅读次数:388
[Nutch]Solr配置自定义的中文分词器mmseg4j
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:其他好文   时间:2016-05-13 03:36:00    阅读次数:255
34条   1 2 3 4 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!