码迷,mamicode.com
首页 >  
搜索关键字:分词器    ( 431个结果
Lucene实现自定义分词器(同义词查询与高亮)
今天我们实现一个简单的分词器,仅仅做演示使用功能如下: 1、分词按照空格、横杠、点号进行拆分; 2、实现hi与hello的同义词查询功能; 3、实现hi与hello同义词的高亮显示; MyAnalyzer实现代码: public class MyAnalyzer extends Analyzer { private int analyzerType; public MyAna...
分类:Web程序   时间:2015-01-28 11:14:45    阅读次数:193
Lucene实现自定义分词器(同义词查询与高亮)
今天我们实现一个简单的分词器,仅仅做演示使用功能如下: 1、分词按照空格、横杠、点号进行拆分; 2、实现hi与hello的同义词查询功能; 3、实现hi与hello同义词的高亮显示; MyAnalyzer实现代码: public class MyAnalyzer extends Analyzer { private int analyzerType; public MyAna...
分类:Web程序   时间:2015-01-28 11:14:12    阅读次数:172
Solr配置中文分词器mmseg4j详解
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。 1.首先下载对应的jar包。 版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:其他好文   时间:2015-01-25 11:12:29    阅读次数:172
IKAnalyzer如何自定义远端词库
IKAnalyzer1.3.4要自定义我们自己的词库,而且我们可以随时新增分词,网上查了一圈没有相关资料,看来只有自己搞定了。观察了下IKAnalyzer分词器的配置文件IKAnalyzer.cfg.xml发现其中有这样一个选项: ,而且作者做了注释说这个就是扩展远程词典的。于是打开IKAnalyzer的源码查看,最后在Dictronary这类下找到这个方法:getRemoteWords。经过查...
分类:其他好文   时间:2015-01-23 18:34:17    阅读次数:232
基于lucene的案例开发:分词器介绍
在lucene创建索引的过程中,分词技术是一个十分重要的环节,介绍了7中比较常见的分词技术 CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer...
分类:Web程序   时间:2015-01-20 15:51:03    阅读次数:233
如何使用Pig集成分词器来统计新闻词频?
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的..
分类:其他好文   时间:2015-01-17 06:39:09    阅读次数:270
如何使用Pig集成分词器来统计新闻词频?
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函...
分类:其他好文   时间:2015-01-16 22:10:36    阅读次数:262
Lucene、Compass学习以及与SSH的整合
一、准备 个人在学习中采用Struts2 + Hibernate3.2 + Spring2.5 + Compass2.2.0, 一下图片为本次学习中用到的jar包:图中圈出的jar包为本次学习的主要部分,另外用绿色框圈出的jar包为分词器,主要用来做实验看分词效果的,选用一个即可。二、什么是Comp...
分类:Web程序   时间:2015-01-15 19:59:29    阅读次数:215
CRF分词的纯Java实现
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF...
分类:编程语言   时间:2015-01-14 19:36:33    阅读次数:317
全文检索之lucene入门篇HelloWorld
首先,先看下目录结构。        第一步,在eclipse中建立jave项目。需要引入jar包,只有3个,分别是lucene的分词器和核心包,还有高亮显示器。做法是建立一个lib文件夹,将jar包拷过来,然后右击,选择Build Path(构建路径),Addto Build Path(添加到项目的构建路径)。           然后建立datasource文件...
分类:Web程序   时间:2014-12-31 13:06:34    阅读次数:227
431条   上一页 1 ... 36 37 38 39 40 ... 44 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!