今天我们实现一个简单的分词器,仅仅做演示使用功能如下:
1、分词按照空格、横杠、点号进行拆分;
2、实现hi与hello的同义词查询功能;
3、实现hi与hello同义词的高亮显示;
MyAnalyzer实现代码:
public class MyAnalyzer extends Analyzer {
private int analyzerType;
public MyAna...
分类:
Web程序 时间:
2015-01-28 11:14:45
阅读次数:
193
今天我们实现一个简单的分词器,仅仅做演示使用功能如下:
1、分词按照空格、横杠、点号进行拆分;
2、实现hi与hello的同义词查询功能;
3、实现hi与hello同义词的高亮显示;
MyAnalyzer实现代码:
public class MyAnalyzer extends Analyzer {
private int analyzerType;
public MyAna...
分类:
Web程序 时间:
2015-01-28 11:14:12
阅读次数:
172
针对solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,至于他们的区别可以网上查找比较下,这两个分词器都挺好用。我搭建的solr环境(上一篇)是4.10.3的最新版本,以下将详细说下mmseg4j的配置。
1.首先下载对应的jar包。
版本号一定要对应上否则可能会报错,下载地址为:http://code.google.com/p/mmseg4j/ 但是这个网址好...
分类:
其他好文 时间:
2015-01-25 11:12:29
阅读次数:
172
IKAnalyzer1.3.4要自定义我们自己的词库,而且我们可以随时新增分词,网上查了一圈没有相关资料,看来只有自己搞定了。观察了下IKAnalyzer分词器的配置文件IKAnalyzer.cfg.xml发现其中有这样一个选项:
,而且作者做了注释说这个就是扩展远程词典的。于是打开IKAnalyzer的源码查看,最后在Dictronary这类下找到这个方法:getRemoteWords。经过查...
分类:
其他好文 时间:
2015-01-23 18:34:17
阅读次数:
232
在lucene创建索引的过程中,分词技术是一个十分重要的环节,介绍了7中比较常见的分词技术 CJKAnalyzer、KeywordAnalyzer、SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer、IKAnalyzer...
分类:
Web程序 时间:
2015-01-20 15:51:03
阅读次数:
233
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的..
分类:
其他好文 时间:
2015-01-17 06:39:09
阅读次数:
270
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种各样的,Pig的内置函数,仅仅解决了80%我们常用的功能,如果稍微我有一些特殊的需求,就会发现内置函...
分类:
其他好文 时间:
2015-01-16 22:10:36
阅读次数:
262
一、准备 个人在学习中采用Struts2 + Hibernate3.2 + Spring2.5 + Compass2.2.0, 一下图片为本次学习中用到的jar包:图中圈出的jar包为本次学习的主要部分,另外用绿色框圈出的jar包为分词器,主要用来做实验看分词效果的,选用一个即可。二、什么是Comp...
分类:
Web程序 时间:
2015-01-15 19:59:29
阅读次数:
215
与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF...
分类:
编程语言 时间:
2015-01-14 19:36:33
阅读次数:
317
首先,先看下目录结构。
第一步,在eclipse中建立jave项目。需要引入jar包,只有3个,分别是lucene的分词器和核心包,还有高亮显示器。做法是建立一个lib文件夹,将jar包拷过来,然后右击,选择Build
Path(构建路径),Addto Build Path(添加到项目的构建路径)。
然后建立datasource文件...
分类:
Web程序 时间:
2014-12-31 13:06:34
阅读次数:
227