--------------------------------------------------------
lucene的分词_分词器的原理讲解
--------------------------------------------------------
几个默认分词
SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer(根据空格分...
分类:
Web程序 时间:
2015-04-08 11:01:44
阅读次数:
131
----------------------------------------------------------
lucene的分词_中文分词介绍
----------------------------------------------------------
Paoding:庖丁解牛分词器。已经没有更新了
mmseg:使用搜狗的词库
1.导入包(有两个包:1.带dic的,2...
分类:
Web程序 时间:
2015-04-08 10:59:40
阅读次数:
191
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问) 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、?将解压后的 Java中文分词...
分类:
其他好文 时间:
2015-04-07 21:54:58
阅读次数:
157
using System;
using System.Windows.Forms;
using System.IO;
using System.Text.RegularExpressions;
using System.Collections;
using System.Collections.Generic;
using System.ComponentModel;
namespace HMM...
Sphinx中文入门指南wuhuiming,转载请注明来源和作者 最后修改:2010年1月23日1、简介1.1.Sphinx是什么1.2.Sphinx的特性1.3.Sphinx中文分词2、安装配置实例2.1 在GNU/Linux/unix系统上安装2.1.1 sphinx安装2.1.2.sfc安装(...
分类:
其他好文 时间:
2015-04-07 11:15:20
阅读次数:
292
coreseek 实战总结该文章包含以下内容:
coreseek 的典型架构
实时性解决方案
mmseg 分词使用经验
同义词使用经验
后继目标
coreseek 的典型架构coreseek 的典型结构,就是通过增量索引来满足近似实时性,对于新增的记录无法及时搜索可见。对于搜索系统存在的记录,非字符串字段的更新,我们一般是调用update方法进行更新。如果搜索引擎要返回业务的其他字段,这时字段的实时...
分类:
其他好文 时间:
2015-04-04 18:27:56
阅读次数:
150
/*这段代码写的是JE分词器对于所输入的文本进行分词
* 这里还可以自己设定,分词的范围和单个词语,这样用户可以更加方便对想要
*处理的文本更加的灵活多变。
*这里我添加的例子是.addWord(“回首雅虎在中国”);
* */
package analyzer;
import jeasy.analysis.MMAnalyzer;
public class...
分类:
其他好文 时间:
2015-04-04 12:18:55
阅读次数:
137
本文记录Lucene+Paoding的使用方法图解:一、下载Lucene(官网:http://archive.apache.org/dist/lucene/java/)本文中使用的是:2.9.4,下载后解压,Lucene所需要的基本jar文件如下列表: lucene-core-2.9.4.jar L...
分类:
Web程序 时间:
2015-04-04 12:01:19
阅读次数:
147
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法,当我们创建一个index(库db_news)时,easticsearch默认提供的分词...
分类:
其他好文 时间:
2015-04-03 19:17:11
阅读次数:
149