码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Lucene分词原理与方式
-------------------------------------------------------- lucene的分词_分词器的原理讲解 -------------------------------------------------------- 几个默认分词 SimpleAnalyzer StopAnalyzer WhitespaceAnalyzer(根据空格分...
分类:Web程序   时间:2015-04-08 11:01:44    阅读次数:131
Lucene实现自定义中文同义词分词器
---------------------------------------------------------- lucene的分词_中文分词介绍 ---------------------------------------------------------- Paoding:庖丁解牛分词器。已经没有更新了 mmseg:使用搜狗的词库 1.导入包(有两个包:1.带dic的,2...
分类:Web程序   时间:2015-04-08 10:59:40    阅读次数:191
给LUKE增加word分词器
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问) 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、?将解压后的 Java中文分词...
分类:其他好文   时间:2015-04-07 21:54:58    阅读次数:157
由隐马尔科夫意淫无字典中文分词 C#
using System; using System.Windows.Forms; using System.IO; using System.Text.RegularExpressions; using System.Collections; using System.Collections.Generic; using System.ComponentModel; namespace HMM...
分类:Windows程序   时间:2015-04-07 11:58:15    阅读次数:319
sphinx中文入门指南 (转自sphinx中文站)
Sphinx中文入门指南wuhuiming,转载请注明来源和作者 最后修改:2010年1月23日1、简介1.1.Sphinx是什么1.2.Sphinx的特性1.3.Sphinx中文分词2、安装配置实例2.1 在GNU/Linux/unix系统上安装2.1.1 sphinx安装2.1.2.sfc安装(...
分类:其他好文   时间:2015-04-07 11:15:20    阅读次数:292
如何采用 coreseek(sphinx) 搭建搜索系统
coreseek 实战总结该文章包含以下内容: coreseek 的典型架构 实时性解决方案 mmseg 分词使用经验 同义词使用经验 后继目标 coreseek 的典型架构coreseek 的典型结构,就是通过增量索引来满足近似实时性,对于新增的记录无法及时搜索可见。对于搜索系统存在的记录,非字符串字段的更新,我们一般是调用update方法进行更新。如果搜索引擎要返回业务的其他字段,这时字段的实时...
分类:其他好文   时间:2015-04-04 18:27:56    阅读次数:150
JE分词器
/*这段代码写的是JE分词器对于所输入的文本进行分词 * 这里还可以自己设定,分词的范围和单个词语,这样用户可以更加方便对想要 *处理的文本更加的灵活多变。 *这里我添加的例子是.addWord(“回首雅虎在中国”); * */ package analyzer; import jeasy.analysis.MMAnalyzer; public class...
分类:其他好文   时间:2015-04-04 12:18:55    阅读次数:137
(转)Lucene中文分词图解
本文记录Lucene+Paoding的使用方法图解:一、下载Lucene(官网:http://archive.apache.org/dist/lucene/java/)本文中使用的是:2.9.4,下载后解压,Lucene所需要的基本jar文件如下列表: lucene-core-2.9.4.jar L...
分类:Web程序   时间:2015-04-04 12:01:19    阅读次数:147
Lucene内置的Analyzer分词器
Lucene分词器...
分类:Web程序   时间:2015-04-04 10:46:15    阅读次数:231
ElasticSearch第三步-中文分词
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法,当我们创建一个index(库db_news)时,easticsearch默认提供的分词...
分类:其他好文   时间:2015-04-03 19:17:11    阅读次数:149
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!