搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

Lucene分词原理与方式

-------------------------------------------------------- lucene的分词_分词器的原理讲解 -------------------------------------------------------- 几个默认分词 SimpleAnalyzer StopAnalyzer WhitespaceAnalyzer（根据空格分...

分类：Web程序时间：2015-04-08 11:01:44 阅读次数：131

Lucene实现自定义中文同义词分词器

---------------------------------------------------------- lucene的分词_中文分词介绍 ---------------------------------------------------------- Paoding:庖丁解牛分词器。已经没有更新了 mmseg:使用搜狗的词库 1.导入包（有两个包：1.带dic的，2...

分类：Web程序时间：2015-04-08 10:59:40 阅读次数：191

给LUKE增加word分词器

word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar（国内不能访问） 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、?将解压后的 Java中文分词...

分类：其他好文时间：2015-04-07 21:54:58 阅读次数：157

由隐马尔科夫意淫无字典中文分词 C#

using System; using System.Windows.Forms; using System.IO; using System.Text.RegularExpressions; using System.Collections; using System.Collections.Generic; using System.ComponentModel; namespace HMM...

分类：Windows程序时间：2015-04-07 11:58:15 阅读次数：319

sphinx中文入门指南 (转自sphinx中文站)

Sphinx中文入门指南wuhuiming，转载请注明来源和作者最后修改：2010年1月23日1、简介1.1.Sphinx是什么1.2.Sphinx的特性1.3.Sphinx中文分词2、安装配置实例2.1 在GNU/Linux/unix系统上安装2.1.1 sphinx安装2.1.2.sfc安装(...

分类：其他好文时间：2015-04-07 11:15:20 阅读次数：292

如何采用 coreseek（sphinx）搭建搜索系统

coreseek 实战总结该文章包含以下内容： coreseek 的典型架构实时性解决方案 mmseg 分词使用经验同义词使用经验后继目标 coreseek 的典型架构coreseek 的典型结构，就是通过增量索引来满足近似实时性，对于新增的记录无法及时搜索可见。对于搜索系统存在的记录，非字符串字段的更新，我们一般是调用update方法进行更新。如果搜索引擎要返回业务的其他字段，这时字段的实时...

分类：其他好文时间：2015-04-04 18:27:56 阅读次数：150

JE分词器

/*这段代码写的是JE分词器对于所输入的文本进行分词 * 这里还可以自己设定，分词的范围和单个词语，这样用户可以更加方便对想要 *处理的文本更加的灵活多变。 *这里我添加的例子是.addWord(“回首雅虎在中国”)； * */ package analyzer; import jeasy.analysis.MMAnalyzer; public class...

分类：其他好文时间：2015-04-04 12:18:55 阅读次数：137

（转）Lucene中文分词图解

本文记录Lucene+Paoding的使用方法图解:一、下载Lucene(官网:http://archive.apache.org/dist/lucene/java/)本文中使用的是:2.9.4,下载后解压,Lucene所需要的基本jar文件如下列表: lucene-core-2.9.4.jar L...

分类：Web程序时间：2015-04-04 12:01:19 阅读次数：147

Lucene内置的Analyzer分词器

Lucene分词器...

分类：Web程序时间：2015-04-04 10:46:15 阅读次数：231

ElasticSearch第三步-中文分词

elasticsearch官方只提供smartcn这个中文分词插件，效果不是很好，好在国内有medcl大神（国内最早研究es的人之一）写的两个中文分词插件，一个是ik的，一个是mmseg的，下面分别介绍ik的用法，当我们创建一个index（库db_news）时，easticsearch默认提供的分词...

分类：其他好文时间：2015-04-03 19:17:11 阅读次数：149

共2158条上一页 1 ... 178 179 180 181 182 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)