搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

Lucence.net索引技术二

一、 Lucene索引创建和优化 [版本2.9.0以上]Lucene索引的创建首先需要取得几个必须的对象：1、分词器//可以采用其他的中文分词器StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器...

分类：Web程序时间：2014-12-03 18:38:58 阅读次数：245

Centos 5.3环境安装Coreseek

什么是Sphinx/CoreseekSphinx是一个在GPLv2下分发的全文检索引擎；Coreseek是一个可供企业使用的、基于Sphinx（可独立于Sphinx原始版本运行）的中文全文检索引擎，按照GPLv2协议发行，商业使用（例如,嵌入到其他程序中）需要联系我们以获得商业授权。一般而言，Sphinx是一个独..

分类：其他好文时间：2014-12-03 14:26:15 阅读次数：249

一种拼音分词器的JAVA实现

搜索中的分词器有很多种，包括中文、英文，一般的网站都会有站内搜索功能，也就是对用户输入的内容进行处理，本文对中文的全拼实现了一个分词器，原理很简单，就是模式匹配。根据中文全拼的特点，即声母和韵母配对，首先列举出所有的声母，再分别列举出所有声母对应的韵母集，分词的过程就是遍历匹配的过程。具体代码如下： import java.util.ArrayList; public cl...

分类：编程语言时间：2014-12-02 22:45:20 阅读次数：208

Lucence.Net学习+盘古分词

创建索引库 //读取文件，存储到索引库 public string CreateDatebase() { //获取索引库的路径 var indexPath = AppDomain.CurrentDomain.BaseDirectory + Configurat...

分类：Web程序时间：2014-12-02 19:08:19 阅读次数：187

安装ansj分词器

项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.

分类：其他好文时间：2014-11-27 20:12:46 阅读次数：152

【Java】Java中文分词器Ansj的使用

以前都是用C++对中文进行分词，也用过Python的“结巴”分词，最近用了一下Java的Ansj中文分词，感觉还不错。下面是用Ansj对中文进行分词的一个简单例子，希望能对大家有用。 1.下载Ansj的相关jar包要用Ansj进行中文分词，必须先下载Ansj的jar包，下载地址可以参考：https://github.com/NLPchina/ansj_seg 2.程序代...

分类：编程语言时间：2014-11-26 14:24:16 阅读次数：329

NLP分析技术的三个层面

NLP分析技术大致分为三个层面：词法分析、句法分析和语义分析。...

分类：其他好文时间：2014-11-26 11:27:01 阅读次数：147

[Elasticsearch] 索引管理 (二)

自定义解析器(Custom Analyzers) 虽然ES本身已经提供了一些解析器，但是通过组合字符过滤器(Character Filter)，分词器(Tokenizer)以及词条过滤器(Token Filter)来创建你自己的解析器才会显示出其威力。在解析和解析器中，我们提到过解析器(Analyzer)就是将3种功能打包得到的，它会按照下面的顺序执行：字符过滤器(Cha...

分类：其他好文时间：2014-11-25 12:52:50 阅读次数：247

Alpha版本发布说明

项目名称Pipeline项目版本Alpha版本负责人北京航空航天大学计算机学院 C705团队联系方式http://www.cnblogs.com/C705/发布日期2014-11-23更新内容：1.修复缺陷： a)中英文分词算法改进 b)提取文档信息改进 c)提取关键词结构优化 d)修复与爬...

分类：其他好文时间：2014-11-23 13:06:01 阅读次数：318

【编译打包】sphinx-for-chinese-2.2.1-r4311.el6.src.rpm

sphinx由于中文分词效果不佳，于是就有国内牛人给它改装了，sphinx-for-chinese就是其中一个。本包集成了字典，初始化时需要生成字典，务必检查字典源文件是utf-8格式的，见下文。环境CentOS6X64安装步骤yuminstallyum-utils-y rpm-ivhsphinx-for-chinese-2.2.1-r4311.el6.src...

分类：其他好文时间：2014-11-22 23:20:00 阅读次数：271

共2158条上一页 1 ... 192 193 194 195 196 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)