码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Lucence.net索引技术 二
一、 Lucene索引创建和优化 [版本2.9.0以上]Lucene索引的创建首先需要取得几个必须的对象:1、分词器//可以采用其他的中文分词器StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器...
分类:Web程序   时间:2014-12-03 18:38:58    阅读次数:245
Centos 5.3环境安装Coreseek
什么是Sphinx/CoreseekSphinx是一个在GPLv2下分发的全文检索引擎;Coreseek是一个可供企业使用的、基于Sphinx(可独立于Sphinx原始版本运行)的中文全文检索引擎,按照GPLv2协议发行,商业使用(例如,嵌入到其他程序中)需要联系我们以获得商业授权。一般而言,Sphinx是一个独..
分类:其他好文   时间:2014-12-03 14:26:15    阅读次数:249
一种拼音分词器的JAVA实现
搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一 个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母 集,分词的过程就是遍历匹配的过程。具体代码如下: import java.util.ArrayList; public cl...
分类:编程语言   时间:2014-12-02 22:45:20    阅读次数:208
Lucence.Net学习+盘古分词
创建索引库 //读取文件,存储到索引库 public string CreateDatebase() { //获取索引库的路径 var indexPath = AppDomain.CurrentDomain.BaseDirectory + Configurat...
分类:Web程序   时间:2014-12-02 19:08:19    阅读次数:187
安装ansj分词器
项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.
分类:其他好文   时间:2014-11-27 20:12:46    阅读次数:152
【Java】Java中文分词器Ansj的使用
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代...
分类:编程语言   时间:2014-11-26 14:24:16    阅读次数:329
NLP分析技术的三个层面
NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。...
分类:其他好文   时间:2014-11-26 11:27:01    阅读次数:147
[Elasticsearch] 索引管理 (二)
自定义解析器(Custom Analyzers) 虽然ES本身已经提供了一些解析器,但是通过组合字符过滤器(Character Filter),分词器(Tokenizer)以及词条过滤器(Token Filter)来创建你自己的解析器才会显示出其威力。 在解析和解析器中,我们提到过解析器(Analyzer)就是将3种功能打包得到的,它会按照下面的顺序执行: 字符过滤器(Cha...
分类:其他好文   时间:2014-11-25 12:52:50    阅读次数:247
Alpha版本发布说明
项目名称Pipeline项目版本Alpha版本负责人北京航空航天大学计算机学院 C705团队联系方式http://www.cnblogs.com/C705/发布日期2014-11-23更新内容:1.修复缺陷: a)中英文分词算法改进 b)提取文档信息改进 c)提取关键词结构优化 d)修复与爬...
分类:其他好文   时间:2014-11-23 13:06:01    阅读次数:318
【编译打包】sphinx-for-chinese-2.2.1-r4311.el6.src.rpm
sphinx由于中文分词效果不佳,于是就有国内牛人给它改装了,sphinx-for-chinese就是其中一个。本包集成了字典,初始化时需要生成字典,务必检查字典源文件是utf-8格式的,见下文。环境CentOS6X64安装步骤yuminstallyum-utils-y rpm-ivhsphinx-for-chinese-2.2.1-r4311.el6.src...
分类:其他好文   时间:2014-11-22 23:20:00    阅读次数:271
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!