一、 Lucene索引创建和优化 [版本2.9.0以上]Lucene索引的创建首先需要取得几个必须的对象:1、分词器//可以采用其他的中文分词器StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器...
分类:
Web程序 时间:
2014-12-03 18:38:58
阅读次数:
245
什么是Sphinx/CoreseekSphinx是一个在GPLv2下分发的全文检索引擎;Coreseek是一个可供企业使用的、基于Sphinx(可独立于Sphinx原始版本运行)的中文全文检索引擎,按照GPLv2协议发行,商业使用(例如,嵌入到其他程序中)需要联系我们以获得商业授权。一般而言,Sphinx是一个独..
分类:
其他好文 时间:
2014-12-03 14:26:15
阅读次数:
249
搜索中的分词器有很多种,包括中文、英文,一般的网站都会有站内搜索功能,也就是对用户输入的内容进行处理,本文对中文的全拼实现了一
个分词器,原理很简单,就是模式匹配。根据中文全拼的特点,即声母和韵母配对,首先列举出所有的声母,再分别列举出所有声母对应的韵母
集,分词的过程就是遍历匹配的过程。具体代码如下:
import java.util.ArrayList;
public cl...
分类:
编程语言 时间:
2014-12-02 22:45:20
阅读次数:
208
创建索引库 //读取文件,存储到索引库 public string CreateDatebase() { //获取索引库的路径 var indexPath = AppDomain.CurrentDomain.BaseDirectory + Configurat...
分类:
Web程序 时间:
2014-12-02 19:08:19
阅读次数:
187
项目地址:https://github.com/4onni/elasticsearch-analysis-ansjhttps://github.com/laigood/elasticsearch-analysis-ansj安装步骤基本上是按照第一个网页的要求安装的,通过插件的形式.
分类:
其他好文 时间:
2014-11-27 20:12:46
阅读次数:
152
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
1.下载Ansj的相关jar包
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
2.程序代...
分类:
编程语言 时间:
2014-11-26 14:24:16
阅读次数:
329
NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。...
分类:
其他好文 时间:
2014-11-26 11:27:01
阅读次数:
147
自定义解析器(Custom Analyzers)
虽然ES本身已经提供了一些解析器,但是通过组合字符过滤器(Character Filter),分词器(Tokenizer)以及词条过滤器(Token Filter)来创建你自己的解析器才会显示出其威力。
在解析和解析器中,我们提到过解析器(Analyzer)就是将3种功能打包得到的,它会按照下面的顺序执行:
字符过滤器(Cha...
分类:
其他好文 时间:
2014-11-25 12:52:50
阅读次数:
247
项目名称Pipeline项目版本Alpha版本负责人北京航空航天大学计算机学院 C705团队联系方式http://www.cnblogs.com/C705/发布日期2014-11-23更新内容:1.修复缺陷: a)中英文分词算法改进 b)提取文档信息改进 c)提取关键词结构优化 d)修复与爬...
分类:
其他好文 时间:
2014-11-23 13:06:01
阅读次数:
318
sphinx由于中文分词效果不佳,于是就有国内牛人给它改装了,sphinx-for-chinese就是其中一个。本包集成了字典,初始化时需要生成字典,务必检查字典源文件是utf-8格式的,见下文。环境CentOS6X64安装步骤yuminstallyum-utils-y
rpm-ivhsphinx-for-chinese-2.2.1-r4311.el6.src...
分类:
其他好文 时间:
2014-11-22 23:20:00
阅读次数:
271