首先,solr5.5自带的中文分词实在是太low了。 无奈。 采用ik来试试。 首先,下载ik。地址https://github.com/EugenePig/ik-analyzer-solr5 下载完成后解压 在解压目录打开命令行窗口:mvn clean install 等着完成就可以了。 至此,打 ...
分类:
其他好文 时间:
2016-05-03 23:28:24
阅读次数:
541
业务场景是客户在业务办理时候需要提交一个材料列表,材料会入材料库,下次客户再来办理业务时候输入客户的身份证,会通过材料库进行加载,我们通过材料名称匹配材料相似度就不用再手动上传材料。(首先需要IKAnalyzer2012FF_u1.jar 进行下载支持的jar) 1.以下是对两个词进行处理的核心算法 ...
分类:
其他好文 时间:
2016-05-03 10:32:45
阅读次数:
217
一、IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化 ...
分类:
其他好文 时间:
2016-05-01 16:04:12
阅读次数:
228
//正向最大匹配分词算法,耗时长,这并不是一个很好的算法,我的这个输出是逆向输入的
usingSystem;
usingSystem.Collections.Generic;
usingSystem.Linq;
usingSystem.Text;
namespaceClusterCharater
{
publicclassSplitChineseCharacter
{
privateString[]dictionary={"今..
分类:
其他好文 时间:
2016-05-01 01:21:18
阅读次数:
254
这篇文章是《动手写 Shell》系列文章的第 篇。上篇文章中,我们已经完成了我们动手 Shell 的第一步:Shell 的提示符。在这篇文章中,我们开始使得我们的 Shell 能够开始读取命令,并且做简单的分词,将命令与参数分开。...
分类:
系统相关 时间:
2016-04-29 19:48:21
阅读次数:
256
QueryParser(单域查询)QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);// 查询字符串
Query query = parser.parse("key");MultiField...
分类:
Web程序 时间:
2016-04-29 19:00:08
阅读次数:
260
一、n-gram是什么wikipedia上有关n-gram的定义:
n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。
习惯上,1-gram叫unigram,2-gram称为bigram,3-gr...
分类:
编程语言 时间:
2016-04-29 16:05:20
阅读次数:
620
对于Solr应该不需要过多介绍了,强大的功能也是都体验过了,但是solr一个较大的问题就是分词问题,特别是中英文的混合分词,处理起来非常棘手。 虽然solr自带了支持中文分词的cjk,但是其效果实在不好,所以solr要解决的一个问题就是中文分词问题,这里推荐的方案是利用ik进行分词。 ik是较早作中 ...
分类:
其他好文 时间:
2016-04-27 18:50:09
阅读次数:
151
最近在做Sephora SEO性能优化测试,其中有关于网站TDK和Omniture的功能测试,之前没有接触过这部分内容,所以最近学习了解了下。 1、 什么是网站TDK? TDK是个缩写,seo页面中的页面描述与关键词设置。 其中"T"代表页头中的title元素,这里可能还要利用到分词技术,当标题(T ...
分类:
其他好文 时间:
2016-04-27 12:26:25
阅读次数:
121
QueryParser(单域查询)QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);// 查询字符串
Query query = parser.parse("key");MultiField...
分类:
Web程序 时间:
2016-04-26 21:11:18
阅读次数:
145