码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
solr5.5+中文分词
首先,solr5.5自带的中文分词实在是太low了。 无奈。 采用ik来试试。 首先,下载ik。地址https://github.com/EugenePig/ik-analyzer-solr5 下载完成后解压 在解压目录打开命令行窗口:mvn clean install 等着完成就可以了。 至此,打 ...
分类:其他好文   时间:2016-05-03 23:28:24    阅读次数:541
利用分词技术实现,生成两个字符串匹配度和相似率。
业务场景是客户在业务办理时候需要提交一个材料列表,材料会入材料库,下次客户再来办理业务时候输入客户的身份证,会通过材料库进行加载,我们通过材料名称匹配材料相似度就不用再手动上传材料。(首先需要IKAnalyzer2012FF_u1.jar 进行下载支持的jar) 1.以下是对两个词进行处理的核心算法 ...
分类:其他好文   时间:2016-05-03 10:32:45    阅读次数:217
ElasticSearch安装ik分词插件
一、IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化 ...
分类:其他好文   时间:2016-05-01 16:04:12    阅读次数:228
中文分词技术
//正向最大匹配分词算法,耗时长,这并不是一个很好的算法,我的这个输出是逆向输入的 usingSystem; usingSystem.Collections.Generic; usingSystem.Linq; usingSystem.Text; namespaceClusterCharater { publicclassSplitChineseCharacter { privateString[]dictionary={"今..
分类:其他好文   时间:2016-05-01 01:21:18    阅读次数:254
PART 2: 使 Shell 能读取命令
这篇文章是《动手写 Shell》系列文章的第 篇。上篇文章中,我们已经完成了我们动手 Shell 的第一步:Shell 的提示符。在这篇文章中,我们开始使得我们的 Shell 能够开始读取命令,并且做简单的分词,将命令与参数分开。...
分类:系统相关   时间:2016-04-29 19:48:21    阅读次数:256
Lucene 查询(Query)子类
QueryParser(单域查询)QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);// 查询字符串 Query query = parser.parse("key");MultiField...
分类:Web程序   时间:2016-04-29 19:00:08    阅读次数:260
N-Gram语言模型
一、n-gram是什么wikipedia上有关n-gram的定义: n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。 习惯上,1-gram叫unigram,2-gram称为bigram,3-gr...
分类:编程语言   时间:2016-04-29 16:05:20    阅读次数:620
Solr的中英文分词实现
对于Solr应该不需要过多介绍了,强大的功能也是都体验过了,但是solr一个较大的问题就是分词问题,特别是中英文的混合分词,处理起来非常棘手。 虽然solr自带了支持中文分词的cjk,但是其效果实在不好,所以solr要解决的一个问题就是中文分词问题,这里推荐的方案是利用ik进行分词。 ik是较早作中 ...
分类:其他好文   时间:2016-04-27 18:50:09    阅读次数:151
SEO性能优化测试-TDK
最近在做Sephora SEO性能优化测试,其中有关于网站TDK和Omniture的功能测试,之前没有接触过这部分内容,所以最近学习了解了下。 1、 什么是网站TDK? TDK是个缩写,seo页面中的页面描述与关键词设置。 其中"T"代表页头中的title元素,这里可能还要利用到分词技术,当标题(T ...
分类:其他好文   时间:2016-04-27 12:26:25    阅读次数:121
Lucene 查询(Query)子类
QueryParser(单域查询)QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);// 查询字符串 Query query = parser.parse("key");MultiField...
分类:Web程序   时间:2016-04-26 21:11:18    阅读次数:145
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!