码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
不启动Solr,使用Solr的analyzer chain (使用mmseg4j分词)
这个本质上还是Lucene的analyzerchain,Solr的只是方便了使用:通过配置xml文件就可以把tokenizer和filter链接起来。我们有时候需要在自己代码里使用这个chain。本文记录怎么做。先看整体代码(groovy):classMyAnalyzer{ defanalyzer=newAnalyzer(){ @Override protectedToke..
分类:其他好文   时间:2016-04-07 10:57:18    阅读次数:172
LTP 分词算法实践
参考链接: https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst http://www.xfyun.cn/index.php/services/ltp/detail?&app_id=NTZmYzg5ZWE= http://www.lt ...
分类:编程语言   时间:2016-04-06 13:26:48    阅读次数:264
全文搜索引擎coreseek安装配置(sphinx)
一、以下安装配置均经过实践检验,下文所有查询语句均为实际生成过程中的数据字段 1、特别说明安装次shpinx需要mysql环境 ,请先安装mysql5.6及以上版本 安装开始:  cd /data/softwore  wget  http://www.coreseek.cn/uploads/csft/4.0/coreseek-4.1-beta.tar.gz(只安装中文分词mmseg3)...
分类:其他好文   时间:2016-04-05 17:57:43    阅读次数:158
向Lucene增加中文分词功能
一、分词功能介绍 分词模块对于搜索的重要性不言而喻。例如,没有分词时,搜索“和服”会出现“产品和服务”,搜索“海尔”会出现“海尔德”,搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。 猎兔全球首家推出支持Lucene的准确可用的中文分词模块。 二、执行方法 可以在命 ...
分类:Web程序   时间:2016-04-04 16:13:49    阅读次数:255
ElasticSearch多个字段分词查询高亮显示
ElasticSearch关键字查询,将关键字分词后查询,多个字段,查询出来字段高亮显示。 查询方法如下:public List searcher2(String key, String indexId, String type) { List newsInfos= new ArrayList(); try...
分类:其他好文   时间:2016-04-04 09:11:50    阅读次数:715
隐马尔科夫模型python实现简单拼音输入法
在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实现了一个简单的拼音输入法。githuh地址:https://g ...
分类:编程语言   时间:2016-04-01 01:03:16    阅读次数:279
漫话中文分词
出处:http://www.matrix67.com/blog/archives/4212 漫话中文自动分词和语义识别(上):中文分词算法 记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近 ...
分类:其他好文   时间:2016-03-29 12:50:17    阅读次数:415
(4)文本挖掘(一)——准备文本读写及对Map操作的工具类
文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade...
分类:其他好文   时间:2016-03-29 10:52:32    阅读次数:291
(6)文本挖掘(三)——文本特征TFIDF权重计算及文本向量空间VSM表示
建立文本数据数学描述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要采用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每一个文本的词条串被进一步转换为一个文本向量,向量的每一维对应一个词条,其值反映的是这个词条与这个文本之间的相似度。相似度有很多不同的计算方法,所以优化文本向量就是采用最为合适的计算方法来规范化文本向量,使其能更好...
分类:其他好文   时间:2016-03-29 10:48:22    阅读次数:314
OpenNLP:驾驭文本,分词那些事
OpenNLP:驾驭文本,分词那些事 作者 白宁超 2016年3月27日19:55:03 摘要:字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具 ...
分类:其他好文   时间:2016-03-27 21:13:11    阅读次数:2472
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!