码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
使用 Elasticsearch ik分词实现同义词搜索(转)
1、首先需要安装好Elasticsearch 和elasticsearch-analysis-ik分词器 2、配置ik同义词 Elasticsearch 自带一个名为 synonym 的同义词 filter。为了能让 IK 和 synonym 同时工作,我们需要定义新的 analyzer,用 IK ...
分类:其他好文   时间:2016-08-06 19:09:33    阅读次数:137
中文分词
1、 名词说明中文分词要处理的数据为文本数据:solr.TextField,需在schema.xml文件中做相关配置,配置选项如下: analyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容。它在schema.xml文件中配置,可以直接指定一个类给它,也可以由tokenize ...
分类:其他好文   时间:2016-08-05 15:39:17    阅读次数:217
【NLP】条件随机场知识扩展延伸
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:其他好文   时间:2016-08-03 20:28:24    阅读次数:298
R语言之中文分词:实例
一、说明 网上提供的一个例子,做了修改与订正。 二、程序 #调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意,read.csv竟然 ...
分类:编程语言   时间:2016-08-03 20:13:45    阅读次数:513
【NLP】基于机器学习角度谈谈CRF
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:其他好文   时间:2016-08-03 09:00:33    阅读次数:197
ElasticSearch的ik分词插件开发
ElasticSearch的ik分词插件开发 ElasticSearch的ik分词插件开发 摘要 本文主要介绍如何开发ElasticSearch的ik分词插件。很多时候,网上开源的分词插件不能满足业务需求,只能自己定义开发一套ik分词,let's go! 本文主要介绍如何开发ElasticSearc ...
分类:其他好文   时间:2016-08-03 01:23:45    阅读次数:167
【NLP】漫步条件随机场系列文章(一)
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:其他好文   时间:2016-08-02 15:11:54    阅读次数:171
海量文件查重SimHash和Minhash
SimHash 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应,但这种方法的一个最大的缺点就是,无法将其扩展到海量数据。例如,试想像Google那种收录了数以几十亿互联网信息的大型搜索引擎, ...
分类:其他好文   时间:2016-08-02 00:49:42    阅读次数:807
Sphinx性能
(1)高速建立索引:建索引速度达到单核10-15mb/s; (2)高速查询:100万记录(约1.2GB数据)下,单核每秒支持约200次搜索; (3)高扩展性:已知最大索引簇支持对30亿条记录建立索引,每天单个连接5千万次搜索; (4)强大附属功能:支持分布式搜索,中文分词引擎,c/java/pyth ...
分类:其他好文   时间:2016-07-25 01:49:00    阅读次数:287
QObject就有eventFilter,功能很强(随心所欲的进行处理,比如用来QLineEdit分词)
相信大家都用过词典吧!因为英语不太好。。。O(∩_∩)O~,所以经常进行划词翻译! 简述 实现 效果 源码 更多参考 简述 实现 效果 源码 更多参考 效果 源码 实现 原理:鼠标移至某单词之上,获取鼠标位置,然后在对应位置进行取词,翻译! 基于此原理,下面我们实现为每一个单词显示QToolTip。 ...
分类:其他好文   时间:2016-07-25 01:42:06    阅读次数:123
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!