1、首先需要安装好Elasticsearch 和elasticsearch-analysis-ik分词器 2、配置ik同义词 Elasticsearch 自带一个名为 synonym 的同义词 filter。为了能让 IK 和 synonym 同时工作,我们需要定义新的 analyzer,用 IK ...
分类:
其他好文 时间:
2016-08-06 19:09:33
阅读次数:
137
1、 名词说明中文分词要处理的数据为文本数据:solr.TextField,需在schema.xml文件中做相关配置,配置选项如下: analyzer:告诉solr在建立索引和搜索的时候,如何处理text类型的内容。它在schema.xml文件中配置,可以直接指定一个类给它,也可以由tokenize ...
分类:
其他好文 时间:
2016-08-05 15:39:17
阅读次数:
217
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:
其他好文 时间:
2016-08-03 20:28:24
阅读次数:
298
一、说明 网上提供的一个例子,做了修改与订正。 二、程序 #调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读入数据(特别注意,read.csv竟然 ...
分类:
编程语言 时间:
2016-08-03 20:13:45
阅读次数:
513
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:
其他好文 时间:
2016-08-03 09:00:33
阅读次数:
197
ElasticSearch的ik分词插件开发 ElasticSearch的ik分词插件开发 摘要 本文主要介绍如何开发ElasticSearch的ik分词插件。很多时候,网上开源的分词插件不能满足业务需求,只能自己定义开发一套ik分词,let's go! 本文主要介绍如何开发ElasticSearc ...
分类:
其他好文 时间:
2016-08-03 01:23:45
阅读次数:
167
【摘要】:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果。在中文分词、中文人名识别和歧义消解等任务中都有应用。本文源于笔者做语句识别序列标注过程中,对条件随机场的了解,逐步研究基于自然语言处理方面的应用。成文主要源于自然语言处理、机器学习、统计学习方法和部分网上资料对CRF介绍的... ...
分类:
其他好文 时间:
2016-08-02 15:11:54
阅读次数:
171
SimHash 事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应,但这种方法的一个最大的缺点就是,无法将其扩展到海量数据。例如,试想像Google那种收录了数以几十亿互联网信息的大型搜索引擎, ...
分类:
其他好文 时间:
2016-08-02 00:49:42
阅读次数:
807
(1)高速建立索引:建索引速度达到单核10-15mb/s; (2)高速查询:100万记录(约1.2GB数据)下,单核每秒支持约200次搜索; (3)高扩展性:已知最大索引簇支持对30亿条记录建立索引,每天单个连接5千万次搜索; (4)强大附属功能:支持分布式搜索,中文分词引擎,c/java/pyth ...
分类:
其他好文 时间:
2016-07-25 01:49:00
阅读次数:
287
相信大家都用过词典吧!因为英语不太好。。。O(∩_∩)O~,所以经常进行划词翻译! 简述 实现 效果 源码 更多参考 简述 实现 效果 源码 更多参考 效果 源码 实现 原理:鼠标移至某单词之上,获取鼠标位置,然后在对应位置进行取词,翻译! 基于此原理,下面我们实现为每一个单词显示QToolTip。 ...
分类:
其他好文 时间:
2016-07-25 01:42:06
阅读次数:
123