Elasticsearch扩展性非常好,有很多官方和第三方开发的插件,下面以分词、同步、数据传输、脚本支持、站点、其它这几个类别进行划分。 分词插件 Combo Analysis Plugin (作者 Olivier Favre, Yakaz) 简介:组合分词器,可以把多个分词器的结果组合在一起。 ...
分类:
其他好文 时间:
2016-07-11 00:56:06
阅读次数:
223
中科院分词工具java的配置与里面自带的讲解相同,下面是代码 ...
分类:
其他好文 时间:
2016-07-10 15:17:12
阅读次数:
140
首先在网上查了一下: Solr Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 Solr引擎 Solr ...
分类:
其他好文 时间:
2016-07-06 17:50:08
阅读次数:
166
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充 项目结构图如下:IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。谷歌拼音词库下载: http: ...
分类:
Web程序 时间:
2016-07-05 20:35:56
阅读次数:
406
本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。 同时gensim也提供了对wiki压缩包直 ...
分类:
其他好文 时间:
2016-07-05 18:58:05
阅读次数:
4412
想法是这样的,根据一个随手输入的乡村地名,匹配出其严格的五级行政地址。例如输入的”无极县东侯坊乡南池阳村助农点“,便要匹配出”河北省-石家庄市-无极县-东侯坊乡-南池阳村“。后面的这个五级的行政地址是已知存在数据库里的。 大概的思路是首先进行分词,如上面的分成”无极县“,”东侯坊乡“,”南池阳村“, ...
分类:
其他好文 时间:
2016-07-04 18:29:40
阅读次数:
145
先来一个标准分词(standard),配置如下: index:local type:article default analyzer:stem (filter:小写、停用词等) field:title 测试: 例如: 分词如下: 部署ik分词器 在elasticsearch.yml中配置 index ...
分类:
其他好文 时间:
2016-06-29 07:47:17
阅读次数:
331
不废话,直接上下载地址http://files.cnblogs.com/files/RainbowInTheSky/PanGu.rar 群友在做项目移植到Mono+jexus上时遇到了问题,盘古分词无法兼容,于是对盘古的项目的源码修改,去掉了很多盘古的硬编码导致的错误(路径上的很多错误,盘古原先都是 ...
分类:
其他好文 时间:
2016-06-24 14:24:02
阅读次数:
154
1.关于主题 (1)subject:N-COUNT The subject of something such as a conversation, letter, or book is the thing that is being discussed or written about. (2)s ...
分类:
其他好文 时间:
2016-06-23 23:53:47
阅读次数:
135
简单的输入输出做完了,来点复杂点儿的场景:从某个topic定于消息,然后根据空格分词,统计单词数量,然后将当前输入的单词数量推送到另一个topic。首先规划需要用到的类:从KafkaSpout接收数据并进行处理的backtype.storm.spout.Scheme子类;数据切分bolt:SplitSentenceBolt..
分类:
其他好文 时间:
2016-06-23 19:01:57
阅读次数:
629