搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

elasticsearch插件大全

Elasticsearch扩展性非常好，有很多官方和第三方开发的插件，下面以分词、同步、数据传输、脚本支持、站点、其它这几个类别进行划分。分词插件 Combo Analysis Plugin (作者 Olivier Favre, Yakaz) 简介：组合分词器，可以把多个分词器的结果组合在一起。 ...

分类：其他好文时间：2016-07-11 00:56:06 阅读次数：223

中科院分词工具使用

中科院分词工具java的配置与里面自带的讲解相同，下面是代码 ...

分类：其他好文时间：2016-07-10 15:17:12 阅读次数：140

带 IK 分词器的 Luke 和搜索应用服务器solr

首先在网上查了一下： Solr Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引;也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。 Solr引擎 Solr ...

分类：其他好文时间：2016-07-06 17:50:08 阅读次数：166

Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库

文章转载自：http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充项目结构图如下:IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典。谷歌拼音词库下载: http: ...

分类：Web程序时间：2016-07-05 20:35:56 阅读次数：406

Gensim-LDA实践

本文利用gensim进行LDA主题模型实验，第一部分是基于前文的wiki语料，第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt，去停止词后可进行LDA实验。同时gensim也提供了对wiki压缩包直 ...

分类：其他好文时间：2016-07-05 18:58:05 阅读次数：4412

对乡村地名进行模糊匹配

想法是这样的，根据一个随手输入的乡村地名，匹配出其严格的五级行政地址。例如输入的”无极县东侯坊乡南池阳村助农点“，便要匹配出”河北省-石家庄市-无极县-东侯坊乡-南池阳村“。后面的这个五级的行政地址是已知存在数据库里的。大概的思路是首先进行分词，如上面的分成”无极县“，”东侯坊乡“，”南池阳村“， ...

分类：其他好文时间：2016-07-04 18:29:40 阅读次数：145

elasticsearch ik插件

先来一个标准分词（standard），配置如下： index:local type:article default analyzer:stem (filter:小写、停用词等) field:title 测试：例如：分词如下：部署ik分词器在elasticsearch.yml中配置 index ...

分类：其他好文时间：2016-06-29 07:47:17 阅读次数：331

支持Mono的盘古分词（PanGu）

不废话，直接上下载地址http://files.cnblogs.com/files/RainbowInTheSky/PanGu.rar 群友在做项目移植到Mono+jexus上时遇到了问题，盘古分词无法兼容，于是对盘古的项目的源码修改，去掉了很多盘古的硬编码导致的错误（路径上的很多错误，盘古原先都是 ...

分类：其他好文时间：2016-06-24 14:24:02 阅读次数：154

部分词汇

1.关于主题（1）subject：N-COUNT The subject of something such as a conversation, letter, or book is the thing that is being discussed or written about. （2）s ...

分类：其他好文时间：2016-06-23 23:53:47 阅读次数：135

storm+kafka：WordCount程序

简单的输入输出做完了，来点复杂点儿的场景：从某个topic定于消息，然后根据空格分词，统计单词数量，然后将当前输入的单词数量推送到另一个topic。首先规划需要用到的类：从KafkaSpout接收数据并进行处理的backtype.storm.spout.Scheme子类；数据切分bolt：SplitSentenceBolt..

分类：其他好文时间：2016-06-23 19:01:57 阅读次数：629

共2158条上一页 1 ... 142 143 144 145 146 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)