在上一篇文章中我们学习了solr的快速入门和针对mysql数据库建立索引,今天我们介绍如何为solr添加中文分词
1、 在百度搜索ik-analyzer,找到后下载,我下载的是【IKAnalyzer 2012FF_hf1.zip】,解压后会看到如下目录
2、 把IKAnalyzer2012FF_u1.jar拷贝到webapps下solr的lib文件夹下,把IKAnal...
分类:
其他好文 时间:
2015-08-05 10:32:28
阅读次数:
238
对于切词确实是一个复杂的功能,足以写上好几篇论文,但是如果仅仅想对一个句子、一个段落、一篇文章进行切词,可以利用中国自然语言开源组织中各位大牛写好的工具。已经打包成jar包,可以直接调用了,无须自己再考虑复杂的算法。
当然这种切词是对于自然语言的,对于一些有规律的字符串,请自行利用indexOf、substring、split的各类Java自带函数,没有使用额外java包的必要。
首先假如有如...
分类:
编程语言 时间:
2015-08-04 11:23:02
阅读次数:
236
第一步:添加盘古和lucence的dll引用第二步:拷贝Dict文件夹到项目 demo里面是Dictionaries 不过官方建议改成Dict然后把所有项右击属性 改为“如果较新则复制”第三步创建索引库,这里是一次性把数据库里的数据 循环写入了,正常项目里可以把循环打开,每报错一个数据 执行一遍 ....
分类:
Web程序 时间:
2015-08-04 00:33:59
阅读次数:
104
(一)题面计蒜之道2015程序设计大赛初赛第一场——搜狗输入法的分词算法搜狗输入法最近的用户输入中出现了一种新的输入模式,形如 “0k1234567”,搜狗的工程师发现这一模式后了解到,这是一种新被提出的对于十五进制数字的标记模式,其中 “0k” 是标记进制为15的前缀标记,之后的部分 “12345...
分类:
编程语言 时间:
2015-08-01 23:22:22
阅读次数:
237
使用MapReduce编写的中文分词程序出现了 Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图:
上网查了好多资料,才明白这是hadoop本身的问题,具体参考:
https://issues.apache.org/jira/browse/YARN-1298
...
分类:
Web程序 时间:
2015-08-01 12:59:50
阅读次数:
339
Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,
但是提供了最新版本的lucene和solr分词接口。...
分类:
Web程序 时间:
2015-07-31 18:27:39
阅读次数:
288
Solr 文章集成搜索
输入solr的query需要自行做分词,Solr 使用自定义 Query Parser
http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html...
分类:
其他好文 时间:
2015-07-31 15:01:13
阅读次数:
175
Solr 文章集成搜索
输入solr的query需要自行做分词,Solr 使用自定义 Query Parser
http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html...
分类:
其他好文 时间:
2015-07-30 19:34:33
阅读次数:
140
Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,比如我们更希望 “中国人”,“中国”,“我”这样的分词,因此需要安装中文分词插件IK来实现此功能。elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库,具体安装步骤如下...
分类:
其他好文 时间:
2015-07-29 22:52:23
阅读次数:
194