题目:有搜索后的网页分词序列 数组W 其中W[0]、W[1]、...W[N]为分好的词。用户输入的关键词为数组 Q 其中Q[0]、Q[1]...Q[M]为搜索的关键词。找到W中最小的范围W[i]~W[j]让其包括所有的Q。思路:最想当然的思路就是从W[0]开始,对每个Q遍历判断有没有一样的,截取出第...
分类:
其他好文 时间:
2014-11-08 23:33:38
阅读次数:
251
在站内搜索Solr Schema设计时,有个FTS_URL字段(之前设计url也会参与检索和打分),因此其配置信息如下: 其中 : type表示类型以及分词类型。 indexed表示是否支持索引。 stored表示是否保存到索引中,这个属性很关键,有些字段不适合...
分类:
其他好文 时间:
2014-11-06 16:35:58
阅读次数:
135
这几天小伙伴们都在努力,研究出不少改进方案并加以设计和实施了,分词算法的优化进度可观,而其他的任务在改进的过程中产生了些问题,对于之前代码的设计感到疑惑,我们找到了上届的学长们咨询,他们也给出了不少建议。 目前产生了一些新的问题与阻碍: 1.许多实用的算法源代码并不公开,获取方式有限,可远观不可.....
分类:
其他好文 时间:
2014-11-05 21:02:27
阅读次数:
205
搭建SolrCloud ,zookeeper ,HDFS ,IK中文分词器,注意事项...
分类:
其他好文 时间:
2014-11-04 15:08:28
阅读次数:
628
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.htmlarrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,bas...
分类:
编程语言 时间:
2014-11-04 12:32:05
阅读次数:
304
解析(Analysis)
当一个实体域被Lucene索引时,往往还会经历一个语法分析(Parsing)和转换(Conversion)的步骤,这些步骤被称为解析。在前文中,我们提到过Hibernate Search会默认对字符串类型的实体域进行分词,而这个分词过程就需要用到解析器(Analyzer)。在需要对实体域进行排序的场合,需要禁用这个默认的分词行为。
在解析过程中,还可以借助Ap...
分类:
Web程序 时间:
2014-11-04 11:09:20
阅读次数:
279
本文是在Niutrans论坛中的系列教程中总结出来的。1、语料预处理预处理的结果是生成双语分词之后的文件,该步需要注意的是对规则短语,比如数字、日期、网址等,进行泛化处理。可以用正则方法或者其它方法。注意日期中的点和外文人名中的点和网址中的点和句末标点要区分开来,数字和日期也要区分开来。其中变化比较...
分类:
其他好文 时间:
2014-11-04 10:56:25
阅读次数:
216
没有开头语我会死啊~好的,IK是啥、怎么用相信看这篇文章的人都不需要我过多解释了,我也解释不好。下面开始正文: IK的官方结构图: 从上至下的来看: 最上层是我们不需要过度关心的,它们是一些Adapter供Lucen...
分类:
其他好文 时间:
2014-11-03 22:45:07
阅读次数:
386
lucene是一个开源的全文检索引擎工具包,但它不是一个成型的搜索引擎,它的功能就是负责将文本数据按照某种分词算法进行分词,分词后的结果存储在索引库中,然后根据关键字从索引库检检索。那么应该如何使用呢?1. 从官网下载http://lucene.apache.org/并解压缩2.我们可以从官网给的示...
分类:
编程语言 时间:
2014-11-03 22:25:14
阅读次数:
228
从 Mysql 4.0 开始就支持全文索引功能,但是 Mysql 默认的最小索引长度是 4。如果是英文默认值是比较合理的,但是中文绝大部分词都是2个字符,这就导致小于4个字的词都不能被索引,全文索引功能就形同虚设了。国内的空间商大部分可能并没有注意到这个问题,没有修改 Mysql 的默认设置。 为....
分类:
数据库 时间:
2014-11-03 20:49:27
阅读次数:
269