所谓匹配模式就是用户如何根据关键字在索引库中查找相关的记录。SPH_MATCH_ALL, 匹配所有查询分词(默认模式);如“手机配件”,不匹配 “我有一部手机”,但可以匹配 “手机坏了,需要找配件”。因为“手机配件” 被分成 “手机”,“配件”两个词,匹配条件是必须同时包含这两个词,所以“我有一部手...
分类:
其他好文 时间:
2014-07-09 20:12:12
阅读次数:
157
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:
其他好文 时间:
2014-07-09 20:04:15
阅读次数:
200
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-07-08 23:15:59
阅读次数:
231
所谓匹配模式就是用户如何根据关键字在索引库中查找相关的记录。
SPH_MATCH_ALL, 匹配所有查询分词(默认模式);
如“手机配件”,不匹配 “我有一部手机”,但可以匹配 “手机坏了,需要找配件”。
因为“手机配件” 被分成 “手机”,“配件”两个词,匹配条件是必须同时包含这两个词,所以“我有一部手机”不符合匹配要求。
SPH_MATCH_ANY, 匹配查询词...
分类:
其他好文 时间:
2014-07-06 12:25:57
阅读次数:
293
6.3内存索引库
6.3.1特点
在内存中开辟一块空间,专门为索引库存放。这样有以下几个特征:
1) 因为索引库在内存中,所以访问速度更快。
2) 在程序退出时,索引库中的文件也相应的消失了。
3) 如果索引库比较大,必须得保证足够多的内存空间。
6.3.2编码
在cn.hqu.directory 下新建:DirectoryT...
分类:
其他好文 时间:
2014-07-06 08:11:33
阅读次数:
188
垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:
其他好文 时间:
2014-07-04 08:45:56
阅读次数:
295
纯中文和中英文混杂的唯一区别是,分词的时候你如何辨别一个字符是英文字符还是孩子字符,人眼很容易区分,但是对于计算机来说就没那么容易了,只要能辨别出中文字符和英文的字符,分词本身就不是一个难题1:文本的编码问题: utf8:windows下,以utf8格式保存的文本是一个3个字节(以16进制)的BO....
分类:
其他好文 时间:
2014-07-03 23:26:07
阅读次数:
299
不戚戚于贫贱,不汲汲于富贵 ---五柳先生Given a stringsand a dictionary of wordsdict, determine ifscan be segmented into a space-separated sequence of one or more dict.....
分类:
其他好文 时间:
2014-07-03 20:21:27
阅读次数:
225
Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索 这几天在公司实习的时候闲的蛋疼,翻了一下以往的教程和博客,看到了Lucene.net。原本想学着写一个系列的博文,由于本人水平有限,一直找不到适合的...
分类:
Web程序 时间:
2014-06-29 18:31:57
阅读次数:
190
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。
经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。
在咸鱼老婆的虚心指导下,我终于找到了解决办法。
手动添加该词到mmseg的词库中,有两种方法:
1、将该词加入到自带的某个词典中(非停...
分类:
其他好文 时间:
2014-06-27 09:30:33
阅读次数:
232