码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
coreseek/sphinx中的匹配模式
所谓匹配模式就是用户如何根据关键字在索引库中查找相关的记录。SPH_MATCH_ALL, 匹配所有查询分词(默认模式);如“手机配件”,不匹配 “我有一部手机”,但可以匹配 “手机坏了,需要找配件”。因为“手机配件” 被分成 “手机”,“配件”两个词,匹配条件是必须同时包含这两个词,所以“我有一部手...
分类:其他好文   时间:2014-07-09 20:12:12    阅读次数:157
搜索引擎技术之概要预览
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:其他好文   时间:2014-07-09 20:04:15    阅读次数:200
几种开源分词工具的比較
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:其他好文   时间:2014-07-08 23:15:59    阅读次数:231
coreseek/sphinx中的匹配模式
所谓匹配模式就是用户如何根据关键字在索引库中查找相关的记录。 SPH_MATCH_ALL, 匹配所有查询分词(默认模式); 如“手机配件”,不匹配 “我有一部手机”,但可以匹配 “手机坏了,需要找配件”。 因为“手机配件” 被分成 “手机”,“配件”两个词,匹配条件是必须同时包含这两个词,所以“我有一部手机”不符合匹配要求。 SPH_MATCH_ANY, 匹配查询词...
分类:其他好文   时间:2014-07-06 12:25:57    阅读次数:293
lucene内存索引库、分词器
6.3内存索引库 6.3.1特点                   在内存中开辟一块空间,专门为索引库存放。这样有以下几个特征: 1)    因为索引库在内存中,所以访问速度更快。 2)    在程序退出时,索引库中的文件也相应的消失了。 3)    如果索引库比较大,必须得保证足够多的内存空间。 6.3.2编码 在cn.hqu.directory 下新建:DirectoryT...
分类:其他好文   时间:2014-07-06 08:11:33    阅读次数:188
垂直搜索的相关知识点总结
垂直搜索引擎大体上需要以下技术 1.Spider 2.网页结构化信息抽取技术或元数据采集技术 3.分词、索引 4.其他信息处理技术 垂直搜索引擎的技术评估应从以下几点来判断 1.全面性 2.更新性 3.准确性 4.功能性 垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:其他好文   时间:2014-07-04 08:45:56    阅读次数:295
搜索引擎--范例:中英文混杂分词算法的实现--正向最大匹配算法的原理和实现
纯中文和中英文混杂的唯一区别是,分词的时候你如何辨别一个字符是英文字符还是孩子字符,人眼很容易区分,但是对于计算机来说就没那么容易了,只要能辨别出中文字符和英文的字符,分词本身就不是一个难题1:文本的编码问题: utf8:windows下,以utf8格式保存的文本是一个3个字节(以16进制)的BO....
分类:其他好文   时间:2014-07-03 23:26:07    阅读次数:299
(待解决)leecode 分词利用词典分词 word break
不戚戚于贫贱,不汲汲于富贵 ---五柳先生Given a stringsand a dictionary of wordsdict, determine ifscan be segmented into a space-separated sequence of one or more dict.....
分类:其他好文   时间:2014-07-03 20:21:27    阅读次数:225
Lucene.net入门学习系列(1)
Lucene.net入门学习系列(1)-分词 Lucene.net入门学习系列(2)-创建索引 Lucene.net入门学习系列(3)-全文检索 这几天在公司实习的时候闲的蛋疼,翻了一下以往的教程和博客,看到了Lucene.net。原本想学着写一个系列的博文,由于本人水平有限,一直找不到适合的...
分类:Web程序   时间:2014-06-29 18:31:57    阅读次数:190
elasticsearch中文分词(mmseg)——手动添加词典
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。 经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。 在咸鱼老婆的虚心指导下,我终于找到了解决办法。 手动添加该词到mmseg的词库中,有两种方法: 1、将该词加入到自带的某个词典中(非停...
分类:其他好文   时间:2014-06-27 09:30:33    阅读次数:232
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!