转自:http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool 在文本处理中,TF-IDF可以说是一个简单粗暴的东西。它可以用作特征抽取,关键词筛选等。 以网页搜索“核能的应...
分类:
其他好文 时间:
2015-02-03 21:07:54
阅读次数:
2058
本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
根据过滤子集来提升(Boosting Filtered Subsets)
回到在忽略TF/IDF(Ignoring TF/IDF)中处理的那个问题,我们需要根据每个度假酒店拥有的卖点数量来对它们的相关度分值进行计算。我们希望利用缓存的过滤器来影响分值,而function_...
分类:
其他好文 时间:
2014-12-28 00:34:32
阅读次数:
323
Josef和Andrew在2003年的ICCV上发表的论文[10]中,将文档检索的方法借鉴到了视频中的对象检测中。他们首先将图像的特征描述类比成单词,并建立了基于SIFT特征的vusual word dictionary,结合停止词、TF-IDF和余弦相似度等思想检索包含相同对象的图像帧,最后基于局...
分类:
其他好文 时间:
2014-12-27 06:40:23
阅读次数:
326
本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
忽略TF/IDF
有时我们不需要TF/IDF。我们想知道的只是一个特定的单词是否出现在了字段中。比如我们正在搜索度假酒店,希望它拥有的卖点越多越好:
WiFi花园(Garden)泳池(Pool)
而关于度假酒店的文档类似下面这样:
{ "descript...
分类:
其他好文 时间:
2014-12-26 01:02:19
阅读次数:
342
本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
Lucene中的Practical Scoring Function
对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean
Model),TF/IDF以及向量空间模型(Vector
Space Model)来将它们结合...
分类:
Web程序 时间:
2014-12-24 11:53:03
阅读次数:
273
博主虽然学计算机出身,惭愧的是对计算机的许多方向都不了解。决定从现在开始,多读书,对各个方向都看一看。刚看完数学之美这本书,介绍了许多数学原理在计算机行业的应用。博主想简单总结一下,本篇主要围绕搜索引擎技术来介绍。
当我们在Google搜索框里面打一个词时,Google可以立即返回全网的搜索结果。这看似简单的背后,其实有着很复杂的处理过程。能够这么快的返回查询结果,依赖于搜索引擎对全网知识所做的...
分类:
其他好文 时间:
2014-12-21 00:44:05
阅读次数:
199
本文翻译自Elasticsearch官方指南的Proximity Matching一章。
邻近匹配(Proximity Matching)
使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每个字段,视作"一大袋的单词"(Big bag of Words)。match查询能够告诉我们这个袋子中是否包含了我们的搜索词条,但是这只是一个方面。它不能告诉我们关于单词间关...
分类:
其他好文 时间:
2014-12-15 12:11:17
阅读次数:
205
首先,是关键词的选取:好吧这个我这模型实在是太简单了,但还是讲一讲比较好呢。。。我们现在手头有的是一堆百度百科词条w的DF(w, c)值,c是整个百科词条。。。原因是。。。方便嘛~(而且人家现成的只有介个了啦~)我们发现有830W+的词条数目,都存下来显然是不理智、不科学、不魔法的。所以选取一部分作...
分类:
编程语言 时间:
2014-12-06 21:28:41
阅读次数:
357