博主虽然学计算机出身,惭愧的是对计算机的许多方向都不了解。决定从现在开始,多读书,对各个方向都看一看。刚看完数学之美这本书,介绍了许多数学原理在计算机行业的应用。博主想简单总结一下,本篇主要围绕搜索引擎技术来介绍。
当我们在Google搜索框里面打一个词时,Google可以立即返回全网的搜索结果。这看似简单的背后,其实有着很复杂的处理过程。能够这么快的返回查询结果,依赖于搜索引擎对全网知识所做的...
分类:
其他好文 时间:
2014-12-21 00:44:05
阅读次数:
199
本文翻译自Elasticsearch官方指南的Proximity Matching一章。
邻近匹配(Proximity Matching)
使用了TF/IDF的标准全文搜索将文档,或者至少文档中的每个字段,视作"一大袋的单词"(Big bag of Words)。match查询能够告诉我们这个袋子中是否包含了我们的搜索词条,但是这只是一个方面。它不能告诉我们关于单词间关...
分类:
其他好文 时间:
2014-12-15 12:11:17
阅读次数:
205
首先,是关键词的选取:好吧这个我这模型实在是太简单了,但还是讲一讲比较好呢。。。我们现在手头有的是一堆百度百科词条w的DF(w, c)值,c是整个百科词条。。。原因是。。。方便嘛~(而且人家现成的只有介个了啦~)我们发现有830W+的词条数目,都存下来显然是不理智、不科学、不魔法的。所以选取一部分作...
分类:
编程语言 时间:
2014-12-06 21:28:41
阅读次数:
357
翻译自官方指南的全文搜索一章。
全文搜索(Full Text Search)
现在我们已经讨论了搜索结构化数据的一些简单用例,是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档。
对于全文搜索而言,最重要的两个方面是:
相关度(Relevance)
查询的结果按照它们对查询本身的相关度进行排序的能力,相关度可以通过TF/IDF,参见什么是相关...
分类:
其他好文 时间:
2014-12-03 10:31:26
阅读次数:
313
1、TF-IDF TF-IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。描述单个term与特定document的相关性。 TF(Term Frequency): 表示一个term与某个document的相关性。公.....
分类:
其他好文 时间:
2014-12-01 11:23:06
阅读次数:
251
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它...
分类:
其他好文 时间:
2014-11-29 22:52:21
阅读次数:
315
package com.jumei.robot.mapreduce.tfidf;import java.io.IOException;import java.util.Collection;import java.util.Comparator;import java.util.Map.Entry;...
分类:
其他好文 时间:
2014-11-28 21:15:21
阅读次数:
475
目录:一 计算两个字符串之间的相似度二、TF-IDF与余弦相似性的应用(二):找出相似文章一 计算两个字符串之间的相似度本文转载自cscmaker(1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两...
分类:
其他好文 时间:
2014-11-27 21:47:42
阅读次数:
304
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果...
分类:
编程语言 时间:
2014-11-15 11:31:57
阅读次数:
363
最近由IDF实验室翻译出版了一本名叫《Kali渗透测试技术实战》(《Hacking with Kali:Practical Penetration Testing Techniques》)的书,看似薄薄的一本书,实际上是由IDF实验室的五名成员张世会、童进、封畅、...
分类:
其他好文 时间:
2014-11-10 20:02:44
阅读次数:
340