搜索引擎依托于互联网,它是互联网网站和应用的入口。1,搜索引擎技术的发展史 第一代:文本检索的一代 采用经典的信息检索模型,比如布尔模型、向量空间模型或概率模型,来计算用户查询关键词和网页文本内容的相关程度。并没有利用到网页之间的链接关系。 第二代:链接分析的一代 充分利用网页之间的链接...
分类:
其他好文 时间:
2015-05-25 23:55:12
阅读次数:
181
网络搜索引擎简介一、传统信息检索回顾传统信息检索文档集的搜索有三种基本的计算机辅助技术:布尔模型、向量空间模型和概率模型。这些模型发展与20世纪60年代,直到2000年6月,便存在3500种不同的搜索引擎技术,并且大多数搜索引擎仍然依赖于以上三种基本模型的一种或数种。下图摘自《搜索引擎-原理技术与系统》,显示了搜索的主干流程。
1.1 布尔搜索引擎信息检索中最早而且最简单的检索方法之一。布尔逻辑检...
分类:
其他好文 时间:
2015-04-21 14:43:14
阅读次数:
172
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:
Web程序 时间:
2015-04-08 17:58:42
阅读次数:
134
本章翻译自Elasticsearch官方指南的Controlling
Relevance一章。
Lucene中的Practical Scoring Function
对于多词条查询(Multiterm Queries),Lucene使用的是布尔模型(Boolean
Model),TF/IDF以及向量空间模型(Vector
Space Model)来将它们结合...
分类:
Web程序 时间:
2014-12-24 11:53:03
阅读次数:
273
布尔模型和向量空间模型可以给出文档内容和查询是否相关的非确定性的推测,而概率论的方法可以给这种推测提供一个基本的理论。 概率论基础知识 事件A发生的概率为P(A),它满足0≤P(A)≤1,对于两个事件A、B,它们的联合事件发生的可能性通过联合概率P(A,B)描述,条件概率P(A|B)表示在事件B.....
分类:
其他好文 时间:
2014-12-01 23:56:46
阅读次数:
329
本人引自http://blog.csdn.net/xiaoyu714543065/article/details/7832132问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者...
分类:
其他好文 时间:
2014-11-26 20:39:48
阅读次数:
310
本内容 来自微信公众平台:机器学习之窗 以及 http://www.cnblogs.com/kaituorensheng/p/3579347.html在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是将在特征空间中最接近的训练样本进行分类的方法。最近邻居法采用向量空间模型来分类,概念.....
分类:
编程语言 时间:
2014-10-29 18:58:24
阅读次数:
387
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:
Web程序 时间:
2014-09-20 01:12:26
阅读次数:
370
向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。SMART是第一个使用这个模型的信息检索系统。
文档和查询都用向量来表示。
每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值...
分类:
其他好文 时间:
2014-08-06 19:24:42
阅读次数:
632