标签:
搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。
判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型。检索模型是搜索引擎的理论基础,为量化相关性提供了一种数学模型,是对查询词和文档之间进行相似度计算的框架和方法。其本质就是相关度建模。如图所示,检索模型所在搜索引擎系统架构位置:
当然检索模型理论研究存在理想化的隐含假设,及即假设用户需求已经通过查询非常清晰明确地表达出来了,所以检索模型的任务不涉及到对用户需求建模。但实际上这个和实际相差较远,即使相同的查询词,不同用户的需求目的可能差异很大,而检索模型对此无能为力。
布尔模型:
是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。
基本思想:
文档和用户查询由其包含的单词集合来表示,两者的相似性则通过布尔代数运算来进行判定;
相似度计算:
查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。
如查询词:
苹果 and (iphone OR Ipad2)
文档集合:
D1:IPhone 5于9月13号问世。
D2: 苹果公司于9月13号发布新一代IPhone。
D3:Ipad2将于3月11日在美上市。
D4:Iphone和ipad2的外观设计精美时尚
D5:80后90后都喜欢iphone,但不喜欢吃苹果。
那么单词与文档关系如下图:
缺点:
1)准确的匹配可能导致检出的文档过多或过少。因为布尔模型只是判断文档要么相关、要么不相关,它的检索策略基于二值判定标准,无法描述与查询条件部分匹配的情况。因此,布尔模型实际上是一个数值检索模型而不是信息检索模型。
2)尽管布尔表达式有确切的语义,但通常很难将用户的信息需求转换成布尔表达式。如今,人们普遍认为,给索引词加权能极大地改善检索效果。从对索引词加权的方法中引出了向量模型。
基本思想:
把文档看成是由t维特征组成的一个向量,特征一般采用单词,每个特征会根据一定依据计算其权重,这t维带有权重的特征共同构成了一个文档,以此来表示文档的主题内容。
相似性计算:
计算文档的相似性可以采用Cosine计算定义,实际上是求文档在t维空间中查询词向量和文档向量的夹角,越小越相似;对于特征权重,可以采用Tf*IDF框架,Tf是词频,IDF是逆文档频率因子指的是同一个单词在文档集合范围的出现次数,这个是一种全局因子,其考虑的不是文档本身的特征,而是特征单词之间的相对重要性,特征词出现在其中的文档数目越多,IDF值越低,这个词区分不同文档的能力就越差,这个框架一般把Weight=Tf*IDF作为权重计算公式。
思路:
概率模型:
是目前效果最好的模型之一,okapi BM25这一经典概率模型计算公式已经在搜索引擎的网页排序中广泛使用。概率检索模型是从概率排序原理推导出来的。
基本假设前提和理论:
1).相关性独立原则:文献对一个检索式的相关性与文献集合中的其他文献是独立的。
2).单词的独立性:单词和检索式中词与词之间是相互独立。即文档里出现的单词之间没有任何关联,任一单词在文档的分布概率不依赖其他单词是否出现。
3).文献相关性是二值的:即只有相关和不相关两种。
4).概率排序原则:该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档
5).贝叶斯(Bayes)定理:用公式表示为:
P(R|d)=(d|R)·P(R)/P(d)
基本思想是:
是通过概率的方法将查询和文档联系起来,给定一个用户查询,如果搜索系统能够在搜索结果排序时按照文档和用户需求的相关性由高到底排序,那么这个搜索系统的准确性是最优的。在文档集合的基础上尽可能准确地对这种相关性进行估计就是其核心。
相似度计算:
将查询Q和文档D根据有没有单词表示为二值向量,Q={q1,q2,…},D={d1,d2,…},di=0或1表示文献中没有或有第i个单词. 用R表示文献相关,表示文献不相关.
条件概率P(R|dj )表示文档 dj与查询qi相关的概率
条件概率P(|dj)表示文档dj与查询qi不相关的概率
利用它们的比值计算文档与查询的相似度。
若P(R|d)> P( |d),即比值大于1,则文献相关程度大于不相关程度,认为文献d是相关的,否则认为文献d不相关。在两者相等时,人为地认为它是不相关的。
优点:
1.采用严格的数学理论为依据,为人们提供了一种数学理论基础来进行检索决策;PubMed的related articles 。
2.采用相关反馈原理
3.在其中没有使用用户难以运用的布尔逻辑方法;
4.在操作过程中使用了词的依赖性和相互关系。
缺点:
1.计算复杂度大,不适合大型网络
2.参数估计难度较大
3.条件概率值难估计
4.系统的检索性能提高不明显,需与其他检索模型结合
标签:
原文地址:http://www.cnblogs.com/chenying99/p/4587519.html