码迷,mamicode.com
首页 > 其他好文 > 详细

[IR课程笔记]概率检索模型

时间:2015-10-18 18:34:01      阅读:420      评论:0      收藏:0      [点我收藏+]

标签:

几个符号意义:

     R:相关文档集

       NR:不相关文档集

       q:用户查询

       dj:文档j

 

1/0风险情况

     PRP(probability ranking principle):概率排序原理,利用概率模型来估计每篇文档和需求相关概率,然后对结果进行排序。

      贝叶斯最优决策原理,基于最小损失风险作出决策,返回相关的可能性大于不相关的可能性的文档:

技术分享

 

 

       基于检索代价的概率排序原理:

技术分享

 

 

    

       crrP(R|D) + crnP(NR|D) < cnrP(R|D) + cnnP(NR|D)

 

如何计算概率

       文档d可以表示为向量(d1,d2,...,dn

       pi = P(di=1|R)       1-pi =  P(di=0|R)

       qi = P(di=1|NR)     1-q=  P(di=0|NR)

   技术分享

 

            对这个式子取对数:

技术分享

 

 

如何得到初始的R和NR

 

        pi=c     ,        c通常取0.5

           qi=ni/N          ni表示有di出现的文档的个数,N表示整个文档集数量。

 

improve it:

          对一个查询q,根据初始的R和NR,可以得到前k个返回结果。然后把这k个结果加入R集中。此时,概率计算方法为:

          

            pi = P(di | R) = si / t

         qi = P(di | NR) = (ni - si) / (N - t)

         si表示的是t个文档中包含di的个数

 

平滑

          pi  =  (si+0.5)/(t+1)

          qi  =  ((ni - si+0.5) / (N - t+1))

 

加权

           技术分享

            将上式的di换成wi.di表示词语di出现则为1,不出现则为0

             技术分享

           BM25加权方法

技术分享

[IR课程笔记]概率检索模型

标签:

原文地址:http://www.cnblogs.com/leeshum/p/4889886.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!