码迷,mamicode.com
首页 > 其他好文 > 详细

nDCG学习笔记

时间:2014-10-25 22:43:13      阅读:341      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   color   strong   sp   on   问题   log   

参考:http://en.wikipedia.org/wiki/Discounted_cumulative_gain

Normalized Discounted Cumulative Gain:一种对搜索引擎或相关程序有效性的度量。

2个假设:

    1.强相关的文档出现在结果列表越靠前(rank越高)越有用。

    2.强相关文档比弱相关文档有用,比不相关文档有用。

DCG来源于一个更早的、更基础的方法---CG。

CG不考虑结果集中的序信息,单纯把分级相关度相加。位置P处的CG值是:

               bubuko.com,布布扣    bubuko.com,布布扣是搜索结果列表的位置i处结果的分级相关度。

改变搜索结果的位置顺序不会影响p的CG值。也就是说:移动一个相关性高的文档bubuko.com,布布扣到一个评级较高但相关性不大的文档上面不改变CG的值。

DCG取代CG作为一个更准确的测量方法。

 如果一个强相关的文档排名靠后则应该受到惩罚,位置P处的DCG值是:

             bubuko.com,布布扣

 

 

另一个DCG计算公式更加强调相关性

             bubuko.com,布布扣

若分级相关度只在0和1取二值的话,二公式效果相同

nDCG

根据Query的不同,结果列表的长度也不同,所以这一度量考虑了正规化问题

            bubuko.com,布布扣

IDCGp(Ideal DCG)是在一个完美的排序下,p所具有的最大DCG值

这样一来无论Query是什么,nDCG都可以得到一个平均值,因此不同的Query之间的效能就可以做比较了。

完美的排序算法会使DCGp和IDCGp相同,从而使nDCGp为1,nDCG的取值在0到1之间

例:

结果列表中的6篇文档D1,D2,D3,D4,D5,D6,判定了他们的相关度是3,2,3,0,1,2,则:

             bubuko.com,布布扣简单的将这些数值相加。

         

             bubuko.com,布布扣

 

bubuko.com,布布扣

bubuko.com,布布扣

            

一个理想的排序应该是:3,3,2,2,1,0,所以

             bubuko.com,布布扣按照3,3,2,2,1,0这个顺序计算的DCG值。

             bubuko.com,布布扣

 

nDCG学习笔记

标签:style   blog   http   color   strong   sp   on   问题   log   

原文地址:http://www.cnblogs.com/lixiaolun/p/4050967.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!