标签:log 指标 isp img http .com png 伪代码 代码
logloss使用KL散度来计算。设样本的真实分布为P,预测分布为Q,则KL散度定义如下:
这里可以通俗地把KL散度理解为相同事件空间里两个概率分布的相异情况。KL散度越小,预测分布越接近真实分布。
KL散度的物理意义是:使用分布Q来对真实分布为P的事件进行编码,导致平均编码长度增加了多少。具体解释可见百度和知乎。
CTR预估中,测试集中每个样本是一条广告,它有一个真实的点击率tctr和一个预测的点击率pctr。这里事件空间里面只有两个事件,即点击还是不点击。因此KL散度公式可以写成如下:
上述公式中,如果我们能直接知道样本的tctr,那么就可以直接代入计算了。但是实际工程中,我们实际上要做一个lable匹配的过程,才能知道一条广告的真实点击率。即对于广告a,我总共展示了N次,每次展示会生成一个唯一的ID,记为i,如果用户在这次展示中点击了它,那么点击系统就会记录这个ID。然后对于展示系统中这条广告的每个ID,去点击系统中查找这个ID存不存在,如果存在说明这次展示被点击了。我们将展示次数记为impression,点击次数记为click,则KL散度可以推导如下:
因此,计算logloss的伪代码如下:
如果把CTR预估看作一个二分类问题(点击还是不点击),则可以计算出
标签:log 指标 isp img http .com png 伪代码 代码
原文地址:http://www.cnblogs.com/coldyan/p/6088436.html