Preference Learning——Object Ranking：Learning to Order Things

时间：2016-04-17 22:44:24 阅读：378 评论：0 收藏：0 [点我收藏+]

标签：

这篇论文是Cohen1999年发表在Artificial Intelligence（A类）上的一篇文章，针对的是object ranking问题。

Abstract

在归纳学习(inductive learning)中最受关注的是分类学习问题，而其实还有一类排名学习问题也很重要。可以基于概率分类器模型或者回归模型进行排名模型的构建。排名任务较分类任务更容易，因为偏好信息比标签更容易获取。举几个例子，根据用户特征对邮件中未读邮件进行个性化排名，等待用户阅读。根据用户对电影的评分信息，将电影进行排名然后生成推荐列表反馈给用户。再比如信息检索中根据与查询的相关性对网页进行排名。在推荐系统中，根据用户对商品的评分信息，对商品进行排名，实际上，用户的评分信息其实就是个偏好关系（但每个用户的同一个评分代表的偏好程度不相同）。

Define Notations：

object ranking：训练数据集是样本之间的偏好关系，形如v优先于u，样本没有类标签只有特征数据。
X：样本集合{x1,x2…xn}，n表示样本个数。
f(v)：f是排序函数（ordering function），f(u)>f(v)表示u排在v的前面。如果f(u)是正交符号（⊥），表示无法对u进行排序。
Rf：Rf是偏好函数（preference function ），由f函数导出。如果Rf(u,v)=1表示更偏好u，Rf(u,v)=0表示更偏好v。当Rf(u,v)=1/2表示u和v无法进行比较。
PREF(u,v )：带权偏好函数（preference function ），取值在[0,1]区间。PREF(u,v )的值越接近1表示更有更有把握将u排在v的前面，越接近0表示更有把握将v排在u的前面，当为1/2时表示u和v的先后顺序无法确定。

看一个抽象的例子：其中f和g都是排序函数，分别对instance进行排序。将f和g转化为Rf和Rg,然后将其线性组合生成PREF得到带权的偏好函数。

技术分享

看个具体的例子：给定一个文档集合X，里面每个文档的属性是单词，取值为单词出现的频数，总共有N个属性{w1,w2…wn}。fi(u)表示文档u的第i个属性的出现频率。那么，Rfi将根据第i个属性的大小对文档进行排序。但是每个单词的重要性不同，因此需要进行加权求最终的排名。

再看一个更具体的例子：一个元搜索应用程序（a metasearch application）的目标是对给定的一个查询，结合几个搜索引擎的结果然后对网页进行排名。比如有N个搜索引擎e1,e2…en。Li表示ei给出的网页排名列表。fi(u)=-k表示第ei将网页u排名为k,fi(u)=-M（M>|Li|）表示ei将没有出现在Li的网页的排名设为W。

Linear Combination

假设我们有若干个排名专家（ranking experts），每个ranking expert生成一个排名函数。对每个ranking expert的权值wi是增量更新的。假设学习的过程迭代T次，每次输入的训练集为Xt，每个ei给出一个排序函数fti（第t次迭代ei给出的排序函数），此时的Xt包含了所有Lti(第t次迭代ei的排行榜)。然后生成Rti(第t次迭代第i个偏好函数)，然后计算一个损失函数。

技术分享

其中F是一个反馈信息：

feedback生成方式分两种：
1.唯一相关的页面要优先于所有的页面
2.通过收集某个用户的点击数据，认为相关页面要优先于其前面的所有的页面

feedback其他方式：
1.直接：通过询问用户将这个ranking expert生成的网页排名重排名
2.间接：通过用户在网页上停留的时间将网页进行重排名

这个损失函数表示生成的R与反馈信息不同的概率。

然后再利用Hedge algorithm算法，这个算法维护着一个正的权值向量wt=(wt1.wt2…wtn),w1i初始化为1/N。表示初始状态时，每个ranking expert的权重是相同的。然后每次计算带权偏好函数PREF：

技术分享

w的迭代公式如下：

技术分享

其中β是一个介于0到1的参数，Zt是一个归一化参数，使得w更新后所有权值和为1.

利用Hedge算法计算PREF的伪代码：

技术分享

Ordering Instances

在Hedge algorithm中需要计算一个排名p,那么首先需要指出的是怎样衡量这个排名的好坏，因此提出了一个指标AGREE：
但是找到一个理想化的排名使得AGREE最大这个问题是一个NP-complete问题。因此本文就提出了一个贪心的求解算法greedy ordering algorithm：

技术分享

算法性能：

在这个算法中，可以将PREF看成是一个有向带权图，其中边(u,v)的权值就是PREF(u,v)。可以发现π(）函数实际是PREF出度减入度并且这个算法中，排名依次降低（p(v)=|V|,而V是在减少的）。

看一个具体的例子：

π(b) = 2, π(d) = 3/2, π(c) = -5/4, π(a) = -9/4========>p(b)=4
π(d) = 3/2, π(c) = -1/4, π(a) = -5/4========>p(d)=3
π(c) = 1/2 , π(a) = -1/2========>p(c)=2,p(a)=1
排名顺序：b > d > c > a.