【Matrix Factorization】林轩田机器学习技法

时间：2015-08-15 00:04:34 阅读：319 评论：0 收藏：0 [点我收藏+]

标签：

在NNet这个系列中讲了Matrix Factorization感觉上怪怪的，但是听完第一小节课程就明白了。

林首先介绍了机器学习里面比较困难的一种问题：categorical features

技术分享

这种问题的特征就是一些ID编号这类的，不是numerical的。

如果要处理这种情况，需要encoding from categorical to numerical

最常用的一种encoding方法就是binary vector encoding（也是实习工作中用过的路子），将binary vector作为输入。

联系之前学过的模型，可以用NNet来学习这种映射关系。

技术分享

但是，binary vector毕竟不是numerical vector，由于每个输入只在一个维度上是1，其余都是0，因此，NNet中的tanh就没啥必要了（因为每个输入数据x喂到每个tanh的只有一个维度的值，输出也只受这个一个维度的值影响，且tanh是关于x是单调的）。

所以，有了如下的简化版的Linear Network，即把tanh换成了Σ求和。

技术分享

这里对符号进行一下说明：

1）V是d×N的矩阵（d是hidden unit的个数，N是user的个数）：V的每个column代表每个user对hidden unit的权重。

2）W’是M×d的矩阵（M是movie的个数）：M的每个row代表的是每个movie关于hidden unit的权重。

考虑每个xn是binary vector，则h(xn) = W’vn（动笔推导一下就OK了）：Linear Network的输出h(xn)是一个M维的vector，代表每个user对于各个movie的rating。

综上，Linear Network对于recommender system来说，需要学习的一个是V矩阵（user-hidden unit或latent factor），另一个是W矩阵（item-hidden或latent factor）。

在介绍学习方法之前，林重新整理了一下Linear Network问题。

技术分享

linear network对于m-th movie来说：就是有一个对应的Wm‘来对转换后的x进行线性加权hm(x) = Wm‘ fi(x)。

因此，学习目标也了然了：

1）transform的系数矩阵

2）linear model的系数矩阵

技术分享

综上，由于Linear Network的输入是binary vector的，因此对原Linear Network问题做一个变形：rnm = Wm‘Vn → R = V‘W，即转化成一个matrix factorization问题。（个人非常喜欢这段motivation的讲解，matrix factorization为什么在NNet这部分出现也理解了）

关于Linear Network转化成Matrix Factorization问题的推导，按照个人理解，我再多写两笔：

h(x) = W‘Vx （在前面的PPT中找）

　　 = (Vx)‘W （由于h(x)是一个向量所以颠倒一下没关系了，输出h(x)由原来的列向量变成了行向量了，但对应位置的值不变）

　　 = x‘V‘W （(AB)‘=B‘A‘，矩阵转置运算性质）

则h(X) = X‘V‘W （按行补上所有的输入xn=1...N）

　　　 = I(N) V‘W （X’矩阵每一行代表一个输入的binary vector，这里按照编号顺序排布X，所以X‘就是一个单位阵喽）

　　 = V‘W （原始的Linear Network问题转化为Basic Matrix Factorization问题了）

并且，这种分解是可以加上些物理意义的：可以把每个hidden unit当成是一种隐含特征（喜剧、动作...）。V和W代表user与movie与hidden unit的关系。

下面讲求解模型的方法：

技术分享