[翻译博文]线性隐层单元并不存在

时间：2016-10-21 19:56:55 阅读：179 评论：0 收藏：0 [点我收藏+]

译自：Don‘t Interpret Linear Hidden Units, they do not exist!

http://building-babylon.net/2016/10/19/dont-interpret-linear-hidden-units-they-dont-exist/

已经训练好了模型，很自然的想到该如何理解该模型。数据点最大化隐层单元的激活函数，将数据点输入特征视为指示哪个单元来重组。下面是对隐层单元的误解：

隐层没有非线性单元；
层间权重无约束；
采用（随机）梯度下降或类似算法训练模型；

在这样的情形下，我们需要将隐式的特征空间视为一个整体。

考虑对矩阵 $技术分享$ 的分解，固定维度 $技术分享$ ，将 $技术分享$ 分解为矩阵的乘积 $技术分享$ 。模型的参数是一对具有合适维度的矩阵 $技术分享$ ，输入向量x通过隐层后的像为 $技术分享$ 。从隐层单元的激活函数的角度来看， $技术分享$ 固定了隐层特征空间的坐标系统，用来度量沿着每个坐标轴的向量的位移。若 $技术分享$ 对应选定的坐标系统的单位向量，则内积 $技术分享$ 沿着每个坐标轴所产生的位移可以分别用 $技术分享$ 来度量。

下面，我们要证明：若 $技术分享$ 是对隐层特征空间的任意旋转变换，那么模型参数 $技术分享$ 与 $技术分享$ 一样可能会导致给定矩阵X的分解，而发生的概率仅仅取决于梯度下降的随机初始化。因此，隐层激活函数也有可能用 $技术分享$ 来定义。隐层单元激活函数 $技术分享$ 与 $技术分享$ 确实不同。既然 $技术分享$ 是正交变换，那么 $技术分享$ 。模型参数（即 $技术分享$ 与 $技术分享$ ）的不确定性与坐标系统方向（即 $技术分享$ 与 $技术分享$ ）的不确定性是一样的。选择坐标基是完全任意的，所以隐层单元的激活函数也是无意义的。

更一般化的情形，当 $技术分享$ 是一个隐层特征空间的正交变换时，上面的证明也是成立，例如 $技术分享$ 是旋转与反射的组合。

上述思想并不新鲜，因为Szegedy等人曾经采用实验验证隐层单元的解释。我们逐步来展示他们关于word2vec的陈述。

Their statement about word2vec...word representations, where the various directions in the vector space representing the words are shown to give rise to a surprisingly rich semantic encoding of relations and analogs. At the same time, the vector representations are stable up to a rotation of space, so the individual units of the vector representations are unlikely to contain semantic information.

给定矩阵 $技术分享$ 以及维度 $技术分享$ ，矩阵分解的任务就是要学到 $技术分享$ 与 $技术分享$ 两个矩阵，使得其乘积能尽可能逼近原始的矩阵 $技术分享$ 。参数空间由矩阵 $技术分享$ 与 $技术分享$ 中所有的元素构成。

parameter vector: $技术分享$

换个角度来讲，隐层的特征空间是 $技术分享$ 维空间，包含了 $技术分享$ 与 $技术分享$ 的列向量构成。

采用梯度下降训练矩阵分解模型时，通常需要使用误差函数的梯度（优化目标的梯度）来重复更新模型参数。例如，误差函数可以是如下形式：

$技术分享$

值得注意的是，这种误差函数并不直接依赖于 $技术分享$ 或 $技术分享$ ，而是只依赖于两者的乘积 $技术分享$ ，也就是说乘积 $技术分享$ 与矩阵 $技术分享$ 的近似程度。由于误差函数仅依赖于输入和输出，所以这一点对任何形式的误差函数都成立。

隐层特征空间的正交变换：空间的正交变换是由通过原点的超平面的旋转与反射变换组成。在矩阵中，正交变换定义为一个矩阵与其转置的乘积为单位矩阵。利用这个性质，可以很容易证明：隐层特征空间的正交变换，也就是参数空间各列上的正交变换。 $技术分享$ 与 $技术分享$ 分别对应隐层特征空间的正交变换群与参数空间的正交变换群，这两个群是同态的。

群同态（Group Homorphism）： $技术分享$

梯度等高线：参数空间上的块对角矩阵形式的正交变换的效果是特征空间对矩阵A与B左乘以正交变换矩阵P，这个效果用数学语言描述为： $技术分享$ 。

$技术分享$

因此，我们 $技术分享$ 与 $技术分享$ 可以说产生对原始矩阵X相同的近似。从而可以得到 $技术分享$ 。隐层特征空间的正交变换 $技术分享$ 描绘出了参数空间中 $技术分享$ 的等高线。现在，梯度向量总是垂直于等高线，在梯度下降过程中，需要访问的参数空间的点序列保留了初始化时设置的隐层特征空间的方向。所以，如果 $技术分享$ 的梯度下降起始于 $技术分享$ ，收敛到参数 $技术分享$ ，你可能更期望收敛到 $技术分享$ ，那么需要做的就是重新做一遍梯度下降，只不过初始值设置为 $技术分享$ 。由此看来，我们的矩阵分解模型所学到的矩阵 $技术分享$ 只是有隐层特征空间的正交变换决定，等价于同时的列变换。