前两天在研究期权组合问题,突然觉得对统计有了一点新的理解,所以今天写一点关于多元线性方面的东西,以待后用。
1. 多元线性回归的基本形式:
一个因变量,比如说某个地区的气温,被认为是由其他几个自变量,比如海拔、阳光亮度、湿度等等有关。我这里把这几个自变量理解为对应的instrument。假设有n次观测,那么得到的数据就是:
这里可以理解为在每次观测中,我们有Y这个Portfolio以及各个instrument对应的值。现在,我们就要找出这个Portfolio到底由对应的多少个instrument组成。而且,由于观测是随机的,因此成分是固定的!
这里,要考虑两种情况:
1)n<k(自变量的数量)
举例来说,假设n=2,那么这个问题我们可以写成求下面方程组中的a,b,c
根据线性代数的知识,我们知道a,b,c的解不唯一。instrument太多,以至于这些instrument赋予不同的权重都能得到目标结果Y。(当然,这里的都假设矩阵的性质良好)
2)n>k
再次使用线性代数的知识,a,b,c要么唯一(共线性),要么无法解出,那怎么办呢?我们引入一个残差e的概念。
那么这时候上面的方程组就变成了:
为了得到a,b,c的唯一解,所以我们引入了最小二乘法的思想,即最小化e的平方和!
上式对B(参数)求导并且令为0,则我们可以得到唯一的B(即:唯一的a,b,c解)
因为这个解是使用最小二乘法为目标条件才得到的,而这里的最小二乘法中有随机因素e,因此B的解只能算是根据现有观测的估计。因此,我们要知道B的参数的范围,这就有了参数的标准差。
更进一步,我们知道这些参数估计都服从T分布,自由度是n-k。自由度可以理解为,如果再增加n-k个instrument,那么根据得到的方程组就能完全确定的得到B的值,不需要最小二乘法。
2.主成成分分析思想:
通过上面的分析,我们知道其实我们就是在用给定的instrument的组成来模拟Y这个Portfolio。那么,能不能用其他的instrument来代替原有的,而后同样得到Y呢?答案是肯定的。
这个有点先是正交分解,像上例中说的,如果有3个instrument,那么我就可以在三个维度找到替换的instrument,而这三个新的instrument可以通过线性组合完美地得到原来的instrument。这个其实就是主成成分分析在做的事情之一。注意,这新的instrument彼此没有线性关系(不同维度)!
正交分解为:
可以证明: 的协方差矩阵就是 ,他们是线性无关的!
原文地址:http://blog.csdn.net/huiwuhuiwu/article/details/45601023