标签:
http://blog.json.tw/using-matlab-implementing-pca-dimension-reduction
設有m筆資料, 每筆資料皆為n維, 如此可將他們視為一個mxn matrix。若資料的維度太大時, 可能不利於分析, 例如這m筆資料用作機器學習。
PCA的想法是算出這mxn matrix的斜方差矩陣, 此矩陣大小為nxn, 計算此矩陣n個特徵值(eigen value)及其對應的特徵向量(eigen vector), 依eigen value大小由小到大排列其對應的eigen vector, 取出前幾個eigen vector假設為k個(k< n), 如此製造出一個矩陣nxk。原來資料的矩陣乘上此矩陣可得到mxn x nxk = mxk 大小之矩陣, 達到降維的效果, 以較低維度表示高維度的空間。
至於k值要取到多少降到幾維? 降的維度越低, 能表達原空間的程度越有限, 通常取到能夠表達到原來空間程度95%以上的維度, 至於表達程度的計算方式如下, 舉例若降到k維, 則能表達原空間的程度百分比為:
eigenvalue前k項和 / eigenvalue總和
假設eigen value為
517.7969
67.4964
12.4054
0.2372
則取k=1~4分別能夠表達原來空間的程度為
0.86597
0.97886
0.9996
1
A mxn matrix
[eigenVector,score,eigenvalue,tsquare] = princomp(matrix);
eigenVector與eigenvalue皆已排序, 若要降到k維, 取轉換矩陣
transMatrix = eigenVector(:,1:k);
取新的 matrix = matrix * transMatrix
http://blog.sina.com.cn/s/blog_616d4c030102vcz6.html
PCA的原理就是将原来的样本数据投影到一个新的空间中,相当于我们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标,也可以理解成把一组坐标转换到另外一组坐标系下,但是在新的坐标系下,表示原来的原本不需要那么多的变量,只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。
比如,原来的样本是30*1000000的维数,就是说我们有30个样本,每个样本有1000000个特征点,这个特征点太多了,我们需要对这些样本的特征点进行降维。那么在降维的时候会计算一个原来样本矩阵的协方差矩阵,这里就是1000000*1000000,当然,这个矩阵太大了,计算的时候有其他的方式进行处理,这里只是讲解基本的原理,然后通过这个1000000*1000000的协方差矩阵计算它的特征值和特征向量,最后获得具有最大特征值的特征向量构成转换矩阵。比如我们的前29个特征值已经能够占到所有特征值的99%以上,那么我们只需要提取前29个特征值对应的特征向量即可。这样就构成了一个1000000*29的转换矩阵,然后用原来的样本乘以这个转换矩阵,就可以得到原来的样本数据在新的特征空间的对应的坐标。30*1000000 * 1000000*29 = 30 *29, 这样原来的训练样本每个样本的特征值的个数就降到了29个。
下面是百度百科中对pca降维的一段解释,还是挺清晰的:
“对于一个训练集,100个对象模板,特征是10维,那么它可以建立一个100*10的矩阵,作为样本。求这个样本的协方差矩阵,得到一个10*10的协方差矩阵,然后求出这个协方差矩阵的特征值和特征向量,应该有10个特征值和特征向量,我们根据特征值的大小,取前四个特征值所对应的特征向量,构成一个10*4的矩阵,这个矩阵就是我们要求的特征矩阵,100*10的样本矩阵乘以这个10*4的特征矩阵,就得到了一个100*4的新的降维之后的样本矩阵,每个特征的维数下降了。
标签:
原文地址:http://www.cnblogs.com/xfzhang/p/4601014.html