矩阵的基本概念
假设 aij∈R, 其中 i=1,2,...,m; j=1,2,...,n. 我们定义如下的行列式:
A=??????a11a21?am1a12a22?am2???a1na2n?amn??????
是一个维数为
m×n 的实数矩阵。有时候我们会用如下的表达式来表示一个矩阵:
A=[aij],i=1,2,...,m;j=1,2,...,n
这表示一个
m行
n列的矩阵,下标的第一个数
i表示行,第二个数
j表示列。
列向量定义: 一个向量可以看成是只有一列的矩阵,所以,这里讨论的所有向量都默认为列向量。
符号定义: 矩阵用大写的粗体字母表示,比如矩阵
A,B,X, 而向量用小写的粗体字母表示,比如向量
a,b,x.
矩阵的转置: 矩阵
A的转置为
AT.
矩阵的逆: 如果一个矩阵
A存在逆矩阵,则该逆矩阵表示为
A?1.
矩阵的 determinant: 如果一个矩阵
A是一个方阵,则它的determinant表示为
|A|
单位矩阵表示为
I,
零矩阵或
空矩阵表示为
0。
矩阵的迹: 如果一个矩阵是
n×n 的方阵,则该矩阵的迹(trace) 为
trA=∑ni=1aii, 等于所有主对角线元素之和,一个实数的迹是它本身,
矩阵的迹满足下列关系:
trAT=trAtrAB=trBAtrABC=trCAB=trBCA
矩阵的乘法
设 A 是一个 m×n 的矩阵,B 是一个 n×p的矩阵, 则两者的乘积AB 表示为:
C=AB
其中
C 是一个
m×p 的矩阵,
C 中的任意一个元素
cij 表示为:
cij=∑k=1naikbkji=1,2,...,m;j=1,2,...,n
类似的,一个
m×n 的矩阵
A 与一个
n×1 的列向量
x相乘, 等于
z=Axzi=∑k=1naikxki=1,2,...,m
而一个
m×1 的列向量
y 与一个
m×n 的矩阵
A相乘,等于
zT=yTAzi=∑k=1makixki=1,2,...,n
因此,一个
m×1 的列向量
y,一个
m×n 的矩阵
A 以及一个
n×1 的列向量
x, 他们的
乘积(是一个标量)可以表示为:
α=yTAxα=∑j=1m∑k=1najkyjxk
如果
A∈Rm×n,
B∈Rn×p, 则满足以下关系:
C=ABcij=∑k=1naikbkjCT=BTATcji=∑k=1najkbki
矩阵的求导
假设有如下的函数:
y=Ψ(x)
其中
y∈Rm×1,
x∈Rn×1, 则向量
y关于
x的导数,可以表示为:
?y?x=??????????????y1?x1?y2?x1??ym?x1?y1?x2?y2?x2??ym?x2????y1?xn?y2?xn??ym?xn?????????????
这个
m×n 的矩阵,是向量
y关于
x的一阶偏导数,这个矩阵也称为Jacobian矩阵。如果
x 是一个标量,则Jacobian矩阵
是一个
m×1的矩阵,如果
y是一个标量,则Jacobian矩阵是一个
1×n的矩阵。\
已知,
y∈Rm×1,
x∈Rn×1,
A∈Rm×n,
y=Axwe can get:?y?x=A
证明
yi=∑k=1naikxk??yi?xj=aiji=1,2,...m,j=1,2,...n.??y?x=A
如果
x 是关于
z 的函数
y=Axwe can get:?y?z=A?x?z
如果:
α=yTAx 则:
?α?x=yTA?α?y=xTAT
如果:
α=xTAx,
x∈Rn×1,
A∈Rn×n 则:
?α?x=xT(A+AT)
证明
α=xTAx=∑j=1n∑i=1naijxixj??α?xk=∑j=1nakjxj+∑i=1naikxik=1,2,...n??α?x=xTAT+xTA=xT(A+AT)
如果
A 是一个对称矩阵,那么
α=xTAx 对
x 的导数为,
?α?x=2xTA。\
设
α=yTx, 其中
x 和
y 是关于
z 的函数。则
?α?z=xT?y?z+yT?x?z
参考文献
Andrew Ng, Machine Learning, Stanford University.
Randal J. Barnes, Matrix Differentiation, University of Minnesota, Minneapolis, USA
Dhrymes, Phoebus J., 1978, Mathematics for Econometrics, Springer-Verlag, New york, 136 PP.
Golub, Gene H., and Charles F. Van Loan, 1983, Matrix Computations, Johns Hopkins University Press, Baltimore, Maryland, 476 pp.
Graybill, Franklin A., 1983, Matrices with Applications in Statistics, 2nd Edition, Wadsworth Internationl Group, Belmont, California, 461 pp.