矩阵的Schur补和群论的Lagrange定理
Schur-MatrixInverse
Lagrange-SubGroup
Gauss-MultivariateNormal
index
本文先介绍通过将矩阵对角化得到分块矩阵的Schur补,然后用一个直观的记号代表该Schur补,从中可以得到一个形式上美丽的公式,不禁让人想起贝叶斯定理、群论中的Lagrange定理。
矩阵的Schur补
已知矩阵Σ可分块如下:
Σ=[Σ11Σ21Σ12Σ22].
在
Σ22可逆的情况下,可将
Σ块对角化得到:
[I0−Σ12Σ−122I]Σ[I−Σ−122Σ210I]=[Σ11−Σ12Σ−122Σ2100Σ22].
这里,左上的非零块矩阵Σ11−Σ12Σ−122Σ21就叫做矩阵Σ关于分块Σ22的Schur补。可用一个直观的记号代表他:
Σ/Σ22≡Σ11−Σ12Σ−122Σ21.
为什么用这个记号呢?
来看看当对上述矩阵对角化等式两边施加行列式算子时能得到什么吧!因为:
- |AB|=|A||B|,和
- 三角矩阵的行列式等于对角块上的行列式之积
所以等式左边=|Σ|,等式右边=∣∣Σ11−Σ12Σ−122Σ21∣∣|Σ22|,用刚才的Schur补记号可以得到如下行列式等式:
|Σ|=∣∣Σ/Σ22∣∣|Σ22|.
现在撇开什么矩阵啊行列式啊Schur补啊,就只看这个行列式等式,是不是从形式上
自然就成立了!在
Σ11可逆的情况下,模仿上述等式可得到:
|Σ|=∣∣Σ/Σ11∣∣|Σ11|.
这里记号
Σ/Σ11表示
Σ关于
Σ11的Schur补。
通过
Σ作为桥梁,可将两者联系起来:
∣∣Σ/Σ11∣∣|Σ11|=∣∣Σ/Σ22∣∣|Σ22|.
再看一眼,联想到了什么?贝叶斯定理?Lagrange定理?抑或群同态基本定理?
......
贝叶斯定理
贝叶斯定理在形式上可由联合概率P(X,Y)作为桥梁:
P(X)P(Y|X)=P(Y)P(X|Y)
导出:
P(Y|X)=P(Y)P(X|Y)P(X),P(X)≠0.
Lagrange定理
群论Lagrange定理说明有限群G与其子群H的规模之比是一个整数(毕达哥拉斯:“一切真理都可以用比例去反映和证实”):
|G|/|H|=[G:H],
这个整数比叫做
H在
G中的指数,即陪集数。
可能由于历史的原因,这个指数的记号是
[G:H],不过我认为完全可以用
|G/H|来代替更直观:
|G|/|H|=|G/H|.
另一个原因是记号
G/H已经有固定含义了:表示由群
G和
G的正规子群
H构造得到的商群:
G/H= {
Hg|g∈G } 注意集合元素的型构是陪集,同态基本定理说商群
G/H是群
G的同态像。
多元正态分布
在第一个部分矩阵的Schur补中用的记号是Σ,自然联想到多元高斯分布的的协方差矩阵。是的本篇小文的源头就是Jordan和Bishop的书稿 An Introduction to Graphical Models 第12章The Multivariate Gaussian,里面还讲了如何用Trace Trick求多元高斯分布关于协方差矩阵的导数,从而得到分布参数(μ,Σ)的最大似然估计。