9.3 主成分分析
高等工程数学 讲义 2025AU
问题的提出
评价一个指标时,可能会考虑多个相关因素,每个因素的影响大小(重要程度)有所不同.
- 例如,评估高等院校的排名时,需要考虑的因素可能包括:
- 师资队伍 学历构成、年龄构成、学源结构、院士、杰青、优青、长江学者、...
- 教学水平 学科方向设置、信息化水平、名师数量、...
- 科研水平 项目经费、来源、论文数量、SCI检索数量、被引用数、高引用论文数、ESI 前1%论文数量、成果应用的效益、...
评价因素众多可能带来的问题
数据量大、数据关系复杂;重要性难以取舍.
- 综合评价难以兼顾效率和精确性.
- 问题:恰当地把握不同因素的取舍,在提高处理效率的同时,尽可能保证评价的准确可靠?
- 主成分分析(Principal Components Analysis,PCA)利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为 主成分.
主成分分析(PCA)
- Karl Pearson 于1901年发明,用于分析数据及建立数理模型.
- 1930年左右,由 Harold Hotelling 独立发展并命名.
- PCA 是最简单的以特征量分析多元统计分布的方法,这种运算可以被看作是揭露数据的内部结构,从而更好地解释数据背后的决定因素的方法.
其他的 PCA
from: https://en.wikipedia.org/wiki/Principal_component_analysis
the discrete Karhunen–Loève transform (KLT) in signal processing
the Hotelling transform in multivariate quality control
proper orthogonal decomposition (POD) in mechanical engineering
singular value decomposition (SVD) of , and eigenvalue decomposition (EVD) of in linear algebra
factor analysis
Eckart–Young theorem, or empirical orthogonal functions (EOF) in meteorological science
empirical eigenfunction decomposition
empirical component analysis
quasiharmonic modes
spectral decomposition in noise and vibration
empirical modal analysis in structural dynamics
PCA 的基本思想
- 分析变量(因素)间的依赖关系.
- 用
较少的变量去解释(还原)原始数据中的大部分信息,达到剔除冗余信息,压缩数据量的目的.
- 将许多相关性很高的变量转化成
个数较少、彼此互相独立 且 影响最为显著 的几个新变量.

PCA 的实质
- 给定一个高维数据集,PCA 就能够提供与之对应的一幅比较低维的图像,该图像可以视为高维数据集在低维空间中的
投影.
- PCA 的实质是
选择合适的低维空间,以最大限度地保留原数据集的特征,同时大大降低数据处理的复杂度.
- 应用领域:高维数据处理、数据可视化、机器学习(过拟合的处理)、模式识别、语义网格、...
PCA 的数学描述
- 设 是待考察的随机变量, 是待构造的 个随机变量.
- 称 张成的空间为 维 主平面 (Principal Plane).
- 满足:
- 是 的线性组合,.
- .
- 中应尽可能多地包含 中的信息.
- 问题:如何度量随机变量中包含信息的多少?
信息量与方差
信息熵(Shannon):一个变量的不确定性越大,其中包含的信息越多.
- 特别地,如果一个变量的取值确定了,则它包含的信息量为零.
- 对随机变量而言,
方差 越大意味着随机变量的取值越 分散.
- 随机变量的取值越分散,则越
难以预测 该随机变量的取值.
- 越难以预测随机变量的取值,意味着该随机变量蕴含的
信息 越多.
- 信息量大 方差大.
主成分的构造原则
- 确定(构造) 的原则:
- 是 的
凸线性函数,即:
- .
- 若 是 的凸线性函数,且 , 则
主成分的构造
定理 设 为 维随机向量,, 的 个特征根记为
对应的标准正交化的特征向量为 ,则 的第 个主成分为 ,且
证明: 先验证 的性质.
- 设 ,, 且 .
- 以下证明 .
- 该问题可转换为求 在 和 , 的条件下的极值问题.
- 令 .
- 由 Lagrange 乘子法,令 .
- ,也即:
- 可以验证 , 满足以上方程组.
- 此时 和 恰为相互对应的特征值和特征向量.
- 注意到能够满足 , 的最大特征值为 ,故 , .
主成分的性质
定理 设 为 维随机变量. 是 的第 个主成分 当且仅当以下两个条件同时成立:
- , 其中 为 的特征值.
- ,其中 , 为与 相对应的标准正交特征向量.
主成分的贡献率
设 的特征值为 .
- 称 为 的第 主成分的 贡献率 (Contribution Rate).
- 称 为前 个主成分的 累积贡献率 (Cumulative Contribution Rate).
- 选取主成分数量的一般原则:选取前 个 ,使得它们的累积贡献率不低于
例 设 的协方差阵为
试求各主成分与累积贡献率.
解:
- 先求出 的特征值:.
- 再求对应特征值的单位特征向量:.
- 第一主成分:,贡献率:.
- 第二主成分:,累积贡献率:.
PCA 在数据压缩中的应用
- 假设有容量为 的 维数据(样本观测值): .
- 计算各样本的相关系数:
- 记 ,求出 的特征值 和对应的特征向量 .
- 计算累积贡献率,确定主成分个数 ,满足 .
- 计算得到主成分:.
例:健康程度的刻画
在对某中学初中学生进行体检的过程中,测量了身高(), 体重(),胸围(),坐高(). 现得到 个学生的样本值. 经计算得到样本相关矩阵
试求各主成分.
解:
- 先求出 的特征值:.
- 再求对应的特征向量:
- 第一主成分:
- 第二主成分:
标准化变量的主成分
- 在实际问题中, 的各个分量的意义不同,因而量纲往往也不同.
- 量纲的差异常常会影响到协方差阵的特征根与特征向量,从而影响到主成分的选取.
- 为消除量纲差异的影响,可以考虑将变量标准化:令 .
- 称为 的 相关矩阵 (Correlation Matrix).
- 利用相关矩阵求主成分,称为 的 标准化变量的主成分.
PCA的发展与推广
Sparse PCA
- 利用数据自身的稀疏特征,添加一些规则,只使用 的部分分量来构造 .
- 有效提高数据处理的效率.
Robust PCA
- 野值的存在往往对严重影响 PCA 的效果.
- 通过添加数据的预处理环节,剔除野值,提高 PCA 的效果.
Nonlinear PCA
- 利用非线性的曲线或流形来构造主成分.
- 通常需要对数据的几何结构有所了解.
- 代表性的分支:
- elastic map
- principal geodesic analysis
- kernel PCA
- multilinear PCA (MPCA)
- N-way PCA
小结