6.2 参数估计 高等工程数学 讲义 2025AU
参数估计的数学描述
设总体 的分布函数为 ,其中 是 未知参数 .
的取值范围已知,即已知 .
从总体中抽取样本 .
根据该样本对未知参数 做出估计.
参数的点估计(Point Estimation)
矩估计
最大似然估计
Bayes估计
最小二乘估计
6.2.1 矩估计(Method of Moments)
基本思想:
用样本矩近似总体矩,进而求解其中的参数(估计)值.
最初由俄国数学家 Pafnuty Chebyshev 在 1887 年提出.
理论基础:Khinchin大数定律
设 是独立同分布的随机变量列,若 的数学期望 存在,则 服从大数定律.
即:对任意的 , .
随着样本容量的增加,样本矩将越来越接近于总体矩 .
Pafnuty Chebyshev
Пафну́тий Льво́вич Чебышёв (1821-1894)
considered to be a founding father of Russian mathematics. Among his well-known students were the mathematicians Dmitry Grave, Aleksandr Korkin, Aleksandr Lyapunov, and Andrei Markov.
Chebyshev Inequality:
矩 设 是来自总体 的样本
总体 阶矩 : .
样本 阶矩 : .
理论上,总体 阶矩和样本 阶矩并不相等.
前者是未知的常数,是确定的.
后者是变量,是存在波动的.
但由 Khinchin 大数定律 , .
矩估计的求解 设 是来自总体 的简单随机样本,其中 是待估的未知参数.
求总体 的前 阶矩
求样本的前 阶矩 .
解方程(组): ,
得 .
称 为 的 矩估计量 (Moment Estimator).
称 为 的 矩估计值 (Moment Estimate).
Poisson 强度的矩估计 例 设 是来自总体 的样本,求参数 的矩估计.
解: Poisson分布的分布律 .
总体一阶矩和样本一阶矩分别为 , .
令 ,求得参数 的矩估计(量)为 .
总体方差的矩估计 引理 设 是来自总体 的样本,设总体 的二阶矩存在,则
样本均值是总体均值 的矩估计.
样本方差 是总体方差 的矩估计.
例 袋中有红球和黑球共 只. 现从袋中有放回地次取个球出来观测其颜色,直到取到红球为止,此时记取球的总次数为 . 若这样的试验一共进行了 次,得到的数据分别是
试求袋中红球数的矩估计.
解: 设袋中共有 个红球. 表示第一次摸到红球时摸球的总次数. 则
进而 .
样本矩 .
令 ,即 ,解得 .
综上,袋中的红球数约为 .
对矩估计法的评价
原理直观,是一种古老的参数估计方法.
只用到总体矩,方法简单.
如果总体矩不存在,则无法求参数的点估计.
例如,设总体服从Cauchy分布,其密度函数为 ,因为总体的数学期望不存在,故 的矩估计不存在!
没有用到总体的分布形式,总体包含的信息没有得到充分利用.
基于大数定律,在大样本下矩估计才有较好的效果.
均匀分布参数的矩估计 例 设 是来自总体 的简单随机样本,其中 是未知参数,求 的矩估计.
讨论: 假设有如下来自 的观测值
计算得到 , .
进而得到 .
数据中的最大和最小值分别是 和 ,对均匀分布而言,似乎这才是更合理的参数估计值.
问题: 是否有比矩估计更加“合理”的估计?
6.2.2 最大似然估计
最大似然
基本思想
随机事件 的概率 由 的分布 确定, 而分布又由参数 决定.
在已经掌握了样本,也即具体发生的事件的情况下,有理由相信这个已经发生的事件就是最有可能发生的事件.
基于“最大可能”的思想来确定参数的估值,就是要找一个估计值 ,使得已发生事件的概率最大.
The logic of maximum likelihood is both intuitive and flexible, and as such the method has become a dominant means of statistical inference .
最大似然估计(Maximum Likelihood Estimation)
Early users of maximum likelihood were C.F. Gauss, P.S. Laplace, etc.
However, its widespread use rose between 1912 and 1922 when Ronald Fisher recommended, widely popularized, and carefully analyzed maximum-likelihood estimation.
R. A. Fisher
Sir Ronald Aylmer Fisher (1890-1962)
英国统计学家、演化生物学家与遗传学家,现代统计学与现代进化论的奠基者之一.
"a genius who almost single-handedly created the foundations for modern statistical science" .
"the single most important figure in 20th century statistics" .
"the greatest of Darwin’s successors" .
例 一老战士与一新战士的射击命中率分别为 和 ,在射击训练中每人各打三枪. 训练结束后现场留有一张靶纸. 如果靶纸上有 个弹孔,试问这张靶纸最有可能是谁的?如果靶纸上只有 个弹孔,试问这张靶纸又最有可能是谁的?
分析: 设靶纸上出现的弹孔数为 ,则 服从二项分布
最大似然估计 设 是来自总体 的样本, 为其观测值,记
若 是 离 散 型 随 机 变 量 若 是 连 续 型 随 机 变 量
称 是 似然函数 (Likelihood).
若统计量 满足 ,则称其为 的 最大似然估计(量) (Maximun Likelihood Estimator,简写:MLE ).
最大似然的思想用一句话可以概括为:参数看上去最像什么值,就用这个值作为参数的估计.
均匀分布参数的极大似然估计 例 设 是总体 的简单随机样本,试求参数 和 的 MLE.
提示:
似然函数 ,
令 ,从该方程显然无法直接求得 MLE.
考虑到参数的取值范围, 的 MLE 应该是 .
指数分布参数的最大似然估计 例 设 是来自总体 的简单随机样本,其中 是未知参数,试求 的 MLE.
提示:
的密度函数 .
似然函数 .
考虑到 和 的极值点相同,故令 .
求解该方程(对数似然方程),可得 .
正态总体参数的最大似然估计 例 设 是来自总体 的简单随机样本,求 和 的 MLE.
提示:
求 MLE 的一般步骤
根据总体的分布,写出似然函数 ;
写出 对数似然函数 ;
写出 对数似然方程(组)
解出 即为 的MLE.
如果由对数似然方程(组)无法确定 MLE,则结合参数取值的边界条件,对似然函数进行讨论.
例 设 是来自总体 的简单随机样本,其中 为未知参数,求 的矩估计 和最大似然估计 .
提示:
.
由矩估计法,令 ,即 .
解得 .
故 的矩估计为 .
令 , 即: .
由此解得 .
从而 的最大似然估计 .
二项分布的参数 的矩估计和 MLE 相同.
例 设总体 的密度函数为
其 他
其中 为未知参数. 设 是来自总体 的简单随机样本,求 的矩估计 和最大似然估计 .
提示
.
令 , 解得 的矩估计 .
设 为抽样结果落在 中的次数.
似然函数 .
对数似然函数 .
令 , 即: .
由此解得 的最大似然估计 .
例 设总体 的分布律为
设 是来自总体 的样本,试求 的矩估计和最大似然估计.
提示:
.
令 , 解得 的矩估计 .
设 取 的次数分别为 , .
似然函数 .
令 ,解得 .
注意到 ,由此可得 .
综上, 的 MLE 为 .
例 假设某电子器件的寿命 (单位:小时)服从参数为 的指数分布,现从这批器件中任取了 只进行独立寿命试验,试验进行到预定时间 时结束,此时恰好有 只器件失效,试求 的MLE.
提示:
的密度函数 其 他
设随机变量 器 件 寿 命 不 超 过 其 他
.
似然函数 .
对数似然函数 .
令 , 解得 的 MLE 为 .
6.2.3 参数估计的评判标准
一个“好的”估计应该满足什么条件?
无偏性 (Unbiasedness)
有效性 (Efficiency)
相合性/一致性 (Consistency)
1. 无偏性 若估计量 的数学期望存在,且对任意 有
则称 是 的 无偏估计 (Unbiased Estimation), 否则称为 有偏估计 (Biased Estimation).
例 是取自总体 的样本, 总体 的数学期望 未知, 则下列统计量均为 的无偏估计:
.
,其中 .
.
定理 设 是来自总体 的简单随机样本,则
样本均值 是总体均值的无偏估计;
修正的样本方差 是总体方差的无偏估计.
注:
无偏性只有在大量试验的情况下才有意义!
若 , 则称 为 的 偏差 (Bias).
若 ,则称 是 的 渐进无偏估计 (Asymptotic Ubiased Estimation).
例: 分别是 和 的渐进无偏估计.
这个例子说明, 是 的无偏估计,不一定能推出 的函数 是 的无偏估计.
例 设 是来自总体 的简单随机样本,其中 是未知参数.
试求 的矩估计 与最大似然估计 ;
与 是否是 的无偏估计;
证明 是 的无偏估计.
分析:
.
令 , 解得 的矩估计为 .
.
故 是 的无偏估计.
似然函数 .
的 MLE 为 .
的密度函数 其 他 .
.
由此可知 是 的有偏估计.
经修正后, 是 的无偏估计.
军力评估问题 例 在“二战”中, 盟军在多个战场缴获德军共计 辆虎式坦克. 这些坦克都带有数字编号, 假定坦克编号 在 上的等可能取值, 问如何估计虎式坦克总数 ?
矩估计: .
极大似然估计: .
修正的 MLE: .
取真值 , 次仿真的结果显示,修正的 MLE 具有最好的精确度和稳定性.
2. 有效性 若估计量 的方差存在,称
为估计量 的 均方误差 (Mean Square Error, MSE ).
若存在 的一个估计量 ,使得对 的任意估计量 ,都有 ,则称 是 的 最小均方误差估计 (MMSEE).
估计量的“波动”与“偏差”
系统误差 (System Error) .
绝对误差 (Absolute Error) .
随机误差 (Random Error) .
定理 .
推论 若 是 的无偏估计,则方差小的估计量应该更有效.
定理证明:
无偏估计的有效性 设 均为 的无偏估计量,若
则称估计量 较 更为 有效.
例 设 是来自总体 的简单随机样本.
证明 都是 的无偏估计;
判断 哪个更有效.
分析
总体 的密度函数 .
,故 是 的无偏估计.
, 密度函数 其 他 .
由此可得 , 故 也是 的无偏估计.
.
.
.
.
由此可见 作为 的估计,相对于 更有效.
最小方差无偏估计(MVUE) 设 是未知参数 的无偏估计量,若对 的任一无偏估计量 有
则称无偏估计量 是 的 最小方差无偏估计 (Minimum Variance Unbiased Estimate).
Cramér–Rao 下界 设总体 的密度函数为 , 是来自总体 的简单随机样本, 为待估变量,其中 是未知参数,统计量 是 的无偏估计.
问: 有没有可能完美地逼近 ?
不可能!给定样本容量,无偏估计的方差存在非零下界!
记 , ,
定理 设 , 为总体 的密度函数, 为似然函数,若
.
几乎处处存在,且 .
几乎处处存在,且
证明:
Cramér–Rao 下界
称为无偏估计量的 Cramér–Rao 下界 (C-R 下界 ).
称为 Fisher 信息(量) .[^2]
例: 未知参数 的任意无偏估计(相当于取 )的 C-R 下界为 .
Fisher 信息
C-R 下界的存在,意味着统计量对参数的估计能力是有限的,由待估参数的形式、分布的 Fisher 信息和样本容量共同决定.
Wikipedia : The Fisher information is a way of measuring the amount of information that an observable random variable carries about an unknown parameter of a distribution that models .
对于要估计的参数,采样的数据量越大,意味着数据提供的信息量越大,从而 C-R 下界就越小,那么就能越准确地估计出该参数的值.
推论 在前述定理条件下,若还有 ,则
证明思路
例:均匀分布参数的 C-R 下界 求均匀分布 中未知参数 的无偏估计的 C-R 下界.
提示: 的密度 其 他
故 的无偏估计的 C-R 下界为 .
讨论
中参数 的函数 的无偏估计的 C-R 下界为
注意到 是 的无偏估计,
这就与定理结论相矛盾了!
造成这一问题的原因是什么?
事实上, 的密度函数不满足 C-R 下界的条件2:
本例中,
所以,结论是因为 这个总体不满足 C-R 下界的条件,因此导致了以上相互矛盾的结果.
证明某个统计量是未知參数的 MVUE 的一般过程
证明估计量 是 的无偏估计量;
计算估计量 的方差 ;
计算 Fisher 信息量 ;
若 ,则 是 的 MVUE.
注: 有时候,C-R 下界是无法达到的.
例如:对于 , 是 的 MVUE.
但是, .
例 设 是来自总体 的简单随机样本,证明 是 的 MVUE.
提示: 的密度函数: .
.
.
的无偏估计的 C-R 下界为 .
,由此可知 就是 的 MVUE.
例 设 是来自总体 的简单随机样本,总体 的密度函数为
证明 是 的最小方差无偏估计.
优效估计 设 是待估参数 的一个无偏估计量.
称为 的 估计效率 (Estimation Efficiency).
如果 ,则称 是 的 优效(完全高效)估计 (Optimal Estimation).
如果 满足 ,则称 为 的 渐进优效估计 (Asmptotic Optimal Estimation).
例: 对于正态总体 , 是 的渐进优效估计.
例 设 是取自总体 的简单随机样本 ( 未知). 试以均方误差的大小为准则,比较 的估计 和 中哪一个较优?
提示:
是 的无偏估计, .
.
时,
综上,给定的三个估计量中 最有效.
3. 相合性 设 是未知参数 的点估计,若对任意 ,有
则称 是 的 相合估计 (Consistent Estimator).
随着 的增加, 估计量与参数真值的绝对偏差较大的可能性越来越小.
由 Khinchin 大数定律可知,样本 阶矩是总体 阶矩的相合估计量,因此矩估计量一般是相合估计量.
无偏估计必是相合估计吗?
不一定!
无偏性只能说明估计的中心与真值一致,但估计值的分布仍然可能比较分散;
相合性则能保证随着 的增大,估计值越来越像真值.
相合估计一定是无偏估计吗?
Chebyshev 不等式 设 是随机变量 的非负连续函数,如果 存在,则对于任一正常数 ,均有
证明:
推论 若随机变量 的期望和方差存在,则对任意 ,总有
相合估计的判定 设 是未知参数 的估计量,
.
如果 ,则 是 的相合估计.
特别地,若 是无偏估计,则 .
定理 无论总体 服从什么分布,若
都存在,则
样本均值 是总体均值 的相合估计;
样本方差 与修正的样本方差 都是总体方差 的相合估计.
证明思路
样本均值 是总体均值 的无偏估计.
对任意 ,由 Chebyshev 不等式,
因此 , 故样本均值 是总体均值 的相合估计.
修正的样本方差 是总体方差 的无偏估计.
.
当 充分大时, 近似服从 .
故 ,进而可得 .
综上,由夹逼准则 .
非正态总体的极限分布 设 为来自总体 的简单随机样本, 均存在,则当 充分大时:
近似服从 .
近似服从 .
例 设总体 服从 上的均匀分布,其中 未知,证明 的 MLE 是相合估计量.
提示:
是 的有偏估计.
因此 , 即 是 的相合估计量.
6.2.4 Bayes 估计
统计的经典学派与 Bayes 学派
经典学派 的统计推断主要依赖于
样本信息 抽取样本所得观测值所提供的信息.
总体信息 总体的分布或总体所属的分布族.
例如:总体为正态分布、总体的密度函数关于均值对称、总体的前两阶矩均存在.
Bayes 学派 认为利用先验信息可以使统计推断更具合理性.
先验信息 抽样(试验)之前关于统计问题的一些信息.
先验分布 例 每天抽检 件产品以确定质量是否满足要求. 产品质量可用不合格品率 来度量,也可用 件产品中的不合格品件数 表示.
由于生产过程有连续性,可以认为每天的产品质量是有关联的.
在估计现在的 时,以前积累的资料应该能提供帮助.
积累的历史资料就是 先验信息 .
例如:经过一段时间后,可以对过去 件产品中的不合格品件数 构造一个分布: .
对先验信息进行加工所获得的分布称为 先验分布 (Prior Distribution).
Bayes 学派
任一未知量 都可以看作随机变量,从而可用一个概率分布(先验分布)去描述.
获得样本后,将总体分布、样本与先验分布通过 Bayes 公式结合起来,可得到一个关于未知量 的新分布,称为 后验分布 (Posterior Distribution).
任何关于 的统计推断都应该基于 的后验分布进行.
例如:在求参数 的点估计时,可以取其基于后验分布的期望值、最大值或者中位数.
如何利用各种先验信息合理地确定先验分布,是 Bayes 估计中的关键问题.
Bayes 公式的概率函数形式 设 为样本, 为未知参数,则
: 的后验概率函数.
: 取定为某个值时的条件概率函数.
: 的先验概率函数.
: 的边缘概率函数.
Bayes 估计 由后验分布 估计 有三种常用的方法.
最大后验估计 使用后验分布概率函数的最大值点作为 的点估计.
后验中位数估计 使用由后验分布概率函数确定的中位数作为 的点估计.
后验期望估计 使用由后验分布概率函数确定的均值(期望)作为 的点估计.
例:成功率的估计 设事件 在一次试验中发生的概率为 ,为估计 ,对试验进行了 次独立观测,其中事件 发生了 次. 试给出 估计值.
Bayes 方法
解: 显然 ,于是 .
基于 同等无知原则 ,假设 的先验分布为 ,即 其 他
于是 与 的联合概率函数
使用 的后验期望估计得到
6.2.5 区间估计
区间估计 (Interval Estimation)
参数的点估计,能够给出未知参数的近似值.
但在很多实际问题中,更加关心的是参数的取值范围.
区间估计:根据样本数据,确定 未知参数可能的取值范围 ,使得能以较高的 可信度 保证该范围包含了未知参数的真值.
例如:正常人的血糖范围、某地区人的寿命区间、大学生的月消费额度、... ...
置信区间 设 是来自某个总体的样本,分布函数为 ,其中 未知.
给定 ,若存在统计量 和 , 使得
则称区间 为参数 的一个 (双侧)置信区间 (confident interval,缩写 CI ), 分别称为 的 双侧置信上、下限 . 称为该区间的置信度 .
单侧置信区间 给定 , 若存在统计量 , 使得
则称区间 为参数 的一个 单侧置信区间 , 称为 的 单侧置信上限.
例:理想的键盘高度
为了设计出一款工作效率和舒适度最理想的键盘,设计师将关注的重点放在了键盘托架的高度上.
为了得到最理想的高度范围,设计师邀请了 31 位熟练的打字员,分别获取了对他们来说最为理想的托架高度.
结果得到的平均值为 cm. 假设打字员所钟意的托架高度服从方差为 4 均值为 的正态分布.
试给出 的一个 置信区间.
分析:
设 为来自总体 的样本.
于是 , 进而 .
注意到 .
即 .
代入本例中的数值计算,可得 是 的一个 置信区间.
置信区间的含义 上面的例子中,
因为 是一个常数(但取值未知),以上求得的置信区间的意义并不能理解为 .
而只能理解为 ,
即该随机区间中包含 的概率为 .
置信区间不具有唯一性 前例中, 的 置信区间为
为了方便,可以简写为
显然,置信区间并不具有唯一性,也不一定要求两侧具有对称性.
事实上,对于本例而言,对任何一个 , 都是满足要求的置信区间.
例:双侧置信区间的宽度
某计算机系统上特定的编辑指令的响应时间服从标准差为 25 毫秒的正态分布.
安装新的操作系统后,希望对其平均响应时间的均值 重新进行估计.
假设安装新的操作系统后,响应时间仍服从正态分布,且标准差不变.
为了使得 的 置信区间宽度不超过 10,样本的容量至少要有多大?
分析: 参考前例,置信区间为 ,依题意须满足
即 ,故 .
注: 在样本容量不变的前提下,如果提高置信水平,置信区间的宽度将会增加. 此时,可以说:估计的可靠性 (reliability) 提高了,但估计的精确度 (precision) 有所下降.
Jerzy Neyman (1894-1981)
现今的区间估计理论是由原籍波兰的美国统计学家 Jerzy Neyman 于 20 世纪 30 年代建立起来的.
Neyman 被称为”来自生活的统计学家“,毕生热心于且精通于应用的,后半生的工作更是遍历了生物学、宇宙学、气象学等等诸多领域.
求区间估计一般方法:依据波动理论的 枢轴变量法 .
枢轴变量 设 为对未知参数 进行区间估计所需的样本. 所谓枢轴变量 (pivotal quantity) ,是指:
是 和 的函数.
的分布与 或其他的任何未知参数均无关.
用枢轴变量法求置信区间
构造样本的函数 ,也即 枢轴变量 (Pivotal Quantity).
对置信度 ,确定 的分布的两个分位点 和 , 使得
注: 在没有事先声明的情况下,默认地按以上方式取两侧的分位点,所得到的的置信区间称为 等尾置信区间 .
解不等式 , 得到置信区间: .
例:理想的键盘高度 已知 , 理想高度服从 的正态分布,求 的 置信区间.
枢轴变量: .
思考: 如果本例中 也是未知的,以上的 还是枢轴变量吗?
如果不是,应该如何定义枢轴变量?
枢轴变量的选择是唯一的吗?
单个正态总体的区间估计 已知 为来自正态总体 的样本, 分别考虑如下四个区间估计问题:
已知,求 的置信区间.
未知,求 的置信区间.
已知,求 的置信区间.
未知,求 的置信区间.
单正态总体的 1-α 置信区间
待 估 参 数 条 件 已 知 未 知 已 知 未 知 枢 轴 变 量 分 布 双 侧 置 信 区 间 下 、 上 限 单 侧 置 信 下 、 上 限
提示: 求 的 置信区间(假设 已知)
1. 求双侧置信区间
2. 求单侧置信下限
例:飞机的飞行高度 为了提高可靠性和测量精度,飞机通常安装了若干个高度仪. 设飞机实际飞行高度为 时每个高度仪时测量值 ,而飞机仪表上显示的飞行高度是所有的高度测量值的平均值. 在置信水平 下,求解下列问题:
若要保证飞行仪表上显示的飞信高度的绝对误差不超过 m,问飞机上至少安装多少个高度仪?
若飞机装有 个高度仪,飞行仪表上显示的飞行高度是 m,问飞机实际飞行在什么高度范围?
提示:
假设有 个高度仪,高度测量值分别为 ,则 .
问题等价于,要使 , 至少需要取多大?
上式也即 .
由此可得 ,即 .
结论:安装至少 个高度仪就可以满足要求.
此时 ,进而 .
置信区间为 .
或
已知 ,故此时飞机的实际高度范围为 .
例:灯泡的寿命 从灯泡厂随机抽取 只灯泡,进行寿命试验,测得数据如下(单位:小时)
设灯泡寿命服从正态分布,给出这批灯泡的平均寿命及方差的置信度为 的置信区间.
解:
设 为灯泡的寿命,设 ,其中 均未知.
的置信度为 置信区间是 .
利用抽样数据进行计算, .
查表 ,故 的置信度为 的置信区间为 .
的置信度为 的置信区间为 .
.
.
.
的置信度为 的置信区间为
双正态总体的区间估计
设 和 分别为来自 和 的样本,且二者相互独立.
试对其均值的差 和方差的比值 给出区间估计.
双正态总体的 1-α 置信区间
待 估 参 数 条 件 已 知 未 知 已 知 未 知 枢 轴 变 量 及 其 分 布 双 侧 置 信 区 间 下 、 上 限 单 侧 置 信 下 、 上 限
例:比较子弹的初速度
随机地取 I 型子弹 发, 得到枪口速度的平均值为 (m/s), 修正的标准差 (m/s).
随机地取 II 型子弹 发, 得到枪口速度的平均值为 (m/s), 修正的标准差 (m/s).
假设两总体都可认为近似地服从正态分布, 且由生产过程可认为它们的方差相等.
求两总体均值差 的置信度为 的置信区间.
解:
由实际情况,可认为分别来自两个总体的样本是相互独立的.
由于它们的方差相等且未知,故 的置信度 的置信区间为 .
其中 , , .
故两总体均值差 的置信度为 的置信区间为 .
小结
点估计
区间估计
枢轴变量法
单正态和双正态总体的区间估计
单侧置信区间