@catscarf 2017-12-12T09:41:35.000000Z 字数 5649 阅读 3972

概率论与数理统计笔记第六章统计量与抽样分布

概率论与数理统计笔记（计算机专业）作者： catpub 新浪微博：@catpub

课程：中国大学MOOC浙江大学概率论与数理统计

部分平台可能无法显示公式，若公式显示不正常可以前往知乎或作业部落进行查看

前往知乎查看目录与导航

第38讲总体，样本

数理统计是一门以数据为基础的学科。数理统计学的任务就是如何获得样本和利用样本，从而对事物的某些未知方面进行分析、推断并做出一定的决策
提示：若非数学相关专业，从本章开始虽然难度增高，但要求会降低很多，实际考试难度是降低的
总体
- 研究对象的全体
- 总体的某个指标 $X$ 可以看成一个随机变量
- 有时也直接称 $X$ 为总体
- $X$ 具有分布函数 $F(x)$
样本
- 被抽取的部分个体
简单随机样本
- 随机样本 $(X_1,X_2,...,X_n)$ 中，每个 $X_i$ 与 $X_n$ 是相互独立的随机变量
- 这些样本和总体 $X$ 同分布
获得简单随机样本
- 简单随机抽样
- 对于有限个体采用放回抽样
- 对于无限总体（或很大的总体）采用不放回抽样
注意
- 对样本进行一次观测，得到实际数值 $x_1,x_2,...,x_n$ 成为样本观测值
- 一般情形下，两次观测，样本值是不同的

第39讲统计量，常用统计量

统计量
- 统计量是样本的不含任何位置参数的函数
常用统计量
- 样本均值
- $\bar X=\frac{1}{n}\sum_{i=1}^{n}X_i$
- 样本方差
- $S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2$
- 拓展：知乎问题：为什么样本方差（sample variance）的分母是 n-1？
- 亦可参考本章末尾的作者拓展
- 样本矩
- 阶矩
  - $A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k$
- 阶中心矩
  - $B_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar X)^k$

第40讲 $\chi^2$ 分布

读作”卡方分布“，对应希腊字母里的‘chi’
设随机变量 相互独立且都服从
- $\chi^2=\sum_{i=1}^{n}X_i^2$
- 记为 $\chi^2\sim\chi^2(n)$ ， $n$ 为自由度
概率密度（不重要）
- $f_n(x)=\left\{\begin{aligned}&\frac{1}{2\Gamma(n/2)}\Big(\frac{x}{2}\Big)^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x>0\\ &0,&x\leq0\end{aligned}\right.$
- 其中
  $\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}dx$
性质
- 设 $\chi^2\sim\chi^2(n)$ ，则 $E(\chi^2)=n,D(\chi^2)=2n$
- 提示：正态分布有如下性质：若 $X\sim N(\mu,\sigma^2)$ ，则 $X^2\sim N(\sigma^2+\mu^2,\sigma^2(2\mu^2-\sigma^2))$ ，该性质证明较复杂，在此不做证明
- $\chi^2$ 分布的可加性
- 设 $Y_1\sim\chi^2(n_1),Y_2\sim\chi^2(n_2)$ 且它们相互独立，则
- $Y_1+Y_2\sim\chi^2(n_1+n_2)$
- 以上结论也可以推广到有限个随机变量的情形
上分位数
- 给定 $\alpha,0<\alpha<1$ ，称满足条件 $P(\chi^2>\chi_\alpha^2(n)=\alpha)$ 的点 $\chi^2_\alpha(n)$ 为 $\chi^2(n)$ 分布的上 $\alpha$ 分位数
- 注意， $\chi^2_\alpha(n)$ 是一个实数
- 该值可以查表或通过计算机求解

第41讲 $t$ 分布， $F$ 分布

分布
- 设 $X\sim N(0,1),Y\sim\chi^2(n)$ ，且 $X$ 和 $Y$ 相互独立，则
- $T=\frac{X}{\sqrt{(Y/n)}}$
- 称为服从自由度 $n$ 的 $t$ 分布，也称学生氏分布，记为
- $T\sim t(n)$
- 概率密度（不重要）
- $f(x;n)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\ \Gamma(\frac{n}{2})}\Big(1+\frac{x^2}{n}\Big)^{-\frac{n+1}{2}},\quad-\infty<x<+\infty$
- 特别的， $n=1$ 的 $t$ 分布就是柯西分布
- $f(x;1)=\frac{1}{\pi(1+x^2)},\quad-\infty<x<+\infty$
- 当 $n\to+\infty$ 时的 $t$ 分布就是标准正态分布
- 上 $\alpha$ 分位数
- 满足条件 $P(t>t_\alpha(n)=\alpha)$ 的点 $t_\alpha(n)$ 为 $t(n)$ 分布的上 $\alpha$ 分位数
- 由于 $t$ 分布是关于 $0$ 对称的，则 $t_{1-\alpha}(n)=-t_\alpha(n)$
分布
- 设 $X\sim \chi^2(n_1),Y\sim\chi^2(n_2)$ ，且 $X$ 和 $Y$ 相互独立，则
- $F=\frac{X/n_1}{Y/n_2}$
- 称为服从自由度 $(n_1,n_2)$ 的 $F$ 分布，记为
- $F\sim F(n_1,n_2)$
- 其中 $n_1$ 为第一自由度， $n_2$ 为第二自由度
- 性质
- 若 $F\sim F(n_1,n_2)$ ，则
  $\frac{1}{F}\sim F(n_2,n_1)$
- 概率密度（不重要）
- $f(x;n_1,n_2)=\left\{\begin{align}&\frac{1}{B(n_1/2,n_2/2)}n_1^{\frac{n_1}{2}}n_2^{\frac{n_2}{2}}x^{\frac{n_1}{2}-1}(n_2+n_1x)^{\frac{n_1+n_2}{2}},\quad &x>0\\&0,&x\leq 0\end{align}\right.$
- 其中，
  $B(a,b)=\int_0^1x^{\alpha-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$
- 上 $\alpha$ 分位数
- 满足条件 $P(F>F_\alpha(n_1,n_2)=\alpha)$ 的点 $F_\alpha(n_1,n_2)$ 为 $F(n_1,n_2)$ 分布的上 $\alpha$ 分位数
实例，设相互独立，均服从，则
- $X^2+Y^2+Z^2\sim\chi^2(3)$
- $\frac{X}{\sqrt{(Y^2+Z^2)/2}}\sim t(2)$
- $\frac{2X^2}{Y^2+Z^2}\sim F(1,2)$
- 若 $t\sim t(n)$ ，则 $t^2\sim F(1,n)$

第42讲单个正态总体的抽样分布

定理一
- 设总体 $X\sim N(\mu,\sigma^2)$ 样本均值
  $\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$ 样本方差
  $S^2=\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$ 则
- $\bar{X}\sim N(\mu,\frac{\sigma^2}{n})$
- $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$
- 证明过程略
定理二
- 背景：由定理一知，
  $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$
- 上式的意义： $\bar{X}$ 标准化后服从标准正态分布
- 当 $\sigma$ 未知时，可用 $S^2$ 来替代
- 则引出定理二：
  $\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$
- 提示：该定理可作为第七章提到的枢轴量
- 拓展：在概率论和统计学中，学生 $t$ -分布（Student's t-distribution），可简称为 $t$ 分布，用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知（例如在样本数量足够多时），则应该用正态分布来估计总体均值。
实例：
- $E(S^2)=\sigma^2$
- $D(S^2)=\frac{2\sigma^4}{n-1}$
- 上式说明，随着样本量的增大，样本均值的偏差 $D(S^2)$ 减小
提示：这一章的内容看似难度陡增，但实际上知识点都是环环相扣的，概率论的各种公式实际上都是基于实际背景提出的。明白了这一点对一些看似莫名其妙的公式就无需害怕了。比如科学家发现在统计中，样本较小时算出的均值的分布，如果直接套用正态分布，则偏差较大，因此提出了 $t$ 分布

第43讲两个正态总体的抽样分布

定理三
- 设样本和分别来自总体和并且它们相互独立，则
  1. $F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}=\frac{S_1^2}{S_2^2}\Big/\frac{\sigma_1^2}{\sigma_2^2}\sim F(n_1-1,n_2-1)$
  2. $$
    $\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
  3. 当时
    - $\frac{(\bar X-\bar Y)-\mu_1-\mu_2}{S_w\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim t(n_1+n_2-2)$
    - 其中
    - $S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$
提示：上一小节和这一小节的内容主要是为了后续的区间估计和假设检验做论证

作者拓展为什么样本方差的分母是 n-1

作者：魏天闻

链接：为什么样本方差（sample variance）的分母是 n-1?

来源：知乎

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

上面有答案解释得很明确，即样本方差计算公式里分母为 $n-1$ 的目的是为了让方差的估计是无偏的。无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好是符合直觉的，尽管有的统计学家认为让mean square error即MSE最小才更有意义，这个问题我们不在这里探讨；不符合直觉的是，为什么分母必须得是 $n-1$ 而不是 $n$ 才能使得该估计无偏。我相信这是题主真正困惑的地方。

要回答这个问题，偷懒的办法是让困惑的题主去看下面这个等式的数学证明：

$E\Big[\frac{1}{n-1} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2 \Big]=\sigma^2$

但是这个答案显然不够直观（教材里面统计学家像变魔法似的不知怎么就得到了上面这个等式）。

下面我将提供一个略微更友善一点的解释。

首先，我们假定随机变量 $X$ 的数学期望 $\mu$ 是已知的，然而方差 $\sigma^2$ 未知。在这个条件下，根据方差的定义我们有

$E\Big[\big(X_i -\mu\big)^2 \Big]=\sigma^2, \quad\forall i=1,\ldots,n,...$

由此可得

$E\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2$

因此
$\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2$ 是方差 $\sigma^2$ 的一个无偏估计，注意式中的分母不偏不倚正好是 $n$

这个结果符合直觉，并且在数学上也是显而易见的。

现在，我们考虑随机变量 $X$ 的数学期望 $\mu$ 是未知的情形。这时，我们会倾向于无脑直接用样本均值 $\bar{X}$ 替换掉上面式子中的 $\mu$ 这样做有什么后果呢？后果就是，
如果直接使用
$\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2$ 作为估计，那么你会倾向于低估方差！

这是因为：

$\begin{eqnarray}\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 &=&\frac{1}{n}\sum_{i=1}^n\Big[(X_i-\mu) + (\mu -\bar{X}) \Big]^2\\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +\frac{2}{n}\sum_{i=1}^n(X_i-\mu)(\mu -\bar{X})+\frac{1}{n}\sum_{i=1}^n(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 +2(\bar{X}-\mu)(\mu -\bar{X})+(\mu -\bar{X})^2 \\&=&\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2 -(\mu -\bar{X})^2 \end{eqnarray}$

换言之，除非正好 $\bar{X}=\mu$ ，否则我们一定有

$\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2 <\frac{1}{n}\sum_{i=1}^n(X_i-\mu)^2$ ,

而不等式右边的那位才是的对方差的“正确”估计！

这个不等式说明了，为什么直接使用
$\frac{1}{n} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2$ 会导致对方差的低估。

那么，在不知道随机变量真实数学期望的前提下，如何“正确”的估计方差呢？答案是把上式中的分母 $n$ 换成 $n-1$ ，通过这种方法把原来的偏小的估计“放大”一点点，我们就能获得对方差的正确估计了

$E\Big[\frac{1}{n-1} \sum_{i=1}^n\Big(X_i -\bar{X}\Big)^2\Big]=E\Big[\frac{1}{n} \sum_{i=1}^n\Big(X_i -\mu\Big)^2 \Big]=\sigma^2$

至于为什么分母是 $n-1$ 而不是 $n-2$ 或者别的什么数，最好还是去看真正的数学证明，因为数学证明的根本目的就是告诉人们“为什么”；暂时我没有办法给出更“初等”的解释了。

本章最后修订时间：2017.12.12 如有错误欢迎前往知乎指正

概率论与数理统计笔记 第六章 统计量与抽样分布

第38讲 总体，样本

第39讲 统计量，常用统计量

第40讲 \chi^2分布

第41讲 t分布，F分布

第42讲 单个正态总体的抽样分布

第43讲 两个正态总体的抽样分布

作者拓展 为什么样本方差的分母是 n-1

内容目录

选择主题

概率论与数理统计笔记第六章统计量与抽样分布

第38讲总体，样本

第39讲统计量，常用统计量

第40讲 $\chi^2$ 分布

第41讲 $t$ 分布， $F$ 分布

第42讲单个正态总体的抽样分布

第43讲两个正态总体的抽样分布

作者拓展为什么样本方差的分母是 n-1