@spiritnotes 2016-03-05T13:56:27.000000Z 字数 3557 阅读 3429

《统计思维：程序员数学之概率统计》

数学 读书笔记

第1章程序员的统计思维

将介绍三门相关联的学科：

概率论
统计学
计算

经验之谈（anecdotal evidence），基于非公开发表的数据，通常是个人感受，往往错误较多。原因：1）样本空间太少；2）选择偏差；3）确认偏差；4）不准确。

表和记录

字段（field）-记录（record）-表（table）

第2章描述性统计量

2.1 均值和平均值

均值

$\bar x = {1\over n}\sum_ix_i$

均值是指使用上述公式计算出来的汇总统计量
平均值是若干种可以用来描述样本的典型值或集中趋势的汇总统计量之一

2.2 方差和标准差

方差是描述分散情况，是离均差（ $x_i-\bar x$ ）的方均值， $\sigma$ 称为标准差

$\sigma^2={1\over n}\sum_i(x_i-\bar x)^2$

2.3 分布

分布，描述了各个值出现的频繁程度，最常用的方法是直方图（histogram），用于展示各个值出现的频数或概率。归一化（normalization）是指将概率化使其总和变为1，称为PMF（Probability Mass Function，概率密度函数）。

众数：分布中出现次数最多的值
形状：分布的形状包含很多信息
异常值：远离众数的数

第3章累积分布函数

3.1 选课人数之迷

如果找学生抽样询问其所上课程的人数，则计算出来的平均课程人数是有偏差的，因此按照学生询问，则选课人多的课程被过采样。

3.2 百分位数

指的其前面的数目占总空间的比例

3.3 CDF（cumulative distribution function累积分布函数）

CDF是值到其在分布中百分等级的映射。即对于给定的x，计算样本中小于等于x的值的比例。

3.4 条件分布

就是根据某个条件选择的数据子集的分布

3.5 汇总统计量

中位数 50百分等级

四分差 25/75百分等级用于表示分布的分散情况

第4章连续分布

连续分布（continuous distribution），CDF是一个连续函数。

4.1 指数分布

指数分布（exponential distribution）：如事件在每个时间点发生的概率相同，那么间隔时间的分布就近似于指数分布

$CDF(x) = 1-e^{-\lambda x}$ 指数分布的均值是

$1\over \lambda$ ，分布的中位数是

$log(2)\over \lambda$
其取对数后的互补累计分布函数（complementary CDF，CCDF）

$1-CDF(x)$ 为一条直线

$CCDF=e^{-\lambda x};\log y = -\lambda x$

4.2 帕累托分布

曾用来描述财富分布，

$CDF(x)=1-({x\over x_m})^{-\alpha}$ xm是最小值，分布的中位数是

$x_m*2^{1/\alpha}$ ，对x，y都取对数后其CCDF应该为一条直线

；

$CCDF=({x\over x_m})^{-\alpha}；\log y = -{\alpha(\log x - \log x_m)}$

4.3 正态分布

也称为高斯分布。其CDF没有准确的表达。

4.4 正态概率图

4.5 对数正态分布

对一组数值做对数变换后服从正态分布。

第5章概率

5.1 概率法则

P(AB) = P(A)*P(B|A); P(AB)<=P(A)

5.2 蒙提霍尔问题

3门问题，需要改变选择

5.3 庞加莱

1）面包重量符合均值950，误差50的正态分布
2）面包重量符合均值1000，但是非对称分布，面包师傅只是每次将较大重量的面包给他

5.4 其他法则

互斥 P(B|A)=P(A|B)=0
P(A 或 B)=P(A)+P(B)-P(AB)

5.5 二项分布

掷塞子，k个六点的概率是多少

$PMF(k)=C_n^kp^k(1-p)^{n-k};C_n^k = {n!\over k!(n-k)!}$

5.6 连胜和手感

对随机过程的直觉和事实有差距。让人生成随机数，实际上可能很有序，而对于真正随机数，往往可以找到模式。比赛中的连胜和手感也是没有关系，符合概率的。聚类错觉（clustering illusion），指看上去好像有某种特点的聚类实际上是随机的。

使用蒙特卡洛模拟进行验证。

5.7 贝叶斯定理

$P(H|E)=P(H){P(E|H)\over P(E)}$

第6章分布的计算

6.1 偏度（skewness）

度量分布函数不对称程度的统计量。负值表示左偏，正值表示右偏

$g_1=m_3/m_2^{3/2};m_2={1\over n}\sum_i(x_i-\bar x)^2;m_3={1\over n}\sum_i(x_i-\bar x)^3$
另一个方法是比较均值和中位数的大小
皮尔逊中值偏度度量

$g_p=3(\bar x-\bar x_{1/2})/\sigma$

6.2 随机变量

代表产生随机数的过程。一般用大写字母表示，如X。可以想象某个分布函数抽出来的值。

$CDF_X(x)=P(X\le x)$

6.3 概率密度函数

PDF（probability density function），指数分布的概率密度函数为

$PDF_{expo}(x)=\lambda e{-\lambda x}$ 正态分布的概率密度函数为

$PDF_{normal}(x)={1\over \sigma \sqrt{2\pi}}\exp(-{1\over 2}({x-\bar x\over \sigma})^2)$

$P(-k\le X \lt k)=\int_{-k}^kPDF_X(x)dx=CDF_X(k)-CDF_X(-k)$

6.4 卷积

对于随机变量X和Y，其Z=X+Y的分布是如何

$P(Z\le z|X=x)=P(Y\le z-x)$

$P(Z\le z)=\int_{-\infty}^{\infty}P(Z\le z|X=x)PDF_X(x)dx$

$CDF_Z(z)=\int_{-\infty}^{\infty}CDF_Y(z-x)PDF_X(x)dx$

$PDF_Z(z)=\int_{-\infty}^{\infty}PDF_Y(z-x)PDF_X(x)dx$
表示概率密度PDFX和PDFY的卷积（convolution），一般用×表示。

6.5 正态分布的性质

正态分布对线性变换和卷积运行是封闭的。

$X \in \mathscr N(u,\sigma^2)$

$aX+b\in \mathscr N(au+b,a^2\sigma^2)$

$X+Y\in \mathscr N(u_X+u_Y,\sigma_x^2+\sigma_Y^2)$

6.6 中心极限定理

如果随机变量X的均值和标准差为u和sigma，那个n个随机变量X的和渐进地服从分布 $\mathscr N(nu,n\sigma^2)$

要求求和的数据必须满足独立性
数据必须服从同一个分布（可以适当放宽）
产生这些数据分布的均值和方差必须是有限的
收敛的速度取决于原来分布的偏度

中心极限定理解释了为什么正态分布在自然界广泛存在。

6.7 分布函数之间的关系框架

第7章假设检验

首先假设这个效应是不存在的，偶然出现的（原假设）。然后基于该假设计算其效应出现的概率（P值），如果该值很小，则可以认为原假设不大可能是真的。

7.1 均值差异的检验

将两组数据（一组n个，一组m个）合并在一起，随机分成两组（m，n），计算两组均值的差。这种操作称为重抽样。随机执行1000次，计算其均值大于检验值的次数，为其概率。

7.2 阀值的选择

I类误差，假阳性
II类误差，假阴性
为P选择一个阀值，一旦P值小于该阀值，就推翻原假设。通常选5%。当假设不成立时，出现测量效应的概率就是该阀值。我们可以通过控制阀值来控制假阳性。阀值的降低导致判断效应确实存在的标准提高。

7.3 效应的定义

单边检验的假设更具有特异性，其P值会比较低。

7.4 解释统计检验结果

古典解释：小于阀值alpha时，说效应在统计学上是显著的
实际解释：p值作为表征效应真实存在的证据
贝叶斯统计解释：假设存在效应和不存在效应各为50%，通过样本合并后抽样可得效应不存在该情况出现的概率，然后两个样本集分别抽样可得效应存在的概率，然后计算效应存在的贝叶斯

7.5 交叉验证

7.6 卡方验证

第8章估计

8.1 关于估计的游戏

已知某一分布以及一组抽样值，估计其参数。用来估计分布参数的统计量称为估计量。

如果不存在异常值，则样本均值会最小化均方误差（MSE， mean squeard Error），m为游戏次数

$MSE={1\over m}\sum(\bar x - u)$

8.2 方差估计

可以用样本方差来估计分布的方差。样本方差往往是有偏差的。可以是如下两种。

$S^2={1\over n}\sum(x_i-\bar x)^2$

$S_{n-1}^2={1\over n-1}\sum(x_i-\bar x)^2$

8.3 误差

只有一组数据是无法判断误差的。

8.4 指数分布

采用均值

$\hat \lambda=1/\bar x$ 采用中位数

$\hat \lambda_{1/2}=\log(2)/u_{1/2}$