@spiritnotes
2016-03-05T13:56:27.000000Z
字数 3557
阅读 3041
数学
读书笔记
将介绍三门相关联的学科:
经验之谈(anecdotal evidence),基于非公开发表的数据,通常是个人感受,往往错误较多。原因:1)样本空间太少;2)选择偏差;3)确认偏差;4)不准确。
字段(field)-记录(record)-表(table)
均值
方差是描述分散情况,是离均差()的方均值,称为标准差
分布,描述了各个值出现的频繁程度,最常用的方法是直方图(histogram),用于展示各个值出现的频数或概率。归一化(normalization)是指将概率化使其总和变为1,称为PMF(Probability Mass Function,概率密度函数)。
众数:分布中出现次数最多的值
形状:分布的形状包含很多信息
异常值:远离众数的数
如果找学生抽样询问其所上课程的人数,则计算出来的平均课程人数是有偏差的,因此按照学生询问,则选课人多的课程被过采样。
指的其前面的数目占总空间的比例
CDF是值到其在分布中百分等级的映射。即对于给定的x,计算样本中小于等于x的值的比例。
就是根据某个条件选择的数据子集的分布
连续分布(continuous distribution),CDF是一个连续函数。
指数分布(exponential distribution):如事件在每个时间点发生的概率相同,那么间隔时间的分布就近似于指数分布
曾用来描述财富分布,
也称为高斯分布。其CDF没有准确的表达。
对一组数值做对数变换后服从正态分布。
P(AB) = P(A)*P(B|A); P(AB)<=P(A)
3门问题,需要改变选择
1) 面包重量符合均值950,误差50的正态分布
2) 面包重量符合均值1000,但是非对称分布,面包师傅只是每次将较大重量的面包给他
互斥 P(B|A)=P(A|B)=0
P(A 或 B)=P(A)+P(B)-P(AB)
掷塞子,k个六点的概率是多少
对随机过程的直觉和事实有差距。让人生成随机数,实际上可能很有序,而对于真正随机数,往往可以找到模式。比赛中的连胜和手感也是没有关系,符合概率的。聚类错觉(clustering illusion),指看上去好像有某种特点的聚类实际上是随机的。
使用蒙特卡洛模拟进行验证。
度量分布函数不对称程度的统计量。负值表示左偏,正值表示右偏
代表产生随机数的过程。一般用大写字母表示,如X。可以想象某个分布函数抽出来的值。
PDF(probability density function),指数分布的概率密度函数为
对于随机变量X和Y,其Z=X+Y的分布是如何
正态分布对线性变换和卷积运行是封闭的。
如果随机变量X的均值和标准差为u和sigma,那个n个随机变量X的和渐进地服从分布
中心极限定理解释了为什么正态分布在自然界广泛存在。
首先假设这个效应是不存在的,偶然出现的(原假设)。然后基于该假设计算其效应出现的概率(P值),如果该值很小,则可以认为原假设不大可能是真的。
将两组数据(一组n个,一组m个)合并在一起,随机分成两组(m,n),计算两组均值的差。这种操作称为重抽样。随机执行1000次,计算其均值大于检验值的次数,为其概率。
I类误差,假阳性
II类误差,假阴性
为P选择一个阀值,一旦P值小于该阀值,就推翻原假设。通常选5%。当假设不成立时,出现测量效应的概率就是该阀值。我们可以通过控制阀值来控制假阳性。阀值的降低导致判断效应确实存在的标准提高。
单边检验的假设更具有特异性,其P值会比较低。
古典解释:小于阀值alpha时,说效应在统计学上是显著的
实际解释:p值作为表征效应真实存在的证据
贝叶斯统计解释:假设存在效应和不存在效应各为50%,通过样本合并后抽样可得效应不存在该情况出现的概率,然后两个样本集分别抽样可得效应存在的概率,然后计算效应存在的贝叶斯
已知某一分布以及一组抽样值,估计其参数。用来估计分布参数的统计量称为估计量。
如果不存在异常值,则样本均值会最小化 均方误差(MSE, mean squeard Error),m为游戏次数
可以用样本方差来估计分布的方差。样本方差往往是有偏差的。可以是如下两种。
只有一组数据是无法判断误差的。
采用均值