您的位置:首页 > 其它

Khan公开课 - 统计学学习笔记:(三)随机变量、概率密度、二项分布、期望值

2012-09-21 11:55 549 查看
随机变量 Random Variable

随机变量和一般数据上的变量不一样,通常用大写字母表示,如X、Y、Z,不是个参数而是function,即函数。例如,下面表示明天是否下雨的随机变量X,如下。又例如X=每小时经过路口的车辆,随机变量是个描述,而不是方程中的变量。



随机变量有两种,一种是离散的(discrete),一种是连续的(continue)。离散的如上面例子是可以枚举,而连续的随机变量的取值是infinite的。

概率密度函数

概率probability,以roll dice为例,P(X=6)=1/6,P(X>=5)=1/3,即6点的骰子概率为1/6,大于等于5点的骰子概率为1/3。这是离散的概率例子。



对于连续的,例如明天雨量。使用的是probability density function,下图是个分布例子。



P(X=2)是多少,0.5吗?不对。精确雨量要2.00000……,概率为0。对于连续随机变量,概率的统计是一个范围,例如P(|X-2|<0.3),相当于计算area。以f(x)表示随机variable,则为



二项分布

二项分布binomial distribution,有个更熟悉的名字normal distribution正态分布。随机变量处于两种状态,例如硬币的正面或反面,投篮投中或者miss。如果是公平随机,例如抛硬币,每个状态出现的几率是0.5。对于投篮,可能是P(shoot)=0.7,P(miss)=0.3。

如何计算P(X=n),n为出现某种状态的次数。假设一共投篮N次篮(N=6),有多少种可能组合,例如出现2次命中的组合。简单说我们有A、B两个字母,填入6个空格,可以有多少种组合。为6×5,如果有A、B、C三个字母,则有6×5×4,即N!/(N-n)!

由于在计算概率中,A和B的先后顺序没有影响,即无先后顺序,则还要除以n!(A、B或A、B、C本身的排列组合),在组合中表述为:



我们得到了组合次数,每个组合出现的概率是多少?投6中2为P(shoot)p(shoot)p(miss)p(miss)p(miss)p(miss),将每个位置出现的概率乘前来就可以,即p^n×(1-p)^(N-n),总的概率为:



其实倒不需要去死记硬背,只要知晓计算原理,很容易推导。

这些概率非常适合在Excel中进行计算和画图。在Excel有个小技巧我一直不会,如果固定选某个单元,选择后用F4,在copy这个公式的时候,就不会飘移位置。

期望值E(X)

期望值Exptected value of a random varaible,实际就是population mean,有些时候总本是infinite,例如无数次仍投硬币的结果,可通过频率×数值求和获得。

二项分布的E(X)

如果是二项分布,n表示次数,则E(X)=np,这个推导过程很有趣



二项分布的variance(方差)

和期望值一样,这属于头脑体操,其基本方式亦也差不多。将证明方差为np(1-p)。这部分不是Khan公开课,讲正态分布时涉及二项式方差的计算公式,兴致来了,玩一下。



相关链接:我的四方书库
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐