Khan公开课 - 统计学学习笔记:(三)随机变量、概率密度、二项分布、期望值
2012-09-21 11:55
549 查看
随机变量 Random Variable
随机变量和一般数据上的变量不一样,通常用大写字母表示,如X、Y、Z,不是个参数而是function,即函数。例如,下面表示明天是否下雨的随机变量X,如下。又例如X=每小时经过路口的车辆,随机变量是个描述,而不是方程中的变量。
随机变量有两种,一种是离散的(discrete),一种是连续的(continue)。离散的如上面例子是可以枚举,而连续的随机变量的取值是infinite的。
概率密度函数
概率probability,以roll dice为例,P(X=6)=1/6,P(X>=5)=1/3,即6点的骰子概率为1/6,大于等于5点的骰子概率为1/3。这是离散的概率例子。
对于连续的,例如明天雨量。使用的是probability density function,下图是个分布例子。
P(X=2)是多少,0.5吗?不对。精确雨量要2.00000……,概率为0。对于连续随机变量,概率的统计是一个范围,例如P(|X-2|<0.3),相当于计算area。以f(x)表示随机variable,则为
二项分布
二项分布binomial distribution,有个更熟悉的名字normal distribution正态分布。随机变量处于两种状态,例如硬币的正面或反面,投篮投中或者miss。如果是公平随机,例如抛硬币,每个状态出现的几率是0.5。对于投篮,可能是P(shoot)=0.7,P(miss)=0.3。
如何计算P(X=n),n为出现某种状态的次数。假设一共投篮N次篮(N=6),有多少种可能组合,例如出现2次命中的组合。简单说我们有A、B两个字母,填入6个空格,可以有多少种组合。为6×5,如果有A、B、C三个字母,则有6×5×4,即N!/(N-n)!
由于在计算概率中,A和B的先后顺序没有影响,即无先后顺序,则还要除以n!(A、B或A、B、C本身的排列组合),在组合中表述为:
我们得到了组合次数,每个组合出现的概率是多少?投6中2为P(shoot)p(shoot)p(miss)p(miss)p(miss)p(miss),将每个位置出现的概率乘前来就可以,即p^n×(1-p)^(N-n),总的概率为:
其实倒不需要去死记硬背,只要知晓计算原理,很容易推导。
这些概率非常适合在Excel中进行计算和画图。在Excel有个小技巧我一直不会,如果固定选某个单元,选择后用F4,在copy这个公式的时候,就不会飘移位置。
期望值E(X)
期望值Exptected value of a random varaible,实际就是population mean,有些时候总本是infinite,例如无数次仍投硬币的结果,可通过频率×数值求和获得。
二项分布的E(X)
如果是二项分布,n表示次数,则E(X)=np,这个推导过程很有趣
二项分布的variance(方差)
和期望值一样,这属于头脑体操,其基本方式亦也差不多。将证明方差为np(1-p)。这部分不是Khan公开课,讲正态分布时涉及二项式方差的计算公式,兴致来了,玩一下。
相关链接:我的四方书库
随机变量和一般数据上的变量不一样,通常用大写字母表示,如X、Y、Z,不是个参数而是function,即函数。例如,下面表示明天是否下雨的随机变量X,如下。又例如X=每小时经过路口的车辆,随机变量是个描述,而不是方程中的变量。
随机变量有两种,一种是离散的(discrete),一种是连续的(continue)。离散的如上面例子是可以枚举,而连续的随机变量的取值是infinite的。
概率密度函数
概率probability,以roll dice为例,P(X=6)=1/6,P(X>=5)=1/3,即6点的骰子概率为1/6,大于等于5点的骰子概率为1/3。这是离散的概率例子。
对于连续的,例如明天雨量。使用的是probability density function,下图是个分布例子。
P(X=2)是多少,0.5吗?不对。精确雨量要2.00000……,概率为0。对于连续随机变量,概率的统计是一个范围,例如P(|X-2|<0.3),相当于计算area。以f(x)表示随机variable,则为
二项分布
二项分布binomial distribution,有个更熟悉的名字normal distribution正态分布。随机变量处于两种状态,例如硬币的正面或反面,投篮投中或者miss。如果是公平随机,例如抛硬币,每个状态出现的几率是0.5。对于投篮,可能是P(shoot)=0.7,P(miss)=0.3。
如何计算P(X=n),n为出现某种状态的次数。假设一共投篮N次篮(N=6),有多少种可能组合,例如出现2次命中的组合。简单说我们有A、B两个字母,填入6个空格,可以有多少种组合。为6×5,如果有A、B、C三个字母,则有6×5×4,即N!/(N-n)!
由于在计算概率中,A和B的先后顺序没有影响,即无先后顺序,则还要除以n!(A、B或A、B、C本身的排列组合),在组合中表述为:
我们得到了组合次数,每个组合出现的概率是多少?投6中2为P(shoot)p(shoot)p(miss)p(miss)p(miss)p(miss),将每个位置出现的概率乘前来就可以,即p^n×(1-p)^(N-n),总的概率为:
其实倒不需要去死记硬背,只要知晓计算原理,很容易推导。
这些概率非常适合在Excel中进行计算和画图。在Excel有个小技巧我一直不会,如果固定选某个单元,选择后用F4,在copy这个公式的时候,就不会飘移位置。
期望值E(X)
期望值Exptected value of a random varaible,实际就是population mean,有些时候总本是infinite,例如无数次仍投硬币的结果,可通过频率×数值求和获得。
二项分布的E(X)
如果是二项分布,n表示次数,则E(X)=np,这个推导过程很有趣
二项分布的variance(方差)
和期望值一样,这属于头脑体操,其基本方式亦也差不多。将证明方差为np(1-p)。这部分不是Khan公开课,讲正态分布时涉及二项式方差的计算公式,兴致来了,玩一下。
相关链接:我的四方书库
相关文章推荐
- Khan公开课 - 统计学学习笔记:(四)泊松分布、大数定理
- Khan公开课 - 统计学学习笔记:(六)中心极限定理
- Khan公开课 - 统计学学习笔记:(十一)平方之和、F统计
- Khan公开课 - 统计学学习笔记:(五)正态分布
- Khan公开课 - 概率学习笔记(一)独立事件、相依事件和排列组合
- Khan公开课 - 统计学学习笔记:(八)样本均值之差
- Khan公开课 - 概率学习笔记(二)无顺序独立事件、数学符号、Bayes's Law、非公平概率计算
- Khan公开课 - 统计学学习笔记:(七)伯努利分布、置信区间、t分布、p-value和第一型错误
- Khan公开课 - 统计学学习笔记:(九)线性回归公式,决定系数和协方差
- Khan公开课 - 统计学学习笔记:(一)中间值和统计图表
- Khan公开课 - 统计学学习笔记:(十)Chi-square分布
- Khan公开课 - 统计学学习笔记:(十二)逻辑
- Khan公开课 - 统计学学习笔记:(二)总本、样本、集中趋势、离中趋势
- 概率与数理统计学习总结五--高维正态随机变量的概率密度
- 【学习笔记】斯坦福大学公开课(机器学习) 之概率解释
- 统计学学习笔记——(6)概率分布
- 算法导论学习笔记-5.4 概率分析和指示器随机变量的应用-几个有趣的问题
- 哈佛大学公开课《Positive Psychology 1504》学习笔记 - Goal Setting
- 概率论快速学习05:随机变量 二项分布 泊松分布
- 算法导论学习笔记-第9章 中位数和顺序统计学