您的位置:首页 > 其它

[DL]概率论相关知识总结

2017-09-27 12:59 399 查看
本文总结了概率论的一些基本知识。

概率分布

在解释各种分布之前,我们先看看常见的分布类型有哪些,分布类型可分为离散型和连续型。

离散型:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。

连续型:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。

下图列出了常用的概率分布类型以及概率(密度)分布函数。



伯努利分布

一个伯努利分布只有两个可能的结果,记作 1(成功)和 0(失败),只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X,取值为 1 即成功的概率为 p,取值为 0 即失败的概率为 q 或者 1-p。

期望值是指一个概率分布的平均值,对于随机变量 X,对应的期望值为:E(X)=1∗p+0∗(1−p)=p而方差为 V(X)=E(X2)–[E(X)]2=p–p2=p(1−p)

实际上还有很多关于伯努利分布的例子,比如抛一次硬币的结果是正面还是反面,明天是晴天还是雨天,这场比赛中某一队输还是赢,等等。

二项分布

抛硬币的实验中,当抛完第一次,我们可以再抛一次,也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X,它表示我们投掷为正面的次数。X 可能会取什么值呢?在投掷硬币的总次数范围内可以是任何非负整数。

如果存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布,也称为多重伯努利分布。

任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p,n 是试验的总次数,p 是每一次试验的成功概率。

根据以上所述,一个二项分布的性质为:

每一次试验都是独立的;

只有两个可能的结果;

进行 n 次相同的试验;

所有试验中成功率都是相同的,失败的概率也是相同的。

二项分布的平均值表示为 µ=n∗p,而方差可以表示为 Var(X)=n∗p∗q

泊松分布

泊松分布适用于事件发生的时间和地点随机分布的情况,其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下:

任何一个成功事件不能影响其它的成功事件;

经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;

时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零。

在泊松分布中定义的符号有:

λ是事件的发生率;

t 是事件间隔的长度;

X 是在一个时间间隔内的事件发生次数。

设 X 是一个泊松随机变量,那么 X 的概率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数,则µ=λ∗t泊松分布的均值:E(X)=µ

方差: Var(X)=µ

几个例子:

一天内医院接到的紧急呼叫次数;

一天内地方接到的偷窃事件报告次数;

一小时内光顾沙龙的人数;

一个特定城市里报告的自杀人数;

书的每一页的印刷错误次数。

均匀分布

假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同,随机变量的取值都是等概率的,因此概率密度就可以表达为区间长度分之一,如果我们取随机变量一半的可能值,那么其出现的概率就为 1/2。它的均值为E(X)=(a+b)/2方差为V(X)=(b−a)2/12

指数分布

现在再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。

随机变量 X 服从于指数分布,则该变量的均值可表示为E(X)=1/λ方差可以表示为 Var(X)=(1/λ)2如下图所示,若λ较大,则指数分布的曲线下降地更大,若λ较小,则曲线越平坦。如下图所示:



正态分布(高斯分布)

实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。因为该分布的普遍性,尤其是中心极限定理的推广,一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点:

所有的变量服从同一均值、方差和分布模式。

分布曲线为钟型,并且沿 x=μ对称。

曲线下面积的和为 1。

该分布左半边的精确值等于右半边。

正态分布和伯努利分布有很大的不同,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。

若随机变量 X 服从于正态分布,那么 X 的概率密度可以表示为:

随机变量 X 的均值可表示为 E(X)=µ方差可以表示为 Var(X)=σ2其中均值µ和标准差σ为高斯分布的参数。

随机变量 X 服从于正态分布 N(µ,σ),可以表示为:

标准正态分布可以定义为均值为 0、方差为 1 的分布函数,以下展示了标准正态分布的概率密度函数和分布图:

分布之间的关系

伯努利分布和二项分布的关系

二项分布是伯努利分布的单次试验的特例,即单词伯努利试验;

二项分布和伯努利分布的每次试验都只有两个可能的结果;

二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。

泊松分布和二项分布的关系

以下条件下,泊松分布是二项分布的极限形式:

1. 试验次数非常大或者趋近无穷,即 n → ∞;

2. 每次试验的成功概率相同且趋近零,即 p →0;

3.np =λ 是有限值。

正态分布和二项分布的关系 & 正态分布和泊松分布的关系

以下条件下,正态分布是二项分布的一种极限形式:

1. 试验次数非常大或者趋近无穷,即 n → ∞;

2.p 和 q 都不是无穷小。

参数 λ →∞的时候,正态分布是泊松分布的极限形式。

指数分布和泊松分布的关系

如果随机事件的时间间隔服从参数为 λ的指数分布,那么在时间周期 t 内事件发生的总次数服从泊松分布,相应的参数为 λt。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: