您的位置：首页 > 其它

[DL]概率论相关知识总结

2017-09-27 12:59 399 查看

本文总结了概率论的一些基本知识。

概率分布

在解释各种分布之前，我们先看看常见的分布类型有哪些，分布类型可分为离散型和连续型。

离散型：数据只能取特定的值，比如，当你掷一个骰子的时候，可能的结果只有 1，2，3，4，5，6 而不会是 1.5 或者 2.45。

连续型：数据可以在给定的范围内取任何值，给定的范围可以是有限的或无限的，比如一个女孩的体重或者身高，或者道路的长度。一个女孩的体重可以是 54 kgs，54.5 kgs，或 54.5436kgs。

下图列出了常用的概率分布类型以及概率（密度）分布函数。

伯努利分布

一个伯努利分布只有两个可能的结果，记作 1（成功）和 0（失败），只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X，取值为 1 即成功的概率为 p，取值为 0 即失败的概率为 q 或者 1-p。

期望值是指一个概率分布的平均值，对于随机变量 X，对应的期望值为：E(X)=1∗p+0∗(1−p)=p而方差为 V(X)=E(X2)–[E(X)]2=p–p2=p(1−p)

实际上还有很多关于伯努利分布的例子，比如抛一次硬币的结果是正面还是反面，明天是晴天还是雨天，这场比赛中某一队输还是赢，等等。

二项分布

抛硬币的实验中，当抛完第一次，我们可以再抛一次，也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X，它表示我们投掷为正面的次数。X 可能会取什么值呢？在投掷硬币的总次数范围内可以是任何非负整数。

如果存在一组相同的随机事件，即一组伯努利试验，在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布，也称为多重伯努利分布。

任何一次试验都是互相独立的，前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p，n 是试验的总次数，p 是每一次试验的成功概率。

根据以上所述，一个二项分布的性质为：

每一次试验都是独立的；

只有两个可能的结果；

进行 n 次相同的试验；

所有试验中成功率都是相同的，失败的概率也是相同的。

二项分布的平均值表示为 µ=n∗p，而方差可以表示为 Var(X)=n∗p∗q

泊松分布

泊松分布适用于事件发生的时间和地点随机分布的情况，其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下：

任何一个成功事件不能影响其它的成功事件；

经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率；

时间间隔趋向于无穷小的时候，一个时间间隔内的成功概率趋近零。

在泊松分布中定义的符号有：

λ是事件的发生率；

t 是事件间隔的长度；

X 是在一个时间间隔内的事件发生次数。

设 X 是一个泊松随机变量，那么 X 的概率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数，则µ=λ∗t泊松分布的均值：E(X)=µ

方差： Var(X)=µ

几个例子：

一天内医院接到的紧急呼叫次数；

一天内地方接到的偷窃事件报告次数；

一小时内光顾沙龙的人数；

一个特定城市里报告的自杀人数；

书的每一页的印刷错误次数。

均匀分布

假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的，那么概率在整个区间 [a,b] 上是均匀分布的，概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同，随机变量的取值都是等概率的，因此概率密度就可以表达为区间长度分之一，如果我们取随机变量一半的可能值，那么其出现的概率就为 1/2。它的均值为E(X)=(a+b)/2方差为V(X)=(b−a)2/12

指数分布

现在再次考虑电话中心案例，那么电话间隔的分布是怎么样的呢？这个分布可能就是指数分布，因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。

随机变量 X 服从于指数分布，则该变量的均值可表示为E(X)=1/λ方差可以表示为 Var(X)=(1/λ)2如下图所示，若λ较大，则指数分布的曲线下降地更大，若λ较小，则曲线越平坦。如下图所示：

正态分布（高斯分布）

实数上最常用的分布就是正态分布（normal distribution），也称为高斯分布（Gaussian distribution）。因为该分布的普遍性，尤其是中心极限定理的推广，一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点：

所有的变量服从同一均值、方差和分布模式。

分布曲线为钟型，并且沿 x=μ对称。

曲线下面积的和为 1。

该分布左半边的精确值等于右半边。

正态分布和伯努利分布有很大的不同，然而当伯努利试验的次数接近于无穷大时，他们的分布函数基本上是相等的。

若随机变量 X 服从于正态分布，那么 X 的概率密度可以表示为：

随机变量 X 的均值可表示为 E(X)=µ方差可以表示为 Var(X)=σ2其中均值µ和标准差σ为高斯分布的参数。

随机变量 X 服从于正态分布 N(µ,σ)，可以表示为：

标准正态分布可以定义为均值为 0、方差为 1 的分布函数，以下展示了标准正态分布的概率密度函数和分布图：

分布之间的关系

伯努利分布和二项分布的关系

二项分布是伯努利分布的单次试验的特例，即单词伯努利试验；

二项分布和伯努利分布的每次试验都只有两个可能的结果；

二项分布每次试验都是互相独立的，每一次试验都可以看作一个伯努利分布。

泊松分布和二项分布的关系

以下条件下，泊松分布是二项分布的极限形式：

1. 试验次数非常大或者趋近无穷，即 n → ∞；

2. 每次试验的成功概率相同且趋近零，即 p →0；

3.np =λ 是有限值。

正态分布和二项分布的关系 & 正态分布和泊松分布的关系

以下条件下，正态分布是二项分布的一种极限形式：

1. 试验次数非常大或者趋近无穷，即 n → ∞；

2.p 和 q 都不是无穷小。

参数 λ →∞的时候，正态分布是泊松分布的极限形式。

指数分布和泊松分布的关系

如果随机事件的时间间隔服从参数为 λ的指数分布，那么在时间周期 t 内事件发生的总次数服从泊松分布，相应的参数为 λt。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航