您的位置:首页 > 其它

机器学习基础---概率论基础知识

2017-04-13 19:31 302 查看


0. 前言

本文主要旨在对概率统计的基础概念与知识进行概要的总结,以便于使用到时可以参考。相关的细节可以参考给出的书目。

概率论是数理统计的基础,也是很多机器学习模型的支撑。其中涉及的贝叶斯公式、大数定理、中心极限定理尤为重要。


1. 概率论的基本概念


1.1 基本概念


随机试验 (E)

(1)可以在相同的条件下重复地进行

(2)每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果

(3)进行一次试验之前不确定哪一个结果会出现

例子:抛一枚硬币,观察正面,反面出现的情况


样本空间 (S)

随机试验所有可以能的结果组成的集合


样本点

样本空间的元素,即每个可能的结果


随机事件

随机试验E的样本空间S的子集称为随机事件


基本事件

样本空间的单个元素,一个可能结果构成的集合


必然事件(全集)、不可能事件(空集)


事件的关系与事件的运算 (类似于集合运算)

相等、和事件、积事件、差事件、互不相容(互斥)、逆事件(对立事件)




1.2 频率与概率


频率

定义:在相同条件下,进行n次试验,在这n次试验中,事件A发生的次数,称为事件A发生的频数,比值:f=频数/试验次数,称为事件A发生的频率。

基本性质:(1)0 <= f <= 1 ; (2) f(S) = 1; (3) 两两互不相融事件的可列可加性。

稳定性:当试验重复次数很大时,频率趋于稳定,可以用来表征事件A发生可能性的大小。


概率

定义: 设E是随机试验,样本空间为S,对于E的每一个事件A赋予一个实数,记为P(A),称为A的概率

性质:(1)非负性 P(A) >= 0; (2)规范性,P=1表示必然事件,等于P(S) ; (3) 可列可加性(互不相容事件)。

(由频率的观察引申而来,事情发生的可能性是客观存在的)


1.3 等可能概型(古典概型)

满足两个性质:(1)试验的样本只包含有限个元素;(2)试验的基本事件,即每个可能的结果发生的可能性相等。

典型例子:抛硬币

长期实践的发现:“概率很小的事件在一次试验中几乎是不发生”(称之为实际推理原理)


1.4 条件概率

假设A和B是试验E的事件,考虑A已经发生的情况下B发生的概率:P(B|A) = P(AB) / P(A);满足概率的三个基本性质。

乘法公式:P(AB) = P(A)P(B|A)

事件S的划分:B1, ... ,Bi, ... Bn

全概率公式:P(A) = P(A|B1) + ... + P(A|Bi) + ...+ P(A|Bn)

贝叶斯公式:P(Bi|A) = P(BiA)/P(A) = P(A|Bi)P(Bi)
/ (P(A|B1) + ... + P(A|Bi) + ...+ P(A|Bn))

P(Bi|A)=P(ABi)P(A)=P(A|Bi)P(Bi)∑nj=1P(A|Bj)P(Bj)P(Bi|A)=P(ABi)P(A)=P(A|Bi)P(Bi)∑j=1nP(A|Bj)P(Bj)

注意:P(A) > 0, P(Bi) > 0


1.5 独立性

独立性是概率论和数理统计中很重要的概念,很多情况需要满足独立性才适用,一般根据实践来确定事件之间是否相互独立。

定义:若 P(AB) = P(A)P(B), 则称AB事件相互独立,即A和B两个事件的发生互不影响。

定理1:若P(A) > 0 ,且 P(B|A) = P(B) 等价于 AB相互独立

定理2:若AB相互独立,则其对立事件也相互独立

可以很自然的推广到n个事件的情况


2. 随机变量及其分布


2.1 随机变量

定义:设随机试验的样本空间为S={e}, X=X(e)是定义在样本空间S上的实值单值函数。称X=X(e)为随机变量。

这样一来,样本空间可以很好的映射到一系列的实值上,方便了接下来各种性质的讨论。



随机变量可以分为:离散型随机变量和非离散型随机变量,其中非离散型随机变量主要以连续型随机变量为主。

离散型随机变量:随机变量可能取到的值时有限个数或可列无限多个

连续型随机变量:随机变量可能取到的值时无限个数


2.2 随机变量的分布函数

定义:设X是随机变量,x是任意实数,则分布函数为:

F(x)=P(X⩽x),x∈(−∞,∞)F(x)=P(X⩽x),x∈(−∞,∞)

则对于任意实数x1, x2,有 P{x1 < X <= x2} = F(x2) -
F(x1)

性质:(1)F(x)是不减函数;(2)0<=F(x)<=1, 且 F(-inf) = 0, F(inf) = 1; (3)F(x+0) = F(x),即F(x) 右连续


2.3 离散型随机变量及其分布律

分布律:对于离散型随机变量X,可以取的值有 x1,...,xi, ..., xn , 对应的概率为 P(x1),...,P(xi),
..., P(xn)。


常用离散型随机分布


(1)0-1分布


事件只有发生和不发生两种可能,发生的概率为p,则不发生的概率为(1-p),

那么P{X=k} = pk(1-p)1-k, k = 0,1


(2)伯努利试验、二项分布


伯努利试验:一次试验只有两种可能结果,发生A,或不发生A',并且P(A) = p, P(A') = 1-p

n次独立重复的伯努利试验服从二项分布:设X表示事件A发生的次数,则P{X=k} = C(n,k)pk(1-p)n-k, k = 0,1,...,n ,记为X~(n,p),即X服从参数为n,p的二项分布。

注意:重复是指每次试验p不变;独立是指各次结果互不影响。


(3)泊松分布


定义:记为X~PI(lambda)

P(X=k)=λke−λk!,k=0,1,2,....P(X=k)=λke−λk!,k=0,1,2,....

泊松定理:当n很大时,泊松分布近似等于二项分布,并且 lambda = np

实际中很多事件服从泊松分布:一本书一页中的印刷错误数,某地区在一天内邮递遗失的信件数、某一医院在一天内的急诊病人数、某一地区一个时间间隔内发生交通事故的次数,在一个时间间隔内某种放射性物质发出的、经过计算机的粒子数等。

(可以发现这些例子中,都是小概率事件,从实际中与泊松定理联系起来。)


2.4 连续型随机变量及其概率密度

对于连续型随机变量X,f(x)f(x)称为X的概率密度函数,简称概率密度。分布函数定义如下:

F(x)=∫x−∞f(t)dtF(x)=∫−∞xf(t)dt

概率密度函数的积分,即围成的面积,为随机变量落入某一区间的概率,如图所示:

P(x1⩽X⩽x2)=∫x2x1f(t)dtP(x1⩽X⩽x2)=∫x1x2f(t)dt




(1)均匀分布


随机变量落入区间(a,b)中任意等长度的子区间内的可能性是相同的。或者说它落入(a,b)区间内的概率只依赖于子区间内的长度而与子区间的位置无关。 X~U(a,b)
if a<x<b :
f(x) = 1/(b-a)
else :
f(x) = 0


均匀分布图:




(2)指数分布

if x>0 :
f(x) = (1/theta)*exp(-x/theta)
else
f(x) = 0


指数分布图:




(3)正太分布 (高斯(Gauss)分布)


f(x)=12π−−√σe(x−μ)22σ2,−∞<x<∞f(x)=12πσe(x−μ)22σ2,−∞<x<∞

其中μ,σμ,σ为常数,分别表示均值和标准差,

X∼N(μ,σ2)X∼N(μ,σ2)

高斯分布的不同参数的影响:



高斯分布的“3σ3σ”法则 : μ−3σμ−3σ 范围的覆盖率已经达到99.%以上。



高斯分布的上αα 分位点

P(X>zα)=α,0<α<1P(X>zα)=α,0<α<1




2.5 随机变量的函数的分布

随机变量X的函数Y=g(X)也是一个随机变量,可以根据X的分布率或概率密度求出Y的分布率或概率密度。


3. 多维随机变量及其分布

多维随机变量是在一维上的扩展,以二维随机变量为例


(1)离散型随机变量

分布函数:

F(x,y)=P(X⩽x,Y⩽y),−∞<x<∞,−∞<y<∞F(x,y)=P(X⩽x,Y⩽y),−∞<x<∞,−∞<y<∞

分布率:

P(X=xi,Y=yi)=pij,i=1,2,...(pij⩾0,∑i=1∞∑j=1∞pij=1)P(X=xi,Y=yi)=pij,i=1,2,...(pij⩾0,∑i=1∞∑j=1∞pij=1)


(2)连续型分布函数(概率密度对应三维空间积分)

分布函数:

F(x,y)=∫y−∞∫x−∞f(x,y)dxdy,f(x,y)>0F(x,y)=∫−∞y∫−∞xf(x,y)dxdy,f(x,y)>0

概率:

P((X,Y)∈G)=∬Gf(x,y)dxdyP((X,Y)∈G)=∬Gf(x,y)dxdy


(3)其他概念

边缘分

FX(x)=P(X⩽x)=P(X⩽x,Y<∞)=F(x,∞)FX(x)=P(X⩽x)=P(X⩽x,Y<∞)=F(x,∞)

FY(y)=P(Y⩽y)=P(X<∞,Y⩽y)=F(∞,y)FY(y)=P(Y⩽y)=P(X<∞,Y⩽y)=F(∞,y)

条件分布

离散型随机变量:

P(Y=yj|X=xi)=P(X=xi,Y=yj)P(X=xi),j=1,2,...P(Y=yj|X=xi)=P(X=xi,Y=yj)P(X=xi),j=1,2,...

连续型随机变量:

fY|X(y|x)=f(x,y)fY(y)fY|X(y|x)=f(x,y)fY(y)

相互独立

F(x,y)=FX(x)FY(y)F(x,y)=FX(x)FY(y)

f(x,y)=fX(x)fY(y)f(x,y)=fX(x)fY(y)

P(X=xi,Y=yj)=P(X=xi)P(Y=yj)P(X=xi,Y=yj)=P(X=xi)P(Y=yj)

两个随机变量的分布函数

Z = X+Y

Z = Y/X

Z = XY

M = max{X, Y}

N = min{X, Y}


4. 随机变量的数字特征


4.1 数学期望

数学期望简称期望,又称为均值。 数学期望完全由随机变量的分布所确定,若X服从某一分布,也称E(X)是这一分布的数学期望。

离散型随机变量:

E(X)=∑k=1∞xkpkE(X)=∑k=1∞xkpk

连续型随机变量:

E(X)=∫∞−∞xf(x)dxE(X)=∫−∞∞xf(x)dx

数学期望几个重要性质

设C是常数,则有E(C) = C.

设X是一个随机变量,C是常数,则有:E(CX) = CE(X).

设X,Y是两个随机变量,则有:E(X+Y) = E(X)+E(Y)

设X, Y是相互独立的随机变量,则有:E(XY) = E(X)E(Y)


4.2 方差

定义

方差表达了随机变量X的取值与其数学期望的偏离程度。

D(X)=Var(X)=E([X−E(X)]2)D(X)=Var(X)=E([X−E(X)]2)

σ(X)=D(X)−−−−−√σ(X)=D(X)

由定义可知,方差实际上就是随机变量X的函数

g(X)=(X−E(X))2g(X)=(X−E(X))2

的数学期望,因此

离散型随机变量的方差:

D(X)=∑k=1∞[xk−E(X)]2pkD(X)=∑k=1∞[xk−E(X)]2pk

连续型随机变量的方差:

D(X)=∫∞−∞[x−E(X)]2f(x)dxD(X)=∫−∞∞[x−E(X)]2f(x)dx

随机变量X的方差可按下列公式计算(常用):

D(X)=E(X2)−[E(X)]2D(X)=E(X2)−[E(X)]2

标准化变量:

期望为0,方差为1

X∗=X−μσX∗=X−μσ

方差的几个重要性质:

设C为常数,则D(C) = 0

设X是随机变量,C是常数,则有

D(CX)=C2D(X),D(X+C)=D(X)D(CX)=C2D(X),D(X+C)=D(X)

设X,Y是两个随机变量,则有

D(X+Y)=D(X)+D(Y)+2E((X−E(X))(Y−E(Y)))D(X+Y)=D(X)+D(Y)+2E((X−E(X))(Y−E(Y)))
,若X,Y相互独立,则

D(X+Y)=D(X)+D(Y)D(X+Y)=D(X)+D(Y)

D(X)=0的充要条件是X以概率1取常数E(X),即 P{X=E(X)} = 1

切比雪夫(Chebyshev)不等式:

切比雪夫不等式给出了在随机变量的分布未知,而只知道E(X)和D(X)的情况下估计概率 P{|X-E(X)|<epsilon}的界限,epsilon是任意正数。

P(|X−μ|⩾ε)⩽σ2ε2P(|X−μ|⩾ε)⩽σ2ε2

P(|X−μ|<ε)⩾1−σ2ε2P(|X−μ|<ε)⩾1−σ2ε2




4.3 协方差及相关系数

协方差:

Cov(X,Y)=E(X−E(X))E(Y−E(Y))Cov(X,Y)=E(X−E(X))E(Y−E(Y))

相关系数:

ρXY=Cov(X,Y)D(X)−−−−−√D(Y)−−−−−√ρXY=Cov(X,Y)D(X)D(Y)

由定义可知:Cov(X,Y) = Cov(Y,X), Cov(X,X) = D(X)

协方差性质:

Cov(aX,bY)=abCov(X,Y)Cov(aX,bY)=abCov(X,Y)
ab是常数

Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

相关系数性质:

|ρXY|⩽1|ρXY|⩽1

|ρXY|=1|ρXY|=1
的充要条件是,存在常数a,b,使P(Y=a+bX) = 1



|ρXY|=0|ρXY|=0
X和Y 不相关

_注意:_相关系数也称为线性相关系数,它是一个可以用来描述随机变量(X,Y)的两个分量X,Y之间的线性关系紧密程度的数字特征。当相关系数较小时,X,Y的线性相关程度较差;当相关系数=0时称X,Y不相关。值得注意的是,不相关是指X,Y之间不存在线性关系,它们还可能存在除线性关系之外的关系。

X,Y相互独立是对X,Y的一般关系而言。X,Y相互独立则X,Y一定不相关;反之,若X,Y不相关则X,Y不一定相互独立。

特别的,对于二维正态随机变量(X,Y),X和Y不相关与X和Y相互独立是等价的。


4.4 矩、协方差矩阵

k阶原点矩(k阶矩)

E(Xk),k=1,2,...E(Xk),k=1,2,...

k阶中心矩

E([X−E(X)]k),k=2,3,...E([X−E(X)]k),k=2,3,...

k+l阶混合矩

E(XkYl),k,l=1,2,....E(XkYl),k,l=1,2,....

k+l阶混合中心矩

E([X−E(X)k[Y−E(Y)]l),k,l=1,2,...E([X−E(X)k[Y−E(Y)]l),k,l=1,2,...

协方差矩阵

cij=Cov(Xi,Xj)=E([Xi−E(Xi)][Xj−E(Xj)]),i,j=1,2,...,ncij=Cov(Xi,Xj)=E([Xi−E(Xi)][Xj−E(Xj)]),i,j=1,2,...,n

一般n维随机变量的分布是不知道的,或者是太复杂,以至于在数学上不易处理,因此在实际引用中协方差矩阵显得尤为重要。


5. 大数定律及中心极限定理

大数定律:随机变量序列的前一些项的算数平均在某种条件下收敛到这些项的均值的算术平均值;

中心极限定理:在相当一般的条件下,当独立随机变量的个数不断增加时,其和的分布趋于正态分布。


5.1 大数定律

弱大数定理(辛钦大数定理):对于相互独立且同分布的序列而言

limn→∞P(|1n∑k=1nXk−μ|<ε)=1limn→∞P(|1n∑k=1nXk−μ|<ε)=1

伯努利大数定理:

limn→∞P(|fAn−p|<ε)=1limn→∞P(|fAn−p|<ε)=1

当试验次数很大时,便可以用事件的频率来代替事件的概率。


5.2 中心极限定理

定理一(独立同分布的中心极限定理):

Yn=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)−−−−−−−−−−√=∑nk=1Xk−nμn√σYn=∑k=1nXk−E(∑k=1nXk)D(∑k=1nXk)=∑k=1nXk−nμnσ

Yn∼N(0,1)Yn∼N(0,1)

定理二(李雅普诺夫(Lyapunov)定理),前提:各随机变量相互独立。

无论各个随机变量Xk (k=1,2,..)服从什么分布,只要满足定理的条件,那么它们的和,当n很大时就近似服从正态分布。

定理三(棣莫弗一拉普拉斯( De Moivre- Laplace)定理)正态分布是二项分布的极限分布。当n充分大时可以使用正态分布作为二项分布的近似。二项分布的标准化变量服从标准正太分布。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  概率论