您的位置:首页 > 其它

漫步数理统计二十八——混合分布

2017-05-06 20:24 323 查看
假设有k个分布,它们的pdf分别为f1(x),f2(x),…,fk(x),支撑为1,2,…,k,均值为μ1,μ2,…,μk,方差为σ21,σ22,…,σ2k,正的混合概率p1,p2,…,pk且满足p1+p2+⋯+pk=1,令=∪ki=1i且考虑函数

f(x)=p1f1(x)+p2f2(x)+⋯+pkfk(x)=∑i=1kpifi(x),x∈

注意f(x)是非负的且在(−∞,∞)上积分为1;因此f(x)是某连续型随机变量X的pdf,X的均值为

E(X)=∑i=1kpi∫∞−∞xfi(x)dx=∑i=1kpiμi=μ¯

即μ1,μ2,…,μk的加权平均,方差等于

var(X)=∑i=1kpi∫∞−∞(x−μ¯)2fi(x)dx=∑i=1kpi∫∞−∞[(x−μi)+(μi−μ¯)]2fi(x)dx=∑i=1kpi∫∞−∞(x−μi)2fi(x)dx+∑i=1kpi(μi−μ¯)2∫∞−∞fi(x)dx

交叉相的积分为零。即

var(X)=∑i=1kpiσ2i+∑i=1kpi(μi−μ¯)2

注意方差不单单是k个方差的加权平均,还包括一个正值,涉及到均值的加权方差。

注1:注意区分k个分布的混合与k个随机变量的混合∑aiXi 。

接下来介绍一些分布。首先是参数α>0,β>0的对数伽玛pdf,形式为

f1(x)={1Γ(α)βαx−(1+β)/β(logx)α−10x>1elsewhere

用logΓ(α,β)表示该分布。

例1:精算师发现对数伽玛与伽玛分布很适合为索赔分布建模。假设X1满足logΓ(α1,β1),X2满足Γ(α2,β2),混合概率为p,(1−p),那么混合分布的pdf为

f(x)=⎧⎩⎨⎪⎪⎪⎪⎪⎪1−pβα22Γ(α2)xα2−1e−x/β2pβα11Γ(α1)(logx)α1−1x−(β1+1)/β1+1βα22Γ(α2)xα2−1e−x/β200<x≤11<xelsewhere

假设β1<2−1,该混合分布的均值与方差为

μσ2=p(1−β1)−α1+(1−p)α2β2=p[(1−2β1)−α1−(1−β1)−2α1]+(1−p)α2β22+p(1−p)[(1−β1)−α1−α2β2]2

混合分布有时候也成为复合。进一步我们没必要限制在有限多个分布。如下面的例子所示,连续的加权函数可以替换p1,p2,…,pk;即积分替换求和符号。

例2:令Xθ是参数为θ的泊松随机变量,对每个不同的θ值,我们想得到无限多个混合的泊松分布,我们取加权函数为θ的pdf,即参数为α,β的伽玛函数,对x=0,1,2,…,复合分布的pmf为

p(x)=∫∞0[1βαΓ(α)θα−1e−θ/β][θxe−θx!]dθ=1Γ(α)βαx!∫∞0θα+x−1e−θ(1+β)/βdθ=Γ(α+x)βxΓ(α)x!(1+β)α+x

其中第三行使用了变换替换t=θ(1+β)/β。

当α=r,β=(1−p)/p其中0<p<1,r为正整数时,pmf变成

p(x)=(r+x−1)!(r−1)!pr(1−p)xx!, x=0,1,2,…

这个复合分布就是成功概率为p的独立重复试验成功次数超过r的概率;这是负二项分布的形式,在车祸数量的问题中负二项分布是很好的模型。

在复合分布中,我们也可以将X的原分布看成给定θ的条件分布,用f(x|θ)表示,那么加权函数可以看成θ的pdfg(θ)。联合pdf为f(x|θ)g(θ)且复合pdf可以看成θ的边缘pdf

h(x)=∫θg(θ)f(x|θ)dθ

当θ是离散分布时积分符号改成求和符号。假设正态分布的均值为0方差为σ2=1/θ>0,其中θ来自某个随机模型。方便起见,我们说后者为参数α,β的伽玛分布,那么给定θ,X是条件N(0,1/θ)分布,使得X,θ的联合分布为

f(x|θ)g(θ)=[θ√2π‾‾‾√exp(−θx22)][1βαΓ(α)θα−1exp(−θ/β)]

其中−∞<x<∞,0<θ<∞,因此(h(x))的边缘pdf通过积分θ即可求出;即

h(x)=∫∞0βα+1/2−1βα2π‾‾‾√Γ(α)exp[−θ(x22+1β)]dθ

通过比较参数α+12,[(1/β)+(x2/2)]−1的伽玛pdf,我们可以得到

h(x)=Γ(α+12)βα2π‾‾‾√Γ(α)(2β2+βx2)α+1/2, ∞<x<∞

有趣的是如果α=r/2,β=2/r,其中r为正整数,那么X就是自由度为r的t分布,即我们得到了t分布的推广形式。注意得出的分布相比开始的条件正态分布有更严重的厚尾现象。

例3:假设我们有一个二项分布,但是我们不确定成功的概率p。假设p来自某个随机过程,它满足参数α,β的贝塔pdf,那么n个独立试验成功的次数X满足条件二项分布,使得X,p的联合pdf为

p(x|p)g(p)=n!x!(n−x)!px(1−p)n−xΓ(α+β)Γ(α)Γ(β)pα−1(1−p)β−1

其中x=0,1,…,n,0<p<1。那么X的无条件pdf为

h(x)=∫10n!Γ(α+β)x!(n−x)!Γ(α)Γ(β)px+α−1(1−p)n−x+β−1dp=n!Γ(α+β)Γ(x+α)Γ(n−x+β)x!(n−x)!Γ(α)Γ(β)Γ(n+α+β),x=0,1,2,…,n

现在假设α,β是正整数;因为Γ(k)=(k−1)!,这个无条件pdf可以写成

h(x)=n!(α+β−1)!(x+α−1)!(n−x+β−1)!x!(n−x)!(α−1)!(β−1)!(n+α+β−1)!,x=0,1,2,…,n

因为条件均值E(X|p)=np,无条件均值为nα/(α+β),这是因为贝塔分布的均值等于α/(α+β)。

例4:假设X满足参数为k,θ−1的条件伽玛pdf,θ的加权函数是参数为α,β的伽玛pdf,所以X的无条件pdf为

h(x)=∫∞0[θα−1e−θ/ββαΓ(α)][θkxk−1e−θxΓ(k)]dθ=∫∞0xk−1θα+k−1βαΓ(α)Γ(k)e−θ(1+βx)/βdθ

比较参数为α+k,β/(1+βx)的伽玛pdf,从而得到

h(x)=Γ(α+k)βkxk−1Γ(α)Γ(k)(1+βx)α+k, 0<x<∞

这是广义的Pareto分布(广义F分布),当然当k=1(X是条件指数分布),那么pdf为

h(x)=αβ(1+βx)−(α+1),0<x<∞

这是Paretopdf。这两个复合pdf都比开始的伽玛分布有严重的厚尾。

广义Pareto分布无法用简单的闭形式表达,但是Pareto分布可以

H(x)=∫x0αβ(1+βt)−(α+1)dt=1−(1+βx)−α, 0≤x<∞

从中我们通过X=Yτ可以得到另一种有用的长尾分布,其中0<τ,所以Y的cdf为

G(y)=P(Y≤y)=P[X1/τ≤y]=P[X≤yτ]

因此,这个概率等于

G(y)=H(yτ)=1−(1+βyτ)−α,0≤y<∞

对应的pdf为

G′(y)=g(y)=αβτyτ−1(1+βyτ)α+1,0<y<∞

我们称这个分布为变换Pareto分布或者Burr分布,它给出了建模厚尾分布的分布。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息