您的位置：首页 > 其它

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

2016-11-28 10:02 405 查看

一个东西写到10，总会多少有点成就感...只是不知道已经磨掉了多少人的耐心了呢？

此外这节公式密集，大家看着办吧...

-----------笔记开始------------

继续上一讲，先说说EM算法。

MM、EM和GMM

1. MM（混合模型）

(1) 定义：P(x)=∑Kk=1πkPk(x)

，其中πk≥0，∑Kk=1πk=1，构成一个离散分布。同时有Pk(x)≥0，且∫Pk(x)dx=1，1≤k≤K
。

(2) 隐变量

我们有数据(x,G)

，同时依据条件概率分布，有P(x,G)=P(G)P(x|G)。记P(G)=πk，则P(x|G=k)=Pk(x)，其中1≤k≤K
。

则有P(x)=∑GP(x,G)=∑GP(G)P(x|G)=∑Kk=1πkPk(x)

为x的边际分布。

(3) GMM（正态混合模型）

当Pk(x)=12πσ2k√exp(−(x−μk)22σ2k)

，1≤k≤K，我们有P(x)=∑Kk=1πkexp(−(x−μk)22σ2k)，且P(x,G=k)=πkexp(−(x−μk)22σ2k)，1≤k≤K
。

(4) 对数似然函数和最大似然估计

对数似然函数写为l(θ)=∑Ni=1logP(x|θ)=∑Ni=1log∑Ni=1P(xi,G=k|θ)=∑Ni=1log(∑Kk=1P(G=k|θ)P(xk|G=k,θ))

。则我们要求的就是θ∗=argmaxθl(θ)，其中θ={{πk},{μk},{σ2k}}
。

2. EM算法 (expectation maximum，期望最大方法)

第七章：模型评估与选择

1. 概念：我们有数据集D

，函数族F和损失函数L，这样得到最优的f(x)∈F，然后求得y^=f(x)

（有监督的学习）。之后就是对模型进行评估：y^

的精度如何（使用测试集）？模型的选择就是F
的选择，使得测试误差比较小。

2. 方法：

(1) 数据充分：分成三块，1/2用来训练(train)，1/4用来检验(validation)，1/4用来测试(test)。其中validation

的概念是，在∑Ni=1L(yi,f(xi))+λJ(f)

中，加入J函数来考虑函数族的复杂度，以避免过拟合。而validation就是来调正和选择这里的λ
，再用train和validation重新训练模型。

最后，用test数据集，测试并且评估测试误差。

(2) 数据不充分：一种是cross-validation，分成k（比如5-10）份，极端的就是K=N，ave-win-out；另一种是bootstrap，后续章节详述。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航