您的位置：首页 > 其它

语音识别中声学模型训练过程-GMM（一）

2017-02-17 21:52 776 查看

在上一章语音识别过程中提到的P(O|W )称做观测最大释然，由声学模型计算可得，本章就主要描述HMM+GMM来计算最大释然的过程。

首先回顾一下：在解码过程中

P(O|W )由声学模型训练得到，

P(O|W )是W的似然函数，结合之前讲述的声学特征也就是说，在给定的W情况，使得当前的特征向量（MFCC）的概率最大，结合HMM的概念，也就是说在在t时刻给定状态qi 的前提下，求输出O的概率，即p(ot|qi)
，即矩阵B，状态对应的是word，phone或者subphone，在LVCSR中对应的是subphone
在解码阶段，在固定观测向量ot 的前提下，我们需要计算每一个HMM状态可能产生的概率，然后找到最大可能的状态（subphone）序列，所以训练过程就是计算观测似然矩阵B的过程。
理想的方式计算MFCC的时候，可以把输入的帧映射为一些离散的量化符号方便计算，如下图所示

然后这么计算似然是有问题的，因为输入音频是连续的，特征基本变化很大的，很难进行比较好的聚类，因此提出连续空间的概率密度函数（PDF），最常用的计算声学似然的方式是高斯混合模型，即GMM模型（当然SVM，CRF，NN也可以）。

高斯分布也是一种正态分布，函数如下所示

不同的均值，方差下，对应的高斯分布如下所示：

离散情况下，均值，方差计算如下所示：

当高斯函数用来当做概率密度函数时，曲线下的面积和应该为1，如下所示,灰色区域面积为0.341

我们可以用单GMM pdf来估测一个特定的HMM状态j，产生一个单一维度的声学特征向量O的概率，(假设

ot 服从正态分布)，换句话说，就是用对一维特征来说，一元高斯来代表观测似然函数bj
(ot ) ，

假设HMM状态j 对应的均值方式是μj 和σ2j ，那么计算似然 bj
(ot ) 可以通过Gaussian PDF来计算，如下所示：