您的位置：首页 > 其它

语音识别-声学模型（GMM-HMM）

2018-03-12 10:55 1216 查看

本文主要讲解一下GMM-HMM算法声学模型的大概思路！~~~
声学模型的目的是将经MFCC提取的所有帧的特征向量转化为有序的音素输出。概述如下：
我们都知道HMM模型里面有隐含状态概念。我们需要弄明白音素HMM模型的隐含状态与一个音素之间的关系，通常一个音素含有3到5个状态，如果一个包含代表一个音素的HMM模型有3个状态（1,2,3,4,5），在对应一个音素的状态序列可以有1122333455（共10帧），序列的状态数可以大于实际定义的HMM状态数，更具体的可以举例如下，
假如音素ah，每一帧用一个状态表示，但是连续多帧可以同属于一个状态，如下图所示，1-6帧同属于一个状态S1029，7-10帧同属于状态S124，11-16帧同属于状态S561：

GMM的作用：GMM主要是为了得到HMM求解过程的发射概率。
HMM的作用：就是根据各个概率得到最优的音素，单词以及句子序列！~~~
音素HMM模型

单词HMM模型：英文SIX（s ih k s）由4个音素组成，每个音素又由3状态的HMM构成（连接时头和尾状态要去掉），那么整个SIX的HMM就下图所示(Sb代表第一个音素‘s’的开始阶段的状态)：

句子的HMM模型也就是将所有的音素HMM状态进行串联起来。
贴个图，大家可以看一下

上面所说的是单音素（monophone）HMM模型，为了考虑上下文相关，通常采用三音素（triphone）模型，三音素HMM模型中HMM的个数比单音素更多；原本在英文识别中大概有50多个音素，单音素状态下，只需要建立50多个HMM模型，如果使用三音素模型将会出现数千个HMM模型！~~~如SIX在三音素模型中将s-hi， s-hi-k，hi-k-s，k-s, s ....,这样将所有的音素都按照关联构建三音素模型将造成HMM模型个数指数增长！为了压缩建模单元数量，状态绑定的技术被大量使用，它使得发音类似的状态用一个模型表表示，从而减少了参数量。状态绑定的技术可以使用专家手工编撰的规则，也可以使用数据驱动的方式。具体绑定形式如下图所示：

~~~现在大多数识别都采用三音素模型！~~~
随着神经网络的普及以及GPU的高性能，DNN-HMM声学模型估计将成为主流！~~~
具体GMM-HMM理论以及训练识别过程将在以后的文章里介绍！~~~

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航