应用HTK搭建语音拨号系统--创建单音素HMM模型
2016-03-26 09:36
393 查看
应用HTK搭建语音拨号系统--创建单音素HMM模型
哈尔滨工业大学人工智能研究室2006年10月30日
该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word, eg. 音素),具有一定的可扩充性。当加入一个新名字时,只需修改发音词典和任务语法即可。模型为连续混合高斯输出,运用语音决策树聚类形成的绑定状态式三音素。
2. 创建单音素HMM模型
涉及创建一系列单高斯单音素HMM的过程。[step 6]一致初始法创建单音素模型
定义一个原始模型proto:
?/P>
文件名:proto |
~o <VecSize> 39 <MFCC_0_D_A> ~h "proto" <BeginHMM> <NumStates> 5 <State> 2 <Mean> 39 0.0 (x39) <Variance> 39 1.0 (x39) <State> 3 <Mean> 39 0.0 (x39) <Variance> 39 1.0 (x39) <State> 4 <Mean> 39 0.0 (x39) <Variance> 39 1.0 (x39) <TransP> 5 0.0 1.0 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.6 0.4 0.0 0.0 0.0 0.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 <EndHMM> |
HCompV -C .\config\config1 -f 0.01 -m -S train.scp -M .\hmms\hmm0 proto
注4:也可以省掉-C参数,只要train.scp里是特征文件列表,并且特征是MFCC_0_D_A
在目录hmm0下生成了更新后的proto和一个截至宏vFloors。基于.\hmms\hmm0\下的两个文件,手工制作主宏文件(Master
Macro File)hmmdefs和与vFloors相关的宏macro,具体制作过程见HTK
book,压缩包中有实例。
由于暂时不用sp模型,删去monophones1中的sp,构成monophones0文件,重估参数:
HERest -C .\config\config1 -I .\labels\phones0.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm0\macros -H .\hmms\hmm0\hmmdefs -M .\hmms\hmm1 .\lists\monophones0
同上,重复估计两次:
HERest -C .\config\config1 -I .\labels\phones0.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm1\macros -H .\hmms\\hmm1\hmmdefs -M .\hmms\hmm2 .\lists\monophones0
HERest -C .\config\config1 -I .\labels\phones0.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm2\macros -H .\hmms\hmm2\hmmdefs -M .\hmms\hmm3 .\lists\monophones0
注5:为节省空间,也因为上面三步很简单(想出错都难),hmm1和hmm2下的模型文件并没有包含在压缩包里。但hmm3下的模型文件包含在压缩包里了(因为下一步要用到)。
[step 7]修补哑音素模型
对sil模型加入回溯链,对sp绑定到sil的中间状态上。具体的,哑音素模型按下面两步执行。首先,修改hmm3\hmmdef,复制sil的中间状态为sp模型的唯一状态,另存到\hmms\hmm4目录下。然后,指明sp绑定到sil中间状态,利用HHEd加入回溯转移概率:
HHEd -H .\hmms\hmm4\macros -H .\hmms\hmm4\hmmdefs -M .\hmms\hmm5 sil.hed .\lists\monophones1
修改mkphones0.led,去掉最后一行,存为mkphones1.led,利用HLEd工具得到包含sp的音素级真值文本:
HLEd -l * -d .\dict\dict1 -i .\labels\phones1.mlf mkphones1.led .\labels\trainwords.mlf
重估两次:
HERest -C .\config\config1 -I .\labels\phones1.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm5\macros -H .\hmms\hmm5\hmmdefs -M .\hmms\hmm6 .\lists\monophones1
HERest -C .\config\config1 -I .\labels\phones1.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm6\macros -H .\hmms\hmm6\hmmdefs -M .\hmms\hmm7 .\lists\monophones1
注6:hmm5和hmm6下的模型文件并没有包含在压缩包里。为了进行下面的阶段性测试,hmm7下的模型文件包含在压缩包里了。
这么没头没尾的干下去,太枯燥了!我们先看看这时的识别率如何吧,也能增加一点成就感。执行如下命令:
HVite -H .\hmms\hmm7\macros -H .\hmms\hmm7\hmmdefs -S test.scp -l * -i .\results\recout_step7.mlf -w wdnet -p 0.0 -s 5.0 .\dict\dict1 .\lists\monophones1
HResults -I .\labels\testwords.mlf .\lists\monophones1 .\results\recout_step7.mlf
输出结果如下:
?/P>
====================== HTK Results Analysis ======================= Date: Mon Oct 30 20:20:52 2006 Ref : .\labels\testwords.mlf Rec : .\results\recout_step7.mlf ------------------------ Overall Results -------------------------- SENT: %Correct=0.00 [H=0, S=15, N=15] WORD: %Corr=94.12, Acc=41.18 [H=64, D=0, S=4, I=36, N=68] ============================================================== |
HResults -e ??? SENT-START -e ??? SENT-END -I .\labels\testwords.mlf
.\lists\monophones1 .\results\recout_step7.mlf
这时的输出结果:
?/P>
====================== HTK Results Analysis ======================= Date: Mon Oct 30 20:33:27 2006 Ref : .\labels\testwords.mlf Rec : .\results\recout_step7.mlf ------------------------ Overall Results -------------------------- SENT: %Correct=66.67 [H=10, S=5, N=15] WORD: %Corr=94.12, Acc=85.29 [H=64, D=0, S=4, I=6, N=68] =============================================================== |
SENT-END sil
SENT-START sil
应该加入[]以表示他们并不输出任何东西。把dict1字典另存为dict2并替换上面两行成如下形式:
SENT-END [] sil
SENT-START [] sil
重新运行问题解决。相应的,HResults的参数可以省掉-e了:
HVite -H .\hmms\hmm7\macros -H .\hmms\hmm7\hmmdefs -S test.scp -l * -i .\results\recout_step7_2.mlf -w wdnet -p 0.0 -s 5.0 .\dict\dict2 .\lists\monophones1
HResults -I .\labels\testwords.mlf .\lists\monophones1 .\results\recout_step7_2.mlf
[step 8]重校准训练数据
确认trainwords.mlf中的路径为”*/S0???.lab”,修改dict2 加入silence
sil一项,另存为dict3,执行HVite进行Viterbi校准:
HVite -l * -o SWT -b silence -C .\config\config1 -a -H .\hmms\hmm7\macros -H .\hmms\hmm7\hmmdefs -i .\labels\aligned.mlf -m -t 350.0 -y lab -I .\labels\trainwords.mlf -S train.scp .\dict\dict3 .\lists\monophones1
重估两次:
HERest -C .\config\config1 -I .\labels\aligned.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm7\macros -H .\hmms\hmm7\hmmdefs -M .\hmms\hmm8 .\lists\monophones1
HERest -C .\config\config1 -I .\labels\aligned.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm8\macros -H .\hmms\hmm8\hmmdefs -M .\hmms\hmm9 .\lists\monophones1
我们再来看看这时的识别率怎么样。
HVite -H .\hmms\hmm9\macros -H .\hmms\hmm9\hmmdefs -S test.scp -l * -i .\results\recout_step8.mlf -w wdnet -p 0.0 -s 5.0 .\dict\dict2 .\lists\monophones1
HResults -I .\labels\testwords.mlf .\lists\monophones1 .\results\recout_step8.mlf
这时的输出结果:
?/P>
====================== HTK Results Analysis ======================= Date: Mon Oct 30 21:06:51 2006 Ref : .\labels\testwords.mlf Rec : .\results\recout_step8.mlf ------------------------ Overall Results -------------------------- SENT: %Correct=73.33 [H=11, S=4, N=15] WORD: %Corr=97.06, Acc=88.24 [H=66, D=0, S=2, I=6, N=68] =============================================================== |
HERest -C .\config\config1 -I .\labels\aligned.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm9\macros -H .\hmms\hmm9\hmmdefs -M .\hmms\hmm9_1 .\lists\monophones1
HERest -C .\config\config1 -I .\labels\aligned.mlf -t 250.0 150.0 1000.0 -S train.scp -H .\hmms\hmm9_1\macros -H .\hmms\hmm9_1\hmmdefs -M .\hmms\hmm9_2 .\lists\monophones1
HVite -H .\hmms\hmm9\macros -H .\hmms\hmm9\hmmdefs -S test.scp -l * -i .\results\recout_step8_2.mlf -w wdnet -p 0.0 -s 5.0 .\dict\dict2 .\lists\monophones1
HResults -I .\labels\testwords.mlf .\lists\monophones1 .\results\recout_step8_2.mlf
识别结果如下:
?/P>
====================== HTK Results Analysis ======================= Date: Mon Oct 30 21:18:34 2006 Ref : .\labels\testwords.mlf Rec : .\results\recout_step8_2.mlf ------------------------ Overall Results -------------------------- SENT: %Correct=73.33 [H=11, S=4, N=15] WORD: %Corr=97.06, Acc=88.24 [H=66, D=0, S=2, I=6, N=68] ============================================================== |
注7:hmm8和hmm9_1下的模型文件并没有包含在压缩包里。
上面的实验执行过多次,在我这里都能通过,但这并不能保证所有过程都是正确的。我只是一个门外汉!如果您发现了其中的任何问题,请不吝赐教。
相关文章推荐
- Object-C基础(2)—— NSLog函数
- UIScrollView上的控件处理touch事件
- 第五周项目2-游戏中的角色类(1)
- JS表格组件神器bootstrap table详解(基础版)
- 你在编程的时候浪费了多少时间?
- Java 线程池详解
- Howto: Backup and restore your system!
- UIScrollView的属性总结
- 浅聊流水系统
- javascript date类型用法
- Android 大杂烩工程之ListView的开发详解
- idea和eclipse中构建spark
- DBSliderView一个高仿屏幕解锁的控件
- 【USACO题库】2.3.4 Money Systems货币系统
- Java 回顾笔记_集合框架之_linkedList_arrayList
- 多选框全选全不选代码
- Object-C基础(1)—— 变量名与类型
- java毕向东听课笔记4(数组排序)
- iPhone设备及屏幕适配
- UITableView 如何不动态计算返回的cell 的高度