语音中的关于语音识别的一些知识
2016-10-28 20:59
204 查看
以下内容都是抄的,哈哈哈
1.mel频率:
是模拟人耳对不同频率语音的感知。
同态处理的结果,分为复数和实数倒谱,常用实数倒谱,是语音识别中的重要系数。
3,Mel频率倒谱系数参数的提到中:有一步:分帧, 然后再加上窗,原因呢:,下面写的:
4,那现在总结下倒谱分析,它实际上是这样一个过程:
最后几个图:
引用:
1.mel频率:
是模拟人耳对不同频率语音的感知。
人类对不同频率语音有不同的感知能力:对1kHz以下,与频率成线性关系,对1kHz以上,与频率成对数关系。频率越高,感知能力就越差了。因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。
在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。 转换公式:B(f)=1125ln(1+f/700) 其中f为频率,B为Mel-频率。
2.倒谱:在Mel频域内,人对音调的感知能力为线性关系,如果两段语音的Mel频率差两倍,则人在感知上也差两倍。 转换公式:B(f)=1125ln(1+f/700) 其中f为频率,B为Mel-频率。
同态处理的结果,分为复数和实数倒谱,常用实数倒谱,是语音识别中的重要系数。
3,Mel频率倒谱系数参数的提到中:有一步:分帧, 然后再加上窗,原因呢:,下面写的:
4,那现在总结下倒谱分析,它实际上是这样一个过程:
1)将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[k];
只考虑幅度就是:|X[k] |=|H[k]||E[k] |;
2)我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。
3)再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。
这实际上有个专业的名字叫做同态信号处理。它的目的是将非线性问题转化为线性问题的处理方法。对应上面,原来的语音信号实际上是一个卷性信号(声道相当于一个线性时不变系统,声音的产生可以理解为一个激励通过这个系统),第一步通过卷积将其变成了乘性信号(时域的卷积相当于频域的乘积)。第二步通过取对数将乘性信号转化为加性信号,第三步进行逆变换,使其恢复为卷性信号。这时候,虽然前后均是时域序列,但它们所处的离散时域显然不同,所以后者称为倒谱频域.
只考虑幅度就是:|X[k] |=|H[k]||E[k] |;
2)我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。
3)再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。
这实际上有个专业的名字叫做同态信号处理。它的目的是将非线性问题转化为线性问题的处理方法。对应上面,原来的语音信号实际上是一个卷性信号(声道相当于一个线性时不变系统,声音的产生可以理解为一个激励通过这个系统),第一步通过卷积将其变成了乘性信号(时域的卷积相当于频域的乘积)。第二步通过取对数将乘性信号转化为加性信号,第三步进行逆变换,使其恢复为卷性信号。这时候,虽然前后均是时域序列,但它们所处的离散时域显然不同,所以后者称为倒谱频域.
最后几个图:
引用:
相关文章推荐
- 关于网络通信的一些小知识
- 关于c++标准库的一些知识
- 关于图像多尺度的一些基础知识
- 关于“云运算”的一些知识。
- 关于j2se的一些知识和技巧
- 关于“漏洞扫描”不得不说的一些知识
- 关于CLR的一些知识
- 关于SharePoint讨论板的一些知识(2)--视图中的栏目
- 关于javaSE面向对象的一些小知识
- 一些关于流量和带宽的知识
- 关于javascript 一些知识
- Java之深入JVM(5) - 关于ClassLoader的一些知识 (转)
- 关于MyEclipse破解文件的一些知识
- 关于Gridview的一些知识和问题
- 关于wifi和微波炉的一些知识
- 关于css 的一些琐碎知识
- 关于Layer的一些知识
- 关于js的一些基本知识
- 关于WEB服务器的一些知识
- C++关于类的一些知识