值得关注议题:语音识别-框架与技术
2014-01-26 18:29
405 查看
源文章:梁家恩的云知声 http://www.csdn.net/article/2014-01-24/2818252
评记:很早就想了解语音方面的东西,苦于知识杂乱一直未深入,这篇文章倒是给出了典型的事例。遂记之。
总体框架
1、总体来说,语音技术一共有三大部分:语音识别、语义理解和语音合成,三部分形成一个完整的闭环。相较而言,语音识别是更为复杂的技术,云知声前期便从
语音识别技术出发开始往外扩展。
2、语音技术的两个维度:搜索技术----在知识库和语音模型之间进行搜索,找到一条词与词之间相匹配的路,找到概率最大的词;
语音统计模型
----隐马尔可夫统计模型:包含特征提取、模块解码器、知识库、声学模型及其识别算法共计五部分,据说是李开复先生的大作。
功能部分
1、语音搜索
但语音的搜索和搜索引擎的区别在于语音搜索是要找一个概率最大的文本,也就是找到 与你说出来的声音信号最匹配的文本信号,
这本质上是一个概率统计问题。
搜索过程是对一个大网络中不同的词汇间的关系展开的:比如中文里有40万个词,不同词间的关系(链接)代表不同的网络状态;
每一个词可作为节点,任何一个词都可能走到其它节点,这叫一条通路。搜索的目的就是找出最佳通路。
2、特征提取--提取特征信号与噪声处理
提取特征信号:将语音经由信号处理转换成模块输入,根据频段直接将声压信号转换成数字信号,提取出直接能反映说话内容的特征
噪声处理:使声音能被识别器很好识别
3、模块解码器
将特征提取过程中提取的特征输入系统,在知识库、声学模型里进行搜索,最终输出识别结果。
4、知识库
语音样本,并通过这些样本数据可训练出一个语音识别系统。
5、搜索算法
通常采用高斯混合算法解决声音匹配问题,在微软提出深度神经学习技术后,云知声算法团队也将高斯混合算法换成了深度神经网络模型,
并发现它在解决声学匹配方面更好,理论上和人脑神经感知的方式相当接近。
因为需要以很快的速度识别出说话的内容,所以深度神经网络不仅对解码器也提出了很大挑战,对硬件的要求非常高。
云知声在认真研究微软的代码之后,改写实现效率低的代码,再利用最新的 CPU提供的特性,计算量大的部分均采用汇编语言写到CPU处理能力强
的地方,并一层一层优化。
评记:很早就想了解语音方面的东西,苦于知识杂乱一直未深入,这篇文章倒是给出了典型的事例。遂记之。
总体框架
1、总体来说,语音技术一共有三大部分:语音识别、语义理解和语音合成,三部分形成一个完整的闭环。相较而言,语音识别是更为复杂的技术,云知声前期便从
语音识别技术出发开始往外扩展。
2、语音技术的两个维度:搜索技术----在知识库和语音模型之间进行搜索,找到一条词与词之间相匹配的路,找到概率最大的词;
语音统计模型
----隐马尔可夫统计模型:包含特征提取、模块解码器、知识库、声学模型及其识别算法共计五部分,据说是李开复先生的大作。
功能部分
1、语音搜索
但语音的搜索和搜索引擎的区别在于语音搜索是要找一个概率最大的文本,也就是找到 与你说出来的声音信号最匹配的文本信号,
这本质上是一个概率统计问题。
搜索过程是对一个大网络中不同的词汇间的关系展开的:比如中文里有40万个词,不同词间的关系(链接)代表不同的网络状态;
每一个词可作为节点,任何一个词都可能走到其它节点,这叫一条通路。搜索的目的就是找出最佳通路。
2、特征提取--提取特征信号与噪声处理
提取特征信号:将语音经由信号处理转换成模块输入,根据频段直接将声压信号转换成数字信号,提取出直接能反映说话内容的特征
噪声处理:使声音能被识别器很好识别
3、模块解码器
将特征提取过程中提取的特征输入系统,在知识库、声学模型里进行搜索,最终输出识别结果。
4、知识库
语音样本,并通过这些样本数据可训练出一个语音识别系统。
5、搜索算法
通常采用高斯混合算法解决声音匹配问题,在微软提出深度神经学习技术后,云知声算法团队也将高斯混合算法换成了深度神经网络模型,
并发现它在解决声学匹配方面更好,理论上和人脑神经感知的方式相当接近。
因为需要以很快的速度识别出说话的内容,所以深度神经网络不仅对解码器也提出了很大挑战,对硬件的要求非常高。
云知声在认真研究微软的代码之后,改写实现效率低的代码,再利用最新的 CPU提供的特性,计算量大的部分均采用汇编语言写到CPU处理能力强
的地方,并一层一层优化。
相关文章推荐
- 浅谈web指纹识别技术 - FreeBuf.COM | 关注黑客与极客
- 2018年最值得关注的15大技术趋势
- 20个值得开发人员关注的jQuery技术网站和博客
- 20个值得开发人员关注的jQuery技术网站和博客
- INTERSPEECH 2017系列 | 语音识别技术之自适应技术
- 2018年值得关注度的语言、框架和工具
- 2015年值得关注的几个WEB技术
- 语音识别技术简述
- android值得珍藏的6个开源框架技术
- RSS技术值得关注的技术
- 值得关注的议题,欢迎围观
- Sphinx4语音识别的框架
- 有哪些值得关注的技术博客(Java篇)
- 20个值得开发人员关注的jQuery技术博客
- 中英文语音合成与中文语音识别技术在c#中的应用
- 中英文语音合成与中文语音识别技术在c#中的应用(二)
- 2015值得关注的5个技术趋势,新的启航
- 十年十事件 过去十年值得关注十大技术事件
- 国内外语音识别行业最全盘点及技术分析和预测
- android值得珍藏的6个开源框架技术