ASR自动语音识别技术
2016-07-24 22:48
267 查看
自动语音识别技术(Automatic
Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1.
识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。
自动语音识别(Automatic Speech Recognition 简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。
语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。
自动语音识别通常有以下几种分类方法:
(1)按系统的用户情况分:特定人和非特定人识别系统;
(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;
(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;
(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6)按输入语音的情感状态分;中性语音、情感语音识别系统。
训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。
识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。
Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1.
识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。
自动语音识别(Automatic Speech Recognition 简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。
语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。
语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。
分类
自动语音识别通常有以下几种分类方法:(1)按系统的用户情况分:特定人和非特定人识别系统;
(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;
(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;
(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6)按输入语音的情感状态分;中性语音、情感语音识别系统。
基本原理
训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。
相关文章推荐
- NIO学习--核心概念与基本读写
- Java三大框架之struts的防止重复提交
- 逻辑数据库设计 - 单纯的树(递归关系数据)
- Hbase--6 Hbase协处理器
- 全国电子设计竞赛 (经验之谈)
- android之ImageView+Gallery组件的应用
- C - Ekka Dokka
- ajax传数据和图片(base64格式)
- 向上滑动效果
- 获得C币规则(截止2017年10月已失效,万恶的CSDN)
- MySQL常见命令总结及资料汇总
- 算法-求n内的所有质数
- 高效查看MySQL帮助文档的方法
- c语言第一天 终端的使用 .c .o .out 文件的解释 快捷键等
- CodeForces 455A Boredom (DP)
- VectorDrawable与AnimatedVectorDrawable
- VectorDrawable与AnimatedVectorDrawable
- 每日一练——从长度为n的数组里选出m个数使和为固定值sum
- VectorDrawable与AnimatedVectorDrawable
- 【HDU 5698】瞬间移动(组合数,逆元)