您的位置：首页 > 其它

数字语音信号处理学习笔记——语音信号的数字模型（1）

2014-05-06 13:56 537 查看

2.1 概述

为了用数字信号处理方法对语音信号进行处理，首先需要建立语音信号产生的数字模型，因此，我们必须在对人的发声器官和发声机理进行研究的基础上，才能建立精确的模型。但是，由于人类语音产生过程的复杂性和语音信息的丰富性以及多样性，迄今为止还没有找到一种能够精确描述语音产生过程和所有特征的理想模型。

作为接受语音信息的人耳听觉系统，其听觉机理也是很复杂的。听觉模型的精确建立对于语音识别和理解是非常重要的，但是，目前人们对听觉机理的了解比对发音机理的了解少得多。

2.2 语音的发声机理

2.2.1 人的发声器官

人的发生器官由三部分组成：

1) 肺和气管产生气源

肺的发声功能主要是产生压缩气体，通过气管传送到声音生成系统。气管连接着肺和喉，它是肺与声道联系的通道。

2) 喉和声带组成声门

喉是控制声带运动的软骨和肌肉的复杂系统，它主要包括：环状软骨、甲状软骨、杓状软骨和声带。其中声带是重要的发声器官，它是伸展在喉前、后端之间的槢肉。

3) 由咽喉、口腔、鼻腔组成声道

声道是指声门至嘴唇的所有发音器官：

其中包括：咽喉、口腔和鼻腔。口腔包括上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。上腭又分为硬腭和软腭两部分；舌又分为舌尖、舌面和舌根三部分。鼻腔在口腔上面，靠软腭和小舌将其与空腔隔开。当小舌下垂时，鼻腔和口腔便耦合起来，当小舌上抬时，口腔与鼻腔是不相通的。口腔和鼻腔都是发声时的共鸣器。声道可以看成一根从声门一直延伸到嘴唇的具有非均匀截面的声管，其截面积主要取决于唇、舌、腭和小舌的形状和位置，最小横截面积可以为零（对应于完全闭合的部位），最大截面积可以达到约20平方厘米。

2.2.2 语音生成

空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波，这就形成了语音。在声门（声带）以左，称为“声门子系统”，它负责产生激励振动；右边是“声道系统”和“辐射系统”。当发不同性质的语音时，激励和声道的情况是不同的，它对应的模型也是不同的。

1) 发浊音的情况

空气流经过声带时，如果声带是绷紧的，则声带将产生张弛振动，即声带将周期性地启开和闭合。声带启开时，空气流从声门喷射出来，形成一个脉冲，声带闭合时相应于脉冲序列的间隙期。因此，这种情况下在声门处产生出一个准周期脉冲状的空气流。这个准周期脉冲的周期即为基音周期。因此，基因频率是由声带张开闭合的周期所决定的。男性的基音频率一般为50~250Hz，女性的基音频率为100~500Hz。

2) 发清音的情况

空气流经过声带时，如果声带是完全舒展开的，则肺部发出的空气流将不受影响地通过声门。空气流通过声门后，会遇到两种不同的情况。一种情况是，如果声道的某个部位发生收缩形成一个狭窄的通道，当空气流到达此处时被迫以高速冲过收缩区，并在附近产生出空气湍流，这种湍流空气通过声道后便形成所谓摩擦音或清音。另一种情况是，如果声道的某个部位完全闭合在一起，当空气流到达时便在此处建立空气压力，闭合点突然开启便会让气压快速释放，经过声道后便形成所谓爆破音。这两种情况下发出的音称为清音。

当声音产生后，便沿着声道进行传播。声道可以看成一根具有非均匀截面的声管，在发声时起着共鸣器的作用。声音进入声道后，其频率必定会受到声道的共振特性的影响，声道具有一组共振频率，称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸，因而不同的语音对应于一组不同的共振峰参数。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航