您的位置:首页 > 其它

论文翻译:2018_Integrated acoustic echo and background noise suppression based on stacked deep neural networks

2021-12-25 20:15 183 查看

论文地址:https://www.sciencedirect.com/science/article/pii/S0003682X17307223

#基于堆叠式深度神经网络的集成回声和背景噪声抑制

###摘要

  在本文中,通过使用具有多层深层结构的深层神经网络(DNN),提出了一种基于回归的集成回声和背景噪声抑制算法。由于DNN是一种高级层次生成模型的想法,该模型通过其多个非线性隐藏层对输入特征与所需目标特征之间的复杂关系进行建模,因此以顺序方式开发了堆叠DNN,使得用于噪声抑制的DNN之后可用于声学回声抑制。将该算法与基于单个DNN的集成系统进行了比较,以同时抑制回声和噪声。当使用我们的方法开发基于DNN的回归技术时,频谱包络估计是关键点,为此使用对数功率谱(LPS)作为特征以确定增益,这确保了从受污染帧的LPS进行非线性映射通过回声和噪声到达无回声和无噪声帧的LPS。这样就可以成功减少回声和背景噪声,而无需使用额外的双向通话检测算法。此外,在我们的算法中设计DNN架构时,采用了增强特征技术来使用从常规噪声和声学回声抑制技术中获得的其他知识。所提出的基于DNN的抑制声波回声和噪声的集成系统在客观测量方面得到了评估,并证明了与常规集成算法相比的重大改进。

**关键字:**语音增强、噪声抑制、声学回声抑制、深层神经网络

###1 引言

  随着各种物联网(IoT)设备引入了语音识别,非线性声学回声抑制(AES)和背景噪声抑制(NS)的重要性日益提高。如果非线性声学回声和背景噪声共存,则AES和NS算法被视为独立的[1]。在这种情况下,分别设计了两种算法,并以串行方式进行组合。但是,整体抑制算法的性能取决于集成的AES和NS算法的结构[2]。例如,如果在NS之前执行AES,则可以通过AES处理来阻碍噪声估计。另外,在NS之后执行AES时,由于NS算法的非线性运算,AES的性能可能会降低。为了解决这个问题,许多研究特别关注了集成的回声和背景噪声抑制算法[3,4]。例如,基于统计模型[5]的集成系统使用维纳滤波器基于频域中的软判决,利用声学回声和背景噪声的组合功率来估计积分抑制增益,这已知可以有效地抑制声学回声和背景噪音,并表现出卓越的性能。但是,这项工作在各种实际环境中的执行效果并不总是令人满意的。最近,深度神经网络(DNN)引起了相当大的关注,尤其是在语音增强领域[6,7]。对基于DNN的回归的最新见解,允许通过多个非线性隐藏层,设计从嘈杂的语音到纯净语音的映射函数。对于DNN训练,可以将噪声语音的特征用于大型训练集的输入层,从而确保从噪声语音到无噪声帧的帧的非线性映射。最近基于DNN的回归方法不仅关注去噪任务,还涉及去混响任务[8],如何提高生成能力。在[9]中,开发了一种去噪自动编码器,以从其干扰特征中重建纯净的输入特征。此外,推导了一种二级算法来分别解决降噪和混响问题。具体来说,从[10]中指出的补充特征中估算出理想比率掩膜(IRM),用于从噪声语音输入[11]获得的去噪和去混响对数功率谱(LPS)。然后,将两个DNN串联起来并进行联合训练,这显示出比基于单个DNN的去噪和去混响方法更高的性能。

  本文的其余部分安排如下:第2节介绍基于统计模型的综合抑制方法,第3节介绍基于DNN的综合抑制方法,第4节介绍仿真结果,第5节介绍结论。

###2 基于统计模型的集成声回声和背景噪声抑制

  在本节中,简要回顾了[5]中提出的基线综合回声和背景噪声抑制技术,在此期间,为软判决方案估计了回声和背景噪声的组合功率。如果噪声信号的离散傅立叶变换(DFT)为$N(i,k)$,并且在第i帧的第k个频点的近端语音信号为$S(i,k)$,则两个假设$H_{0}$和$H_{1}$分别表示语音的不存在和存在,如下:

\begin{aligned} &H_{0}: \text { near-end speech absent: } Y(i, k)=E(i, k)+N(i, k) \\ &H_{1}: \text { near-end speech present: } Y(i, k)=S(i, k)+E(i, k)+N(i, k)  (1) \end{aligned}

其中$E(i, k)$和$Y(i, k)$分别表示回声和麦克风输入信号的DFT。假设$N(i, k),E(i, k),s(i, k)$在统计上是独立的,并且具有零均值复高斯分布特征,则$H_{0}$和$H_{1}$的概率密度函数(PDFs)可以由[5]给出:

p\left(Y(i, k) \mid H_{0}\right)=\frac{1}{\pi\left\{\lambda_{e}(i, k)+\lambda_{n}(i, k)\right\}} \exp \left[-\frac{|Y(i, k)|^{2}}{\lambda_{e}(i, k)+\lambda_{n}(i, k)}\right]  (2) p\left(Y(i, k) \mid H_{1}\right)=\frac{1}{\pi\left\{\lambda_{s}(i, k)+\lambda_{e}(i, k)+\lambda_{n}(i, k)\right\}} \exp \left[-\frac{|Y(i, k)|^{2}}{\lambda_{s}(i, k) \lambda_{e}(i, k)+\lambda_{n}(i, k)}\right]  (3)

其中$\lambda_(i, k), \lambda_(i, k),\lambda_(i, k)$分别代表回声,噪声和近端语音的方差。每个频率点的近端语音缺失概率(NSAP)$p\left(H_{0} \mid Y(i, k)\right)$可以使用贝叶斯规则表示[5]

\begin{aligned} p\left(H_{0} \mid Y(i, k)\right) &=\frac{p\left(Y(i, k) \mid H_{0}\right) p\left(H_{0}\right)}{p\left(Y(i, k) \mid H_{0}\right) p(H 0)+p\left(Y(i, k) \mid H_{1}\right) p\left(H_{1}\right)} \\ &=\frac{1}{1+q \Lambda(Y(i, k))} \end{aligned}  (4)

其中$p\left(H_{0}\right)\left(=1-p\left(H_{1}\right)\right)$表示近端语音缺席的先验概率,$q=p\left(H_{1}\right) / p\left(H_{0}\right)代替等式。 (2)和(3)进入式(4),似然比\Lambda(Y(i, k))$可以如下所示:

\Lambda(Y(i, k))=\frac{p\left(Y(i, k) \mid H_{1}\right)}{p\left(Y(i, k) \mid H_{0}\right)}=\frac{1}{1+\xi(i, k)} \exp \left[\frac{\gamma(i, k) \xi(i, k)}{1+\xi(i, k)}\right]  (5)

其中$\gamma(i, k)和\xi(i, k)$表示由[5]定义的后验和先验信号,组合功率比(SCR)如[5]所定义:

\gamma(i, k) \equiv \frac{|Y(i, k)|^{2}}{\lambda_{c}(i, k)}  (6) \xi(i, k) \equiv \frac{\lambda_{s}(i, k)}{\lambda_{c}(i, k)}  (7)

其中$\lambda_(i, k)是声学回声的组合功率和要估计的背景噪声。此外,可以通过众所周知的决策(DD)方法估计\hat{\xi}(i, k)$,

\hat{\xi}(i, k)=\alpha_{D} D \frac{|\widehat{S}(i-1, k)|^{2}}{\hat{\lambda}_{c}(i-1, k)}+\left(1-\alpha_{D} D\right) P[\gamma(i, k)-1]  (8)

其中$\widehat,(i-1, k)是前帧中的近端语音的初频率估计,\hat{\lambda}(i-1, k)是长期平滑组合的声学回声和背景噪声功率。此外,\alpha D$是平滑参数。可以通过声波和背景噪声不相关的假设来估计组合的声学回声和背景噪声功率$\lambda_(i, k)。实际上,\hat{\lambda}_(i-1, k)$可以确定如下:

\hat{\lambda}_{c}(i, k)=\alpha_{\lambda_{c}} \hat{\lambda}_{c}(i-1, k)+\left(1-\alpha_{\lambda_{c}}\right)\left\{\hat{\lambda}_{e}(i, k)+E\left[|N(i, k)|^{2}|Y(i, k)|\right]\right\}  (9)

其中$\alpha_{\lambda_}表示平滑参数,\hat{\lambda}_$是近端缺失期间估计的回声功率。此外,可以在仅噪声时段期间自适应地计算噪声功率估计$E\left[|N(i, k)|^{2}|Y(i, k)|\right],可以通过语音活动检测(VAD)算法检测到。然后,可以如下给出纯净的近端语音估计\widehat(i, k)$,声学回声和噪声抑制光谱如下:

\hat{S}(i, k)=\left(1-P\left(H_{0} \mid Y(i, k)\right)\right) G(i, k) Y(i, k)=\widetilde{G}(i, k) Y(i, k)  (10)

其中$P\left(H_{0} \mid Y(i, k)\right), G(i, k)$, 和 $\widetilde(i, k)$分别表示在式(4)中定义的NSAP,集成抑制增益和整体抑制增益。这里,集成抑制增益$G(i, k)来自维纳滤波器。众所周知,通过调整软决策方案,整体抑制增益\widetilde(i, k)$在保留近端语音的质量方面起作用。

###3 提出基于DNN的声学回声和背景噪声抑制

  在本节中,提出了两个系统,用于通过单个DNN和堆叠DNN同时抑制集成系统中的声学回声和背景噪声。随后对所提出的系统设计了一种改进的方法,可以插入到DNN训练中。

####3.1 基于单个DNN的集成系统

  第一个集成系统设计,声学回声和麦克风输入信号和近端语音信号的背景噪声需要抑制;我们的目标涉及处理后的高质量音频信号。为此,代替应用光谱映射技术[6],单个最佳集成声学回声和背景噪声抑制增益$G_{\mathrm}(i, k)$被采用,如所定义的:

G_{1}(i, k)=\max \left\{\min \left\{1, \frac{|S(i, k)|}{|Y(i, k)|}\right\}, G_{\min }\right\}  (11)

其中$G_{\min }$设置为10.在实践中,使用麦克风输入信号和远端语音信号的LPS和前端和接下来的5帧作为输入特征。利用这些特征,实现了DNN训练来估计集成抑制增益,以确定DNN权重$W$偏置$b_k$。一旦完成了DNN训练,在增强阶段期间,增益乘以麦克风输入信号的光谱,如图1所示。注意,回声和背景噪声抑制在未经我们系统的RES算法的帮助下执行。接下来,组合估计的近端语音谱和麦克风输入信号相以回收最终的近端语音信号波形。

图1 基于单个DNN的集成系统的框图

####3.2 基于堆叠DNN的两级系统

  由于麦克风输入信号复杂并且由近端语音信号,回声信号和背景噪声信号的混合组成,因此估计同一网络中的集成抑制增益可能是不明智的。另外,假设声学回声和背景噪声是不相关的,并且可以是单独确定AES和NS增益的明智方式。因此,开发了一种堆叠的DNN以估计在单独的模块中的AES和NS增益,其顺序连接,如图2所示。若$X(i,k)$被指定为噪声抑制麦克风输入光谱,这是近端语音$S(i,k)$和声学回声谱$E(i,k)的总和,真正的IRM\mathscr(i, k)$可以用作安装在堆叠的DNN底部的DNN的目标,NS如下所定义:

\mathscr{M}(i, k)=\sqrt{\frac{X^{2}(i, k)}{X^{2}(i, k)+N^{2}(i, k)}}  (12)

  为了实现所提出的算法,麦克风输入信号的LPS被用作输入特征,并且前一个和接下来的5帧被拼接用于DNN输入以利用上下文信息。在训练NS的DNN时,最小均匀误差(MMSE)作为[7]中的代价函数。一旦完成了NS的DNN训练,估计的IRM$\widehat{\mathscr}(i, k)被发现,然后通过将\mathscr(i, k)应用于麦克风输入信号,噪声抑制谱|\widehat(i, k)|$如下所示获得:

|\widehat{X}(i, k)|=\widehat{\mathscr{M}}(i, k) \cdot|Y(i, k)|  (13)

  接下来,随后设计堆叠DNN中的顶部网络以抑制来自噪声抑制信号的声学回声。由于声学回声是非线性的,因此很难有效地抑制回声。回顾DNN通过其非线性多个隐藏层优于模型复杂关系,在去噪后使用DNN模拟非线性声学回声是明智的。已经证明了DNN算法以确定AES增益,而无需附加RES或双通话检测算法。为此,目标特征向量可以由AES增益$G_{\mathrm}(i, k)$定义,如下所示:

G_{\mathrm{AES}}(i, k)=\max \left\{\min \left\{1, \frac{|S(i, k)|}{|\widehat{X}(i, k)|}\right\}, G_{\min }\right\}  (14)

其中的最小增益$G_{\min }$设置为$10^{-4}.类似于NS的DNN,前一个和接下来的五个帧为DNN输入拼接。然后,执行基于MMSE的返向传播,以便构建顶部DNN。对于AES算法的DNN训练提供了估计AES增益\widehat_{\mathrm}(i, k)的推动力,并找到估计的近端语音频谱|\widehat(i, k)|$如下:

|\widehat{S}(i, k)|=\widehat{G}_{\mathrm{AES}}(i, k) \cdot|\widehat{X}(i, k)|  (15)

  这就是为什么可以顺序地抑制声波和噪声功率以找到估计的近端语音。

图2 基于堆叠DNN的两级系统的框图

####3.3 增强功能

  通过结合来自传统声学回声和噪声抑制算法的知识来进一步增强DNN输入特征。为此,来自声学回声抑制的先验和后验SER和来自背景噪声抑制的先验和后验SNR,另外被认为是DNN训练的增强特征,因为它们被认为是AES和NS域的相关特征[13]。具体地,先验SER$\xi_(i, k),后验SER\gamma_(i, k),先验SNR\xi_(i, k)和后验SNR\gamma_(i, k)$定义如下[15,16 ]:

\xi_{e}(i, k) \equiv \frac{\lambda_{s}(i, k)}{\lambda_{e}(i, k)}, \quad \gamma_{e}(i, k) \equiv \frac{\lambda_{y}(i, k)}{\lambda_{e}(i, k)}  (16) \xi_{n}(i, k) \equiv \frac{\lambda_{s}(i, k)}{\lambda_{n}(i, k)}, \quad \gamma_{n}(i, k) \equiv \frac{\lambda_{y}(i, k)}{\lambda_{n}(i, k)}  (17)

其中$\lambda_(i, k), \lambda_(i, k), \lambda_(i, k)$, 和 $\lambda_(i, k)$分别表示近端语音,回声和噪声的麦克风输入信号中的差异。这些参数通过其他输入LPS功能连接并增强到DNN输入,如图2所示。在实践中,在单个DNN结构的情况下,在集成系统中使用声波和背景噪声信息。关于堆叠的DNN,用于NS的增强噪声信息,并且对于AES采用声学回声信息的DNN。

###4 实验

  实验最初在TIMIT数据库[17]上以16 kHz采样,该数据库由4620个训练数据语音和1680个测试数据语音组成。对于模拟实际环境,数据库由房间脉冲响应(RIR)发电机过滤,房间尺寸为$5 \times 3 \times 2.5 \mathrm{~m}^{3}$ [18]。混响时间$RT_{60}$条件设置为0.1秒,0.2秒和0.3秒。为了模拟声学回声条件,在麦克风输入信号处测量的回声电平被设置为3.5dB,低于输入近端语音信号。为了创造嘈杂的环境,来自NOISEX-92数据库的babble and factory噪声被添加到训练数据集中;在10 dB [19]的SNR时,将Babble,Factory,Leopard和M109添加到测试数据集中。用语音质量感知评估(PESQ)测量了所提出的算法的性能,评估了语音质量,$fwSNRseg$算法计算分段SNR,在频带和回声损耗增强(ERLE)上具有额外的平均值,这显示了回声的程度。

  通过使用320个帧长度和80个延迟样本进行512点DFT从麦克风输入信号,远端语音信号,纯净的近端语音信号中提取频谱,允许确定LPS。使用基于统计模型的AES算法和NS算法来计算先验和后验SERS与先验和后验SNR,在[15,16]中发布。然后,连接麦克风输入信号,远端语音信号和增强功能的LPS。因此,总共6682个维输入特征向量用于训练单个DNN。式16中最佳集成抑制增益用于DNN目标特征向量,其中DNN具有三个隐藏层,每个层具有由Sigmoid激活函数组成的1024个隐藏单元。另外,输出层采用sigmoid激活函数,产生0和1之间的值。对于采用堆叠的DNN,通过320个帧长度样本和80个样本的延迟的512点DFT系统,以实现LPS。类似于NS的DNN,计算并采用先验和后验SERS作为增强功能。结果,噪声抑制信号的LPS,远端语音信号及其先前和接下来的5帧; $\xi_$和 $\gamma_$被串联;在为AES训练DNN时,使用总共6168个输入特征向量的维度。训练的epoch设定为50,最初的学习率$10^{-5}$和20个epoch后衰减10%。

  通过与基于常规统计模型的算法和传统基于DNN的回声和背景噪声抑制算法进行比较来评估使用TIMIT测试数据集的所提出的基于DNN的算法的性能[5]。除了不采用附加声学回声和背景噪声信息之外,传统的基于DNN的算法与基于DNN的集成声学回声和背景噪声抑制算法是相同的。为此,在诸如PESQ,$fwSNRseg$和ERLE等客观措施方面进行了广泛的性能评估。在远端回声周期期间,更高的ERLE得分指示改进的回声抑制性能,并且在近端语音周期期间,PESQ评分和$fwSNRseg$指示改善的语音质量。

  表1-3分别说明了$RT_{60}$为0.1秒,0.2秒和0.3秒的PESQ,$fwSNRseg$和ERLE结果。根据结果,基于DNN的算法比传统的基于统计模型的集成声学回声和背景噪声抑制算法表现出更好的结果。在每个测试条件下发现基于DNN算法更好的性能。结果证实基于DNN的声学回声和噪声抑制的集成算法比基于统计模型的集成算法更有效。此外,基于堆叠的DNN架构的两级系统比基于单个DNN的集成系统显示出更好的性能。具体而言,图3和4示出了匹配和错配条件下的语音的光谱图和波形比较。如图所示,基于DNN的算法不仅在匹配条件下显示出优异的结果,而且在不匹配的条件下显示出优异的结果。另外,基于堆叠的DNN基算法在语音质量和回声抑制性能方面优于基于单一DNN的算法。

表1 RT60=0.1秒,PESQ,fwSNRseg和ERLE结果

加粗表示得分最高。

表2 RT60=0.2秒,PESQ,fwSNRseg和ERLE结果

加粗表示得分最高。

表3 RT60=0.3秒,PESQ,fwSNRseg和ERLE结果

加粗表示得分最高。

图3 匹配条件中的频谱图(顶部)和波形(底部)比较 (SNR=10 dB的babble噪声,RT60=0.1s) (a)麦克风输入信号(b)纯净近端语音信号(c)基于统计模型算法[5]

(d)基于单个DNN算法(e)堆叠的基于DNN的算法。

图4 不匹配状态下频谱图(顶部)和波形(底部)比较 (SNR=10 dB的babble噪声,RT60=0.1s)

(a)麦克风输入信号(b)清洁近端语音信号(c)基于统计模型的算法[5](d)所提出的基于单个DNN的算法(e)提出堆叠的基于DNN的算法。

###5 结论

  在本文中,通过使用堆叠的DNN来讨论了集成声学回声和背景噪声抑制算法的设计。由于DNN擅长在建模高维向量之间的非线性关系,因此可以有效地抑制回声和背景噪声。该研究的主要动机涉及堆叠两个DNN,对于AES和NS的DNN,这被证明在共存声学回声和噪声的复杂情况下非常有效。此外,提出了信息意识训练,其中增强功能包括先验和后验SERS以及传统算法的先验和后验SNRS。在噪声类型和 的各种声学条件下,发现所提出的算法的性能明显改善了先前的方法。

###6 参考文献 [1] Gustafsson S, Martin R, Vary P. Combined acoustic echo control and noise reduction for hands-free telephony. Sign Process 1998;64(1):21–32. January. [2] Guelou Y, Benamar A, Scalari P. Analysis of two structures for combined acoustic echo cancellation and noise reduction. In: EUSIPCO; September 1996. p. 1–4. [3] Park SJ, Cho CG, Lee C, Youn DH. Integrated echo and noise canceler for hands-free applications. IEEE Trans Circ Syst II Exp Briefs 2002;49(3):188–95. [4] Gustafsson S, Martin R, Jax P, Vary P. A psychoacoustic approach to combined acoustic echo cancellation and noise reduction. IEEE Trans Speech Audio Process 2002;10(5):245–56. [5] Park Y-S, Chang J-H. Integrated acoustic echo and background noise suppression technique based on soft decision. EURASIP J Adv Sign Process 2012;2012(1):11. [6] Xu Y, Du J, Dai L-R, Lee C-H. An experimental study on speech enhancement based on deep neural networks. IEEE Sign Process Lett 2014;21(1):65–8. [7] Xu Y, Du J, Dai L-R, Lee C-H. A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Trans Audio Speech Lang Process 2015;23(1):7–19. [8] Han K, Wang Y, Wang D, Woods WS, Merks I, Zhang T. Learning spectral mapping for speech dereverberation and denoising. IEEE/ACM Trans Audio Speech Lang Process 2015;23(6):982–92. [9] Lu X, Tsao Y, Matsuda S, Hori C. Speech enhancement based on deep denoising autoencoder. In: Interspeech; August 2013. p. 436–40. [10] Wang Y, Narayanan A, Wang D. On training targets for supervised speech separation. IEEE/ACM Trans Audio Speech Lang Process 2014;22(12):1849 58. August. [11] Zhao Y, Wang Z-Q, Wang D. A two-stage algorithm for noisy and reverberant speech enhancement. In: ICASSP; March 2017. p. 5580–4. [12] Lee CM, Shin JW, Kim NS. DNN-based residual echo suppression. In: Interspeech; September 2015. p. 1775–9. [13] Lee CM. Enhanced acoustic echo suppression techniques based on spectro-temporal correlations. PhD dissertation. Seoul National University; 2016. [14] Rix AW, Beerends JG, Hollier MP, Hekstra AP. Perceptual evaluation of speech quality (PESQ) – a new method for speech quality assessment of telephone networks and codecs. In: ICASSP, vol. 2; May 2001. p. 749–52. [15] Erkelens JS, Heusdens R. Tracking of nonstationary noise based on data-driven recursive noise power estimation. IEEE Trans Audio Speech Lang Process 2008;16(6):1112–23. [16] Yang F, Wu M, Yang J. Stereophonic acoustic echo suppression based on wiener filter in the short-time fourier transform domain. IEEE Sign Process Lett 2012;19(4):227–30. [17] Zue V, Seneff S, Glass J. Speech database development at MIT: TIMIT and beyond. Speech Commun 1990;9(4):351–6. [18] Habets EA. Room impulse response generator. Tech rep, vol. 2(2.4). Eindhoven: Technische Univ. Eindhoven; 2006. p. 1. [19] Varga A, Steeneken HJ. Assessment for automatic speech recognition: II. NOISEX92: a database and an experiment to study the effect of additive noise on speech recognition systems. Speech Commun 1993;12(3):247–51.

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐