您的位置：首页 > 其它

论文翻译：2020_A Robust and Cascaded Acoustic Echo Cancellation Based on Deep Learning

2022-01-06 09:49 176 查看

论文地址：https://indico2.conference4me.psnc.pl/event/35/contributions/3364/attachments/777/815/Thu-1-10-4.pdf

#一种基于深度学习的鲁棒级联回声消除算法

###摘要

　　AEC是用来消除扬声器和麦克风之间的反馈。理想情况下，AEC是一个线性问题，可以通过自适应滤波来解决。然而，在实际应用中，有两个重要的问题严重影响AEC的性能，即1)双讲问题和2)主要由扬声器和/或功率放大器引起的非线性失真。针对这两个问题，我们提出了一种将自适应滤波和深度学习相结合的级联式自动控制算法。具体来说，采用两种长短期记忆网络(LSTM)分别进行双语检测(DTD)和非线性建模。采用自适应滤波去除回声的线性部分。实验结果表明，在匹配场景下，该方法在客观评价指标上明显优于传统方法。此外，与端到端深度学习方法相比，该方法在不匹配场景下具有更好的泛化能力。

**关键字：**回声消除，双讲检测，深度学习，长短时记忆

###1 引言

　　在与移动电话、远程会议系统等全双工免提设备的通信过程中，由于扬声器与麦克风的耦合，回声广泛存在[1,2,3]。这些设备的麦克风捕捉来自自身扬声器的信号，会产生令人不舒服的回声，严重干扰正常的通信。因此，一个需要解决的重要问题是回声消除。理想情况下，AEC可以完全去除回声，只将近端语音传输到远端。然而，AEC的主要挑战之一是如何使其在双语、背景噪声和非线性失真等条件下得到很好的推广。本文主要研究AEC算法在不同场景下的泛化能力，特别是在低信号回声比(SER)条件下。

　　虽然传统的AEC方法在过去几十年里被提出来处理双音和噪声，但这些方法大多是基于信号之间的相关性，或基于语音和噪声的统计特性[4,5,6]。在非预期的声学条件下，它们往往无法跟踪非平稳失真，因此相关的信号特性严重影响其性能。

　　近年来，深度学习在语音识别、语音分离等领域取得了显著的成果[7,8,9]。最近，Zhang和Wang[10]将AEC表述为一种有监督语音分离问题，其中回声被认为是一种特殊的干扰噪声。他们采用端到端的深度学习结构来解决这个问题。最近，Zhang等人进一步开发了一种深度学习算法，该算法考虑了非线性失真和加性噪声的影响。对于基于学习的算法[10,11,12,13,14]，在不匹配的情况下(训练阶段看不见的样本)，即泛化问题，其性能往往会下降。这一问题对于AEC来说更为严重，因为许多因素都会导致不匹配的场景，如麦克风、扬声器、环境噪声和远端信号[15,16,17]。为了提高泛化效果，最直接的方法是收集尽可能多的训练数据。然而，它付出了巨大的代价。

　　在本文中，我们提出了一种将传统的自适应滤波与深度学习相结合的级联算法。该算法由线性滤波模型（LFM）和非线性滤波模型（NLM）组成。在LFM中，LSTM被用作双向通话检测器（DTD）以提高自适应滤波的性能。利用LFM的输出，可以训练另一个LSTM来抑制LFM输出中的残留回声。实验结果表明，该方法在匹配场景下的客观评价指标上优于传统方法。此外，我们还发现，在不匹配的情况下，该方法具有良好的泛化能力。

　　本文的其余部分组织如下。在第2节中，我们介绍了AEC系统并给出了所提出的方法。实验设置在第3节中介绍。实验结果和讨论将在第4节给出。最后，第5节是全文的总结。

###2 算法描述

####2.1 系统概述

　　我们提出的单通道AEC方法如图1所示。

图1 在声学回声情况下提出的方法的框图

　　麦克风接收信号$y(n)$由远端信$x(n)$与房间脉冲响应(RIR)[18]卷积产生的近端语音信号$s(n)$和回声信号$d(n)$组成:

d(n)=x(n) * h(n)　　(1)

式中*为卷积运算，h(n)为实际回声传输路径的传递函数。因此，y(n)由:

y(n)=d(n)+s(n)　　(2)

　　AEC的目标是通过$y(n)$和$x(n)$估算$h(n)$来获得$s(n)$。由式(1)和(2)可知，在没有近端信号的情况下，利用自适应滤波算法，如最小均方(LMS)、归一化最小均方(NLMS)和递归最小二乘(RLS)， $h(n)$是很容易估计的[19,20]。

####2.2 线性滤波模型(LFM)

　　然而，当近端信号和回声同时出现时，估计$h(n)$就变得很复杂。这就是所谓的双讲问题。一个常见的策略是，当出现双讲的情况时，停止更新$h(n)$。因此，DTD的准确性对AEC的性能和收敛速度有很大的影响。在本小节中，我们将介绍AEC线性部分的方法。LFM由基于深度学习的DTD和RLS自适应滤波组成。

#####2.2.1 双讲检测

　　从性能和收敛速度两个方面考虑，最有效的方法是在时频单元级检测双讲。因此，我们采用深度神经网络来估计目前在语音增强中广泛使用的时频掩码[21,22]。训练目标由式(3)定义:

\operatorname{IRM}(t, f)=\sqrt{\frac{|D(t, f)|^{2}}{|S(t, f)|^{2}+|D(t, f)|^{2}}}　　(3)

其中$|S(t, f)|$ 和 $|D(t, f)|$分别为$S(n)$和$D(n)$时幅谱的时频(t -f)单位。

　　将所有输入信号采样到16khz，然后分成窗长为20ms、偏移量为10ms的帧，使用Hanning窗。我们采用短时傅里叶变换(STFT)幅度谱，只使用前161个频域。IRM实际上可以看作是回声在T-F单位出现的概率。如果IRM接近1，则表示没有近端信号出现。否则，就意味着会出现双讲的说法。

　　为了估计IRM，我们使用了一个有4个LSTM层的循环神经网络，每层300个单元，如图2所示。将用于特征提取的全连接层作为输入层。将$y(n)$和$x(n)$的幅谱连接为输入特征，其维数为161 × 2 = 322，然后输入LSTM。我们在输出层使用sigmoid激活函数，它是完全连接的，其尺寸为161，对应于估计的掩模的一帧。使用Adam优化器[23]更新LSTM的权值，使用均方误差(mean squared error, MSE)作为损失函数。学习速率设置为0.0003，训练epoch数设置为50，批量大小设置为32。

图2 用于时频掩码估计的LSTM网络架构

#####2.2.2 自适应滤波

　　RLS有一个重要的特点，它的收敛速度比标准的LMS滤波器快得多[19,20]，它采用了一种具有DTD的频域RLS自适应滤波器来去除麦克风信号中的线性回声分量。这个过程可以描述如下。

$X(t,f)$和$Y(t,f)$分别为$X(n)$和$Y(n)$在时间帧$t$和频率点$f$的频域对应项，$n$为时间指标。代价函数是误差平方和，如下所示:

E(t, f)=\sum_{\nu=0}^{t-1} \beta^{\nu}\left|Y(t-\nu, f)-W^{T}(t-\nu, f) X(t-\nu, f)\right|^{2}　　(4)

其中$T$是转置运算，$\beta$是遗忘因子，$W$是权矩阵。优化就是找到一个$W$来最小化$E$:

W(t, f)=H^{-1}(t, f) P(t, f)　　(5)

其中，H、$P$为$IRM(t, f) > LC$时，由式(6)、(7)更新的协方差矩阵。$LC$是局部标准。

H(t, f)=\beta H(t-1, f)+X^{T}(t, f) X(t, f)　　(6) P(t, f)=\beta P(t-1, f)+Y^{T}(t, f) X(t, f)　　(7)

　　当$I R M(t, f) \leq L C$时，更新公式为(8)，(9):

H(t, f)=H(t-1, f)　　(8) P(t, f)=P(t-1, f)　　(9)

　　这意味着，当出现双重对话时，我们不会更新参数。估计的频域回声信号$\hat(t, f)$由:

\widehat{D}(t, f)=\left(H^{-1}(t, f) P(t, f)\right)^{T} X(t, f)　　(10)

则估计的频域近端信号$G(t, f)$为:

G(t, f)=Y(t, f)-\widehat{D}(t, f)　　(11)

　　因此，利用逆STFT (iSTFT)[24]，由$G(t, f)$合成LFM输出时域信号$g(n)$。需要注意的是，式(10)包含了矩阵逆运算，对于大型矩阵来说，这是非常耗时的。在实践中，矩阵逆可以通过递归算法来避免(推导的细节见[20])。

####2.3 非线性滤波模型(NFM)

　　由于扬声器和/或放大器的非线性，线性调频后仍存在残余回声。通常，后处理模块是必需的。为了去除残留的回声，我们训练了另一个LSTM，除了输入和训练目标之外，它的结构与双语检测中使用的LSTM相同。第二个LSTM的输入是$|G(t,f)|和|Y (t,f)|$，它们是$g(n)$和$y(n)$的幅度谱。训练目标为相位敏感掩模(PSM)[25,26]，如下所示:

\begin{aligned} \operatorname{PSM}(t, f) &=\operatorname{Re}\left\{\frac{|S(t, f)| e^{j \theta_{s}}}{|G(t, f)| e^{j \theta g}}\right\} \\ &=\frac{|S(t, f)|}{|G(t, f)|} \cos \left(\theta_{s}-\theta_{g}\right) \end{aligned}　　(12)

其中$|S(t, f)|和|G(t, f)|$分别表示$s(n)$和$g(n)的幅度谱，\theta_和\theta_分别表示t - f单元中的相。\operatorname{\cdot}计算实分量。在测试阶段，估计的近端信号|\hat(t, f)|$的幅度谱由:

|\hat{S}(t, f)|=\operatorname{PSM}(t, f)|G(t, f)|　　(13)

　　最后，利用iSTFT将$|\hat(t, f)|与|(t, f)|相结合，重新合成估计的时域近端语音信号\hat(n)$。

###3 实验设置

####3.1 评价指标

　　我们使用两个指标来评估AEC的性能:单通话时段的回声损耗增强(ERLE)[27]和双通话时段的语音质量感知评价(PESQ)[28]。

　　ERLE测量麦克风信号$y(n)与估计近端语音\hat(n)$之间的回声衰减，定义为:

\mathrm{ERLE}=10 \log _{10}\left\{\frac{E\left[y^{2}(n)\right]}{E\left[\hat{s}^{2}(n)\right]}\right\}(\mathrm{dB})　　(14)

其中，$E[\cdot]$为统计期望运算。

　　PESQ使用认知模型计算目标语音与被处理语音之间的干扰，其范围为-0.5 ~ 4.5。分数越大，处理后的语音质量越好。

####3.2 数据准备

　　我们使用TIMIT语料库[29]，它由630个扬声器组成，每个包含10个语音，总共6300个语音在16khz采样。首先选取100对扬声器分别作为远端和近端信号。对于每一对，我们随机选择三个话语，将它们连接起来形成远端信号。通过在信号的前后加零，近端信号与远端信号具有相同的长度。我们总共产生5200对信号。分别使用4000、900和300个话语进行训练、验证和测试。应该提到的是，测试集中的扬声器不会出现在训练和验证集中。

　　我们使用文献[10]中类似的方法生成了7种不同的RIRs。所有的房间脉冲响应都是通过图像法[30]产生的，混响时间(T_{60})为200ms, RIR的反射阶数设置为512。模拟室尺寸(长×宽×高)为(4 × 4 × 3) m。麦克风固定在房间中心位置。扬声器随机放置在7个距离麦克风1.5米的位置。随机选取6个RIR生成回声信号进行训练，剩余的RIR进行测试。

　　对于训练和验证集，我们通过将近端语音信号和回声信号混合，从{-6，-3,0,3,6}dB中随机选择产生SER级的麦克风信号。这里的SER水平是在双关语期间评估的。定义为:

\mathrm{SER}=10 \log _{10}\left\{\frac{E\left[s^{2}(n)\right]}{E\left[d^{2}(n)\right]}\right\}(\mathrm{dB})　　(15)

　　为了测试混合物，我们在四个不同的SER级别{-10，-5,0,5}dB产生麦克风信号。

####3.3 比较方法和参数设置

　　我们将我们的方法与两种AEC算法进行比较。1) NCCNLMS:传统的NLMS与归一化互相关DTD[5]相结合。滤波大小设置为512，步长设置为0.2，正则化因子设置为0.06。2)端到端学习方法:利用LSTM的远端和麦克风信号作为输入，直接估计近端信号的PSM。LSTM有四个隐藏层，每个层有300个单位。用于特征提取的全连接层，作为LSTM输入层，有322个单元。Sigmoid激活函数用于一个完全连接的输出层，有161个单元。

###4 评估和比较

####4.1 双讲情况下的性能

　　在第一个实验中，我们将所提出的方法作为匹配场景在双语情况下进行了评估。

　　表1显示了这些方法在不同SER条件下的平均ERLE和PESQ得分，其中“None”(即未处理的语音)的结果是通过比较两组谈话期间的$y(n)$和$s(n)$计算出来的。最好的分数用黑体字标出。从上表的结果可以看出，所有的方法都能够去除回声。以0 dB的SER为例，从LFM-NFM到NCC-NLMS, ERLE提高了24.89,PESQ提高了0.67。我们提出的算法在这两个指标上都显著优于其他算法。

表1 语音回声的平均ERLE和PESQ得分

####4.2 音乐回声性能

　　在训练阶段，远端信号是语音信号。在实践中，音乐也是一种很常见的回声。本实验旨在评价AEC对音乐信号的泛化性能。我们使用GTZAN音乐库(在http://marsyas.info上可以找到)，它包含了10种不同类型的1000首不同的歌曲，每种类型有100首歌，每首歌持续30秒左右。我们随机选择了300首歌曲，并以16kHz重新采样。

　　这些方法在背景音乐回声的不同SER条件下的结果如表2所示。请注意，在表格中，当每个算法的PESQ得分低于' None '时，我们认为该算法是无效的，分数用斜体显示。从表中可以看出，LSTM对于未经训练的音乐回声是无效的。我们还发现，NCC-NLMS在处理非平稳回声时效果良好。在0 dB SER的情况下，与NCC-NLMS相比，LFM-NFM的ERLE提高了7.05,PESQ提高了0.8。该方法始终优于传统方法，在未经训练的音乐回声和SERs条件下都有较好的泛化性能。

表2 音乐回声的平均ERLE和PESQ分数

####4.3 在不可见条件下非线性回声的性能

　　在实际应用中，扬声器和放大器往往会产生非线性。为了测试本文算法的泛化能力，我们按照文献[10,12]中的方法，依次模拟麦克风经过功率放大器、扬声器和声传输后捕获的严重非线性失真回声。

　　首先，功率放大器的非线性可以用硬削方式[31]建模:

x_{\text {hard }}(n)=\left\{\begin{array}{cc} -x_{\max } & x(n)<-x_{\max } \\ x(n) & |x(n)| \leq x_{\max } \\ x_{\max } & x(n)>x_{\max } \end{array}\right.　　(16)

其中$x_{\text (n)$为硬剪切输出，$x_{\max }(n)$设为输入信号最大值的80%。然后，为了模拟非对称扬声器失真，我们对远端信号应用如下无记忆的sigmoid非线性函数[32]:

x_{\mathrm{NL}}(n)=\gamma\left(\frac{1}{1+e^{(-p \cdot q(n))}}-\frac{1}{2}\right)　　(17) q(n)=1.5 \times x_{\text {hard }}(n)-0.3 \times x_{\text {hard }}^{2}(n)　　(18)

参数$\gamma$为sigmoid增益，设为2，p为sigmoid斜率，表示为:

p=\left\{\begin{array}{cc} 4 & q(n)>0 \\ 0.5 & q(n) \leq 0 \end{array}\right.　　(19)

　　因此，通过$x_{\mathrm}(n)$与RIRs的卷积产生非线性失真回声信号。需要说明的是，我们在训练阶段没有添加任何非线性。

　　由于NLMS不能处理非线性失真，因此采用二阶Volterra自适应滤波器[33]来消除麦克风信号中的非线性回声。一阶Volterra核的长度设为512，二阶长度设为64，学习速率分别设为0.2和0.1。表3显示了这些方法在非线性失真的不同SER条件下的平均ERLE和PESQ得分。虽然LSTM方法对噪声的抑制最强(ERLE为12.61 dB)，但它对近端信号的损害最严重(PESQ为1.25)。也可以看出，该方法在这种非线性情况下表现最好。

表3 非线性情况下的平均ERLE和PESQ得分。

###5 结论

　　在本研究中，我们提出了一种级联的方法来提高AEC的鲁棒性。与传统算法不同的是，AEC问题被视为一个监督学习任务，通过预测IRM进行双语检测和PSM残余回声抑制。实验结果表明，该方法在匹配场景下的客观评价指标优于传统方法。此外，实验结果还表明，该方法在不匹配场景下能够显著提高回声的去除效果，并且具有良好的泛化性能，特别是在低SER条件下，这对AEC的实际应用是一个有前景的迹象。

###6 参考文献 [1] C. Breining, P. Dreiscitel, E. Hansler, A. Mader, B. Nitsch, H. Puder, T. Schertler, G. Schmidt, and J. Tilp, “Acoustic echo control. An application of very-high-order adaptive filters,” IEEE Signal Processing Magazine, vol. 16, no. 4, pp. 42–69, 1999. [2] E. Hansler and G. Schmidt, ¨ Acoustic echo and noise control: a practical approach. John Wiley & Sons, 2005, vol. 40. [3] C. Faller and C. Tournery, “Robust acoustic echo control using a simple echo path model,” in 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, vol. 5. IEEE, 2006, pp. 281–284. [4] D. Duttweiler, “A twelve-channel digital echo canceler,” IEEE Transactions on Communications, vol. 26, no. 5, pp. 647–653, 1978. [5] M. Iqbal, J. Stokes, and S. Grant, “Normalized double-talk detection based on microphone and aec error cross-correlation,” in Multimedia and Expo, 2007 IEEE International Conference on. IEEE, Jul. 2007, pp. 360–363. [6] T. Gansler, M. Hansson, C.-J. Ivarsson, and G. Salomonsson, “A double-talk detector based on coherence,” IEEE Transactions on Communications, vol. 44, no. 11, pp. 1421–1427, 1996. [7] H. Geoffrey, D. Li, Y. Dong, E. George, and A.-r. Mohamed, “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, 2012. [8] M. Delfarah and D. L. Wang, “Features for masking based monaural speech separation in reverberant conditions,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 5, pp. 1085–1094, 2017. [9] J. Chen and D. L. Wang, “Long short-term memory for speaker generalization in supervised speech separation,” The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705–4714, 2017. [10] H. Zhang and D. L. Wang, “Deep learning for acoustic echo cancellation in noisy and double-talk scenarios,” in Interspeech 2018. ISCA, 2018, pp. 3239–3243. [11] H. Zhang, K. Tan, and D. L. Wang, “Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions,” in Interspeech 2019, Sep. 2019, pp. 4255–4259. [12] C. Lee, J. Shin, and N. Kim, “Dnn-based residual echo suppression,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015. [13] Q. Lei, H. Chen, J. Hou, L. Chen, and L. Dai, “Deep neural network based regression approach for acoustic echo cancellation,” in Proceedings of the 2019 4th International Conference on Multimedia Systems and Signal Processing - ICMSSP 2019. ACM Press, 2019, pp. 94–98. [14] G. Carbajal, R. Serizel, E. Vincent, and E. Humbert, “Multipleinput neural network-based residual echo suppression,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE, 2018, pp. 231–235. [15] J. Costa, A. Lagrange, and A. Arliaud, “Acoustic echo cancellation using nonlinear cascade filters,” in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings.(ICASSP’03)., vol. 5. IEEE, 2003, pp. V–389. [16] G. Lazzarin, S. Pupolin, and A. Sarti, “Nonlinearity compensation in digital radio systems,” IEEE Transactions on Communications, vol. 42, no. 234, pp. 988–999, 1994. [17] S. Gustafsson, R. Martin, and P. Vary, “Combined acoustic echo control and noise reduction for hands-free telephony,” Signal Processing, vol. 64, no. 1, pp. 21–32, Jan. 1998. [18] E. Habets, “Room impulse response generator,” Technische Universiteit Eindhoven, Tech. Rep, vol. 2, no. 2.4, p. 1, 2006. [19] S. Haykin, Adaptive filter theory. Pearson Education India, 2005. [20] W. Liu and S. Weiss, Wideband beamforming: concepts and techniques. Chichester, West Sussex, U.K.; Hoboken, N.J.: Wiley,2010. [21] D. L. Wang, “On ideal binary mask as the computational goal of auditory scene analysis,” in Speech separation by humans and machines. Springer, 2005, pp. 181–197. [22] Y. Wang, A. Narayanan, and D. L. Wang, “On training targets for supervised speech separation,” IEEE/ACM transactions on audio,speech, and language processing, vol. 22, no. 12, pp. 1849–1858,2014. [23] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014. [24] P. Loizou, Speech enhancement: theory and practice, 2nd ed.Boca Raton, Fla: CRC Press, 2013. [25] H. Erdogan, J. Hershey, S. Watanabe, and J. Le Roux, “Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015, pp. 708–712. [26] Y. Wang and D. L. Wang, “A deep neural network for time-domain signal reconstruction,” in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015,pp. 4390–4394. [27] G. Enzner, H. Buchner, A. Favrot, and F. Kuech, “Acoustic echo control,” in Academic Press Library in Signal Processing. Elsevier, 2014, vol. 4, pp. 807–877. [28] A. Rix, J. Beerends, M. Hollier, and A. Hekstra, “Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs,” in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 2. IEEE, 2001, pp. 749–752. [29] L. Lamel, R. Kassel, and S. Seneff, “Speech database development: Design and analysis of the acoustic-phonetic corpus,” in Speech Input/Output Assessment and Speech Databases, 1989. [30] J. Allen and D. Berkley, “Image method for efficiently simulating small-room acoustics,” The Journal of the Acoustical Society of America, vol. 65, no. 4, pp. 943–950, 1979. [31] S. Malik and G. Enzner, “State-space frequency-domain adaptive filtering for nonlinear acoustic echo cancellation,” IEEE Transactions on audio, speech, and language processing, vol. 20, no. 7,pp. 2065–2079, 2012. [32] D. Comminiello, M. Scarpiniti, L. Azpicueta-Ruiz, J. ArenasGarcia, and A. Uncini, “Functional link adaptive filters for nonlinear acoustic echo cancellation,” IEEE Transactions on Audio,Speech, and Language Processing, vol. 21, no. 7, pp. 1502–1512,2013. [33] A. Stenger, L. Trautmann, and R. Rabenstein, “Nonlinear acoustic echo cancellation with 2nd order adaptive volterra filters,” in 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258),vol. 2. IEEE, 1999, pp. 877–880.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航