您的位置:首页 > 其它

论文翻译:2020_ICASSP 2021 ACOUSTIC ECHO CANCELLATION CHALLENGE: DATASETS, TESTING FRAMEWORK, AND RESULTS

2022-01-05 14:19 120 查看

论文地址:https://arxiv.org/pdf/2009.04972.pdf 看这里有更好的排版:https://www.cnblogs.com/LXP-Never/p/13689705.html #ICASSP 2021 回声消除挑战:数据集、测试框架和结果

###摘要

  ICASSP 2021声学回声消除挑战旨在促进声学回声消除(AEC)领域的研究,这是语音增强的重要组成部分,也是音频通信和会议系统中的首要问题。许多最近的AEC研究报告了在训练和测试样本(来自相同基础分布的合成数据集)上的良好性能。然而,在真实的录音中,AEC的性能往往会显著下降。此外,在现实环境中存在背景噪声和混响的情况下,大多数传统的客观指标,如回声回波损耗增强(ERLE)和语音质量感知评估(PESQ),与主观语音质量测试没有很好的相关性。在这个挑战中,我们开源了两个大数据集来训练AEC模型在单讲和双讲场景下。这些数据集包括来自2500多个真实音频设备和真实环境中的人类说话人的录音,以及一个合成数据集。我们基于ITU-T P.808开源了一个在线主观测试框架,以便研究人员快速测试他们的结果。这个挑战的获胜者将根据所有不同的单向谈话和双向谈话的平均P.808平均意见分数(MOS)来选择。

**关键字:**声学回声消除,深度学习,单语,双语,主观测试

###1 引言

  随着远程工作的日益普及和需求,远程会议系统(如Microsoft Teams、Skype、WebEx、Zoom等)的使用显著增加。为了让用户体验愉快和富有成效,高质量的呼叫是必不可少的。在语音和视频通话中,由声回波引起的通话质量下降是导致语音质量评定较差的主要原因之一。虽然基于数字信号处理(DSP)的AEC模型已被用于消除通话期间的这些回声,但它们的性能会降低给定设备的物理声学设计或环境较差,超出了设计目标和基于实验室的测试。在全双工通信模式下,这个问题变得更具挑战性,因为在没有显著失真或衰减[1]的情况下,来自双说场景的回波难以抑制。

  随着远程工作的日益普及和需求,诸如Microsoft Teams、Skype、WebEx、Zoom等远程会议系统的使用显著增加。为了让用户体验愉快和富有成效,必须有高质量的通话。在语音和视频通话中,回声引起的通话质量下降是语音和视频通话质量较差的主要原因之一。虽然基于数字信号处理(DSP)的声学回声消除(AEC)模型已被用于在通话过程中消除这些回声,但对于物理声学设计较差的设备或超出其设计目标和实验室的测试环境的设备,其性能可能会降低。在全双工通信模式下,这个问题变得更具挑战性,因为在没有显著失真或衰减的情况下,双重通话场景的回声很难抑制[1]。

  随着深度学习技术的出现,一些用于AEC的监督学习算法与经典算法相比表现出了更好的性能[2,3,4]。一些研究也表明,将经典和深度学习方法相结合,如使用自适应滤波器和递归神经网络(RNNs)[4,5]具有良好的性能,但仅适用于合成数据集。虽然这些方法对AEC模型的性能提供了一个很好的启发式,但还没有证据表明它们在真实数据集上(不同的噪音和混响环境)的性能。这使得该行业的研究人员很难选择一个能够在具有代表性的真实数据集上表现良好的模型。

  大多数带有评估的AEC论文使用的客观测量有:回声回波损耗增强(ERLE) [6]和语音质量感知评估(PESQ [7]。ERLE被定义为:

E R L E=10 \log _{10} \frac{\mathbb{E}\left[y^{2}(n)\right]}{\mathbb{E}\left[\hat{y}^{2}(n)\right]}  (1)

其中$y(n)是麦克风信号,\hat(n)$是增强语音。ERLE只有在没有背景噪音的安静房间里测量时才合适,并且只适用于单向谈话场景(不是两向谈话)。在存在背景噪声的情况下,PESQ也被证明与主观语音质量没有很高的相关性[8]。使用本挑战中提供的数据集,我们表明ERLE和PESQ与主观测试的相关性较低(表1)。为了在真实环境中使用带有录音的数据集,我们不能使用ERLE和PESQ。需要一个更可靠、更稳健的评估框架,让研究界的每个人都能使用。

  这个AEC挑战旨在通过开放一个大型训练数据集、测试集和主观评估框架来刺激AEC领域的研究工作。我们为训练AEC模型提供了两个新的开源数据集。

表1 ERLE、PESQ和P.808绝对类别评级(ACR)结果之间的皮尔逊和斯皮尔曼等级相关(见第5节)。

  第一个是使用大规模众包工具获取的真实数据集。这个数据集包括从超过2500个不同的音频设备和环境中收集的真实录音。第二种是来自[9]的房间脉冲响应和背景噪声。研究人员在开发过程中使用了一个初始测试集,在接近尾声时进行了一个盲测,用于决定最终的比赛获胜者。我们相信这些数据集不仅是AECs的第一个开源数据集,而且是足够大的数据集,可以促进深度学习,在电信产品的运输中具有足够的代表性。

  在[9]深度噪声抑制挑战中,我们证明了一种众包的主观质量评价对语音增强挑战是有效的。因此,我们将再次使用ITU-T P.808 [10] 人群源主观质量评价对提交的AEC方法进行比较。在评价时,我们采用了基于dnn的AEC方法(第4节)作为参考。在线主观评价框架将在第5节中讨论。第6节介绍了挑战规则和其他后勤工作。

###2 训练数据集

  这项挑战将包括两个新的开源数据集,一个是真实的,一个是合成的。这些数据集可以在:https://github.com/microsoft/AEC-Challenge上获得。

####2.1 真实数据集

  第一个数据集是通过大规模的众包工作获得的。此数据集由以下场景中的超过2500个不同的真实环境、音频设备和人类说话人组成:

  远端单端通话,无回声路径改变

  远端单端通话,回音路径改变

  近端单端通话,无回声路径改变

  双端通话,无回声路径改变

  双端通话,回音路径改变

  用于RT60估计的扫描信号(Sweep signal)

  对于远端单端通话情况,只有扬声器信号(远端)向用户播放而用户保持沉默(无近端信号)。

  对于近端单端通话情况,没有远端信号,并且提示用户讲话,捕捉近端信号。

  对于双向通话情况,远端和近端信号均处于活动状态,在该扬声器中播放扬声器信号,并且用户同时通话。

  回声路径改变是通过指示用户在设备周围移动或让自己移动设备来实现的。

  每种情况都包括扬声器,麦克风和环回(loopback)信号。 图1给出了近端单通话语音质量。使用Karjalainen等人[11]的方法估算了数据集的RT60分布,如图2所示。RT60估计值可用于对数据集进行采样以进行训练。

  我们使用亚马逊机械土耳其公司作为众包(crowdsourcing)平台,并编写了一个定制的HIT应用程序,其中包括一个自定义工具,评估人员下载并执行该工具以记录上述六个场景。数据集仅包含Microsoft Windows设备。

图1 自定义录制应用程序记录回环和麦克风信号。

图2 排序近端单谈话剪辑质量(P.808)与95%的置信区间。

图3 混响时间分布(RT60)。

  对于纯净的语音远端信号,我们使用来自爱丁堡数据集的语音片段[12]。该语料库由简短的单个说话者语音片段(1到3秒)组成。 我们使用了基于长期短期记忆(LSTM)的性别检测器来选择相等数量的男性和女性说话者片段。此外,我们将这些短片段中的3到5个组合在一起,以创建长度在9到15秒之间的片段。每个剪辑均由一位性别发言人组成。 我们创建了一个由500个男性和500个女性剪辑组成的性别平衡的远端信号源。记录以设备支持的最大采样率和32位浮点格式保存;在发布的数据集中,我们使用自动增益控制将采样降低到16KHz和16位,以最大程度地减少片段。

  对于有噪声的语音远端信号,我们使用来自DNS Challenge[9]的数据以及该数据集中的近端单段通话场景的片段。

  对于近端语音,用户会被提示阅读TIMIT[13]句子列表中的句子。当用户阅读时,大约10秒的音频被记录下来。

####2.2 合成数据集

  第二个数据集提供了10,000个合成示例,分别表示单端通话,双端通话,近端噪声,远端噪声和各种非线性失真情况。每个示例都包括远端语音,回声信号,近端语音和近端麦克风信号片段。我们从LibriVox project1的[9]中获得的纯净语音和带噪语音数据集中使用12,000个案例(100小时的音频)作为源剪辑来采样远端和近端信号。LibriVox项目是志愿者阅读的公共领域有声读物的集合[9]。使用在线主观测试框架ITU-T P.808从LibriVox项目中选择了高质量的录音(4.3 MOS 5)。 通过将干净的语音与从Audioset [14],Freesound2和DEMAND [15]数据库中采样的噪声片段混合在一起,以不同的信噪比水平创建嘈杂的语音数据集。

  为了模拟远端信号,我们从1,627个说话人池中选择一个随机说话人,从说话人中随机选择一个片段,并从片段中采样10秒的音频。对于近端信号,我们随机选择另一个说话人并获取3-7秒的音频,然后将其零填充到10秒。为了产生回声,我们从一个大型内部数据库中随机选择一个房间脉冲响应与远端信号进行卷积。在80%的情况下,通过非线性函数处理远端信号以模仿扬声器失真。该信号与近端信号以从-10 dB到10 dB均匀采样的信噪比混合。在50%的情况下,从嘈杂的数据集中获取远端和近端信号。前500个片段可用于验证,因为它们有一个单独的发言者和房间脉冲响应列表。可以在存储库中找到详细的元数据信息。

###3 测试集

  其中包括两组测试,一组在挑战开始时,另一组在接近尾声时。两者都包含大约1000个真实世界的记录,并被划分为以下场景:

  1、干净,即干净的远端和近端录音(MOS>4基于P .808评级)。

  2、随机采样,即2.1节中描述的有噪声的远端和近端记录。

  对于干净和嘈杂的盲测装置,所有的文件也会被组织者听,以过滤掉非常糟糕的录音,不能用于AEC评估。此外,一些条件特别困难的文件被添加到噪声设置中(例如,环回和麦克风之间的延迟突然大幅增加)。

###4 基线AEC方法

  我们采用文献[16]中的噪声抑制模型来实现回声消除的任务。其中,具有门控循环单元的循环神经网络将麦克风信号和远端信号的级联对数功率频谱特征作为输入,并输出频谱抑制掩码(spectral suppression mask)。STFT是根据帧长20 ms,帧移为10ms,320点离散傅里叶变换计算的。我们使用两个GRU层的堆栈,然后是具有S型激活功能的全连接层。将估计的掩码逐点乘以麦克风信号的幅度谱图,以抑制远端信号。最后,为了重新合成增强的信号,在麦克风信号和估计的幅度谱图的相位上使用了短时傅立叶逆变换。我们在纯净频谱图和增强幅度频谱图之间使用均方误差损失。学习率为0.0003的Adam优化器用于训练模型。

###5 在线主观评估框架

  AEC评估的主要标准是用于客观评估(例如ERLE)的G.168 [6]和用于主观评估的P.831 [17]。如前所述,ERLE和PESQ并不是评估实际数据AEC性能的可行指标。P.831第7节中给出的主观测试是可行的,尽管它假设测试环境安静。例如,在P.831中,为了测量远端的单端通话回声性能,使用图3中的设置进行录音,并要求评估者对Sout处的回声量进行评估。但是,任何背景噪声都会使评估者混淆什么是回声泄露,什么不是。我们的解决方案是实现一个三方通话的主观评分,评分者是侦听者(见图4)。为了构造一个听众可以听到的延迟回声信号,将远端信号(说话人信号)与AEC输出的600ms延迟输出信号相结合,以模拟较大的网络延迟。这使评估者可以听到远端语音和延迟的回声泄漏(如果有),从而有助于评估者更好地区分回声泄漏和噪声。然后,我们使用P.808框架[10]通过以下来自P.831 [17]的评级调查获得回声MOS分数:您如何在此对话中判断声回声的衰减

  5、听不清

  4、可以察觉但不烦人

  3、有点烦

  2、烦人

  1、非常烦人

  挑战中使用的音频管道如图5所示。在第一阶段(AGC1),使用传统的自动增益控制目标语音水平在- 24dbfs。 AGC1的输出保存在测试集中。下一阶段是AEC,参与者将处理该AEC并将其上传到challenge CMT站点。下一步是传统的噪声抑制器(DMOS <0.1改进),以减少静态噪声。最后,运行第二个AGC以确保语音水平仍为-24 dBFS。

  对于双端通话场景,我们使用标准的P.808 ACR等级来评估AEC麦克风输出的MOS得分,这是Sout上P.831估计的措施之一。

图4 音频处理管道在挑战中使用。

###6 AEC 挑战赛规则和时间表

####6.1 规则

  挑战在于如何使用真实(而非模拟)测试集对实时算法的性能进行基准测试。参与者将在测试仪上评估其AEC,并将结果(音频片段)提交以进行评估。用于提交的每个AEC的要求是:

  在Intel Core i5四核机器上,AEC必须用少于跨步时间Ts(以毫秒为单位)来处理大小为T(以毫秒为单位)的帧,处理器的频率为2.4 GHz或同等的处理器。例如,对于帧之间50%的重叠,Ts=T/2。允许的总算法等待时间包括帧大小T,跨步时间Ts和任何向前看都必须小于等于40ms。 例如:如果使用20ms的帧长和10ms的步长导致30ms的算法延迟,则可以满足延迟要求。如果您使用的帧大小为32ms,跨度为16ms,导致算法延迟为48ms,则您的方法无法满足延迟要求,因为总算法延迟超过40ms。 如果您的帧大小加上步长T1=T+Ts小于40毫秒,那么您最多可以使用(4T1)毫秒的未来信息。

  AEC可以是深度模型,也可以是传统的信号处理算法,也可以是两者的混合。 除了上面描述的运行时间和算法延迟外,对AEC没有任何限制。

  提交内容必须遵循http://aec-challenge.azurewebsites.net上的说明。

  将根据在第5节中所述的使用ITU-T P.808框架在盲测试集上评估的主观回声MOS来选出获胜者。

  盲测集将在2020年10月2日提供给参与者。参与者必须将通过他们开发的模型获得的结果(音频剪辑)发送给组织者。我们将使用提交的剪辑进行ITU-T P.808主观评估,并根据结果选出获奖者。禁止参与者使用盲测集重新训练或调整其模型。他们不应使用未提交给ICASSP 2021的其他AEC方法来提交结果。不遵守这些规则将导致取消参赛资格。

  参与者应根据参数数量和推断特定CPU(最好是时钟频率为2.4 GHz的Intel Core i5四核计算机)上的帧所需的时间,报告其模型的计算复杂性。在提交的建议相差不到0.1 MOS的建议中,较低复杂度的模型将获得较高的排名。

  每个参赛团队都必须提交ICASSP论文,以总结研究成果并提供所有细节以确保可重复性。作者可以选择在论文中报告其他客观/主观指标。

  提交的论文将接受ICASSP 2021的标准同行评审过程。论文需要被会议接受才能使参加者有资格挑战。

####6.2 时间轴

  2020年9月8日:数据集发布。

  2020年10月2日:向参与者发布盲测集。

  2020年10月9日:参与者提交盲测集客观和P .808主观评价结果的截止日期。

  2020年10月16日:主办方将通知参赛者比赛结果。

  2020年10月19日:2021年ICASSP常规论文提交截止日期。

  2021年1月22日:书面接收/拒绝通知

  2021年1月25日:获奖者通知和获奖说明,包括获奖截止日期。

####6.3 支持

  参赛者可向[aec challenge@microsoft.com](aec challenge@microsoft.com)发送电子邮件,询问与挑战赛有关的任何问题或需要对挑战赛的任何方面作出澄清的电子邮件。

###7 结果

  我们收到了17份参赛作品。每个团队都提交了来自盲测集的处理过的文件,其中有500个嘈杂的和500个干净的记录(见第3部分)。我们将所有提交的文件分成三组:

  用于MOS测试(NE ST MOS)的近端单个通话文件。

  用于Echo DMOS测试的远端单通话文件(ST FE Echo DMOS)。

  用于Echo和其他降级DMOS测试的双向通话文件(DT Echo / Other DMOS)。

  为了获得最终的总体评分,我们对四份调查表的结果取平均值,然后对它们进行平均加权。最终排名如图5所示。所得分数显示了模型性能上的多种多样。各个模型在近端,回声和双方通话情景中的得分差异突出了评估所有情景的重要性,因为在许多情况下,一个情景的性能要以另一情景的成本为代价。四个测试之间的总体Pearson相关性在图7中给出(忽略了最后一个离群值,该值明显偏斜了结果)。

图5 挑战的最终结果。

图6 前5支队伍的方差分析检验p值。

图7 不同检验之间的Pearson相关系数。

  对于排名前五的团队,我们进行了ANOVA检验以确定统计显着性(图6)。虽然第一名是明确的获胜者,但第二到第五名之间的差异在统计上并不显着,根据挑战规则,第二名和第三名是根据模型的计算复杂性选出的。

  一些模型,包括获奖作品,除了回声消除外,还进行了语音增强(噪声抑制)。http://aec-challenge.azurewebsites.net/包括干净和嘈杂的数据子集的结果。这些表格强调了做语音增强(噪声抑制)的模型在测试中有一个小的整体优势。例如,基线模型没有进行噪声抑制,与获奖作品相比,在嘈杂的NE ST上具有-0.16的增量,但在干净的NE ST上具有类似的性能。不过,总的来说,两组比赛的排名并没有太大的不同。

  图8为前3名提交者的基线的MOS和DMOS值直方图。

图8 前3个模型和基线的MOS直方图

###8 结论

  这一挑战的结果表明,深度学习模型或混合模型可以显著优于传统的DSP模型,即使考虑到低延迟和低复杂度的挑战要求。这是令人鼓舞的,因为这是可行的,这些新类别的AEC可以集成到产品中,并改善数十亿音频电话用户的体验。我们希望为这一挑战创建的数据集、测试集和测试框架能够加速这一领域的研究,因为仍然有改进的空间。

  未来的研究领域是提高主观得分的总体评分,使其高于图5中使用的未加权平均值。

###9 参考文献 [1] “IEEE 1329-2010 Standard method for measuring transmission performance of handsfree telephone sets,” 2010. [2] A. Fazel, M. El-Khamy, and J. Lee, “CAD-AEC: Contextaware deep acoustic echo cancellation,” in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6919–6923. [3] M. M. Halimeh and W. Kellermann, “Efficient multichannel nonlinear acoustic echo cancellation based on a cooperative strategy,” in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 461–465. [4] Lu Ma, Hua Huang, Pei Zhao, and Tengrong Su, “Acoustic echo cancellation by combining adaptive digital filter and recurrent neural network,” arXiv preprint arXiv:2005.09237, 2020. [5] Hao Zhang, Ke Tan, and DeLiang Wang, “Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions.,” in INTERSPEECH, 2019, pp. 4255–4259. [6] “ITU-T recommendation G.168: Digital network echo cancellers,” Feb 2012. [7] “ITU-T recommendation P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-endspeech quality assessment of narrow-band telephone networks and speech codecs,” Feb 2001. [8] A. R. Avila, H. Gamper, C. Reddy, R. Cutler, I. Tashev, and J. Gehrke, “Non-intrusive speech quality assessment using neural networks,” in ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 631–635. [9] Chandan KA Reddy, Vishak Gopal, Ross Cutler, Ebrahim Beyrami, Roger Cheng, Harishchandra Dubey, Sergiy Matusevych, Robert Aichner, Ashkan Aazami, Sebastian Braun, et al., “The INTERSPEECH 2020 deep noise suppression challenge: Datasets, subjective testing framework, and challenge results,” arXiv preprint arXiv:2005.13981, 2020. [10] Matti Karjalainen, Poju Antsalo, Aki Makivirta, Timo Pelto- ¨ nen, and Vesa Valim ¨ aki, “Estimation of modal decay param- ¨ eters from noisy response measurements,” J. Audio Eng. Soc, vol. 50, no. 11, pp. 867, 2002. [11] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, “Speech enhancement for a noise-robust textto-speech synthesis system using deep recurrent neural networks.,” in Interspeech, 2016, pp. 352–356. [12] J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G. Fiscus, D. S. Pallett, and N. L. Dahlgren, “DARPA TIMIT acoustic phonetic continuous speech corpus CDROM,” 1993. [13] Jort F. Gemmeke, Daniel P.W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin Ritter, “Audio set: An ontology and human-labeled dataset for audio events,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017, pp. 776–780. [14] Joachim Thiemann, Nobutaka Ito, and Emmanuel Vincent, “The diverse environments multi-channel acoustic noise database: A database of multichannel environmental noise recordings,” The Journal of the Acoustical Society of America, vol. 133, no. 5, pp. 3591–3591, 2013. [15] Chul Min Lee, Jong Won Shin, and Nam Soo Kim, “DNNbased residual echo suppression,” in Sixteenth Annual Conference of the International Speech Communication Association, 2015. [16] Yangyang Xia, Sebastian Braun, Chandan KA Reddy, Harishchandra Dubey, Ross Cutler, and Ivan Tashev, “Weighted speech distortion losses for neural-network-based real-time speech enhancement,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 871–875. [17] Babak Naderi and Ross Cutler, “An open source implementation of ITU-T recommendation P.808 with validation,” arXiv preprint arXiv:2005.08138, 2020. [18] “ITU-T P.831 Subjective performance evaluation of network echo cancellers ITU-T P-series recommendations,” 1998. [19] ITU-T Recommendation P.832, Subjective performance evaluation of hands-free terminals, International Telecommunication Union, Geneva, 2000. [20] “ITU-T P.808 supplement 23 ITU-T coded-speech database supplement 23 to ITU-T P-series recommendations (previously ccitt recommendations),” 1998.

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐