您的位置：首页 > 其它

达摩院黑科技首次亮相，语音让生活变的更简单！

2017-12-07 15:10 281 查看

点击有惊喜

昨天，据媒体报道上海申通地铁集团与阿里巴巴、蚂蚁金服联合宣布，三方达成战略合作，签约仪式上，阿里巴巴iDST最新研发的多模态智能语音交互技术首度惊艳亮相。

传统的自然语音交互主要在家居、办公室等比较安静的环境下工作，但在公众场所嘈杂环境下，业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。iDST首次创新研发了基于深度学习的大型麦克风阵列技术，结合深度优化的声学结构和多模态融合技术，能够自动从强干扰背景语音中提取出目标说话人的语音，并实现增强，从而突破了嘈杂干扰环境下远场语音识别的世界性难题。其次市场上主流远场语音交互产品，都需要通过“唤醒词+语音指令”的方式进行交互。而这次iDST通过“语音+视觉”多模态融合技术，能够自动检测用户走近设备的行为，主动发起交互。此外，通过这一技术还实现了免唤醒的语音交互体验，使人-机交互更接近人-人交互的自然和流畅。

下一代人机交互，是达摩院首批公布的重点研究方向之一（其他还包括：量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等）。

这套多模态智能语音交互解决方案是由数个子系统组成的：

1、大麦克风阵列子系统：在硬件上通过数个麦克风组成大阵列，在软件上通过语音信号处理实现高精度声源定位和语音增强；

2、计算机视觉子系统：通过光学摄像头，实现人脸，特别是眼睛、嘴唇等的检测、跟踪和动态分析；

3、多模态融合子系统：通过语音+视觉融合，实现对目标用户的精确定位及语音提取；

4、远场语音识别、语义理解、对话及语音合成子系统：将目标用户经提取、增强后的语音进行识别、理解，产生对话结果，并通过语音合成将机器的反馈输出给用户。

此次的技术成果，将为自然人机交互技术打开一片全新的世界。对于传统的语音交互技术，强噪音的公众场合一直因为其技术难度大而难以实现产品级落地。而未来这项技术进入人们的生活中，普惠大众。

点击有惊喜

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航