达摩院黑科技首次亮相,语音让生活变的更简单!
2017-12-07 15:10
281 查看
点击有惊喜
昨天,据媒体报道上海申通地铁集团与阿里巴巴、蚂蚁金服联合宣布,三方达成战略合作,签约仪式上,阿里巴巴iDST最新研发的多模态智能语音交互技术首度惊艳亮相。
传统的自然语音交互主要在家居、办公室等比较安静的环境下工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。iDST首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。其次市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。而这次iDST通过“语音+视觉”多模态融合技术,能够自动检测用户走近设备的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。
下一代人机交互,是达摩院首批公布的重点研究方向之一(其他还包括:量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等)。
这套多模态智能语音交互解决方案是由数个子系统组成的:
1、大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;
2、计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;
3、多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;
4、远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。
此次的技术成果,将为自然人机交互技术打开一片全新的世界。对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地。而未来这项技术进入人们的生活中,普惠大众。
点击有惊喜
昨天,据媒体报道上海申通地铁集团与阿里巴巴、蚂蚁金服联合宣布,三方达成战略合作,签约仪式上,阿里巴巴iDST最新研发的多模态智能语音交互技术首度惊艳亮相。
传统的自然语音交互主要在家居、办公室等比较安静的环境下工作,但在公众场所嘈杂环境下,业界此前尚无可以达到大规模商用水平的远场语音交互整体解决方案。iDST首次创新研发了基于深度学习的大型麦克风阵列技术,结合深度优化的声学结构和多模态融合技术,能够自动从强干扰背景语音中提取出目标说话人的语音,并实现增强,从而突破了嘈杂干扰环境下远场语音识别的世界性难题。其次市场上主流远场语音交互产品,都需要通过“唤醒词+语音指令”的方式进行交互。而这次iDST通过“语音+视觉”多模态融合技术,能够自动检测用户走近设备的行为,主动发起交互。此外,通过这一技术还实现了免唤醒的语音交互体验,使人-机交互更接近人-人交互的自然和流畅。
下一代人机交互,是达摩院首批公布的重点研究方向之一(其他还包括:量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、芯片技术、传感器技术、嵌入式系统等)。
这套多模态智能语音交互解决方案是由数个子系统组成的:
1、大麦克风阵列子系统:在硬件上通过数个麦克风组成大阵列,在软件上通过语音信号处理实现高精度声源定位和语音增强;
2、计算机视觉子系统:通过光学摄像头,实现人脸,特别是眼睛、嘴唇等的检测、跟踪和动态分析;
3、多模态融合子系统:通过语音+视觉融合,实现对目标用户的精确定位及语音提取;
4、远场语音识别、语义理解、对话及语音合成子系统:将目标用户经提取、增强后的语音进行识别、理解,产生对话结果,并通过语音合成将机器的反馈输出给用户。
此次的技术成果,将为自然人机交互技术打开一片全新的世界。对于传统的语音交互技术,强噪音的公众场合一直因为其技术难度大而难以实现产品级落地。而未来这项技术进入人们的生活中,普惠大众。
点击有惊喜
相关文章推荐
- 达摩院黑科技首次亮相,语音让生活变的更简单!
- Google Now新增语音命令:生活简单一点,让爱更近一点
- 多人语音聊天问题简单说说
- Android简单语音控制应用的实现
- WebRTC学习之四:最简单的语音聊天
- 对这十来天生活的简单思考(大二暑假)
- [转]论简单生活 - 周国平
- [汇总III]微软等公司数据结构+算法面试第1-80题[前80题首次集体亮相]
- 金山软件重组网游管理团队 "五虎将"首次公开亮相
- 程序员的优势 生活的核心问题是——你想要什么?体面的?有地位的?安逸的?有事业的?有激情的?家庭的? 我的生活目标是简单、自由、自足
- 非常简单的语音朗读功能
- 仿微信语音对话简单模型
- 用简单的数字诠释生活
- IntelliJ IDEA 9 发布,免费的社区版首次亮相
- PacketTracer 5.3之简单Callmanger语音
- 非常简单的语音朗读功能
- 蚂蚁金服ATEC峰会首次亮相云栖,CTO程立详解技术开放全战略
- [汇总III]微软等公司数据结构+算法面试第1-80题[前80题首次集体亮相]
- 发布了每日一文应用,每日一文,每天阅读,简单生活。每天精选一篇不同的文章,也可以随机阅读往日精选文章
- WAP Web Browser 让您的无线生活更简单