您的位置:首页 > 大数据 > 人工智能

还在嫌弃猪队友?新研究加速人机协作学习,靠谱队友你值得拥有 | 一周AI最火论文

2019-12-10 12:18 1226 查看
大数据文摘专栏作品
作者:Christopher Dossman
编译:Joey、Junefish、云舟


呜啦啦啦啦啦啦啦大家好,拖更的AI Scholar Weekly栏目又和大家见面啦!
AI ScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。
每周更新,做AI科研,每周从这一篇开始就够啦!


本周关键词:Deep Fake、强化学习、人机交互


本周最佳学术研究


深度学习模型理解胸部X光报告


最近的研究表明,深度学习模型现在已经可以用于解释胸部X光图像。Google Health的研究人员们开发了一个深度学习模型,他们使用两个共有上万张图像的数据集来检测X光片中的四种诊断结果,包括气胸、不透明、结节或肿块以及额胸片上的骨折。


第一个数据集来自阿波罗医院(Apollo Hospitals),它包括一组不同的胸部X光结果。第二个数据集是美国国立卫生研究院发布的可公开获得的ChestX-ray14图像数据集。


为了评估这一模型,研究人员门用上了每个数据集中的数千个保留图像。四名放射科医生还独立评估了这些保留图像,以此来比较放射科医生与模型的诊断的准确性。结果表明,对于两个数据集中所有四个诊断,深度学习模型都达到了放射医师的诊断水平。


最近的许多深度学习方面的进展使算法达到了专业医疗人员的水准。在这项工作中,深度学习模型的准确性与放射科医生的准确性相当,但跨数据集的表现不同。例如,放射科医师对于ChestX-ray14中的图像,检测气胸的敏感性为79%,而对于其他数据集的同一类图像,其敏感性仅为52%。


研究人员称,“我们开发并评估了用于解读胸部X光片的人工智能模型。通过比对各种图像,我们认为这些模型能达到放射科医生的表现。


这项工作表明了在多个不同的数据集上验证深度学习工具的重要性。并且,最终在患者群体和临床环境中验证模型的使用也不可或缺。


原文:

http://ai.googleblog.com/2019/12/developing-deep-learning-models-for.html


人机协作学习,完成复杂任务


研究人员介绍了一种用于人机协作学习的机器人装置,他们还通过示例高效的DRL代理实现了该装置。有趣的是,该代理程序能够在少于4,000个交互步骤的情况下,以及实际训练的30分钟内,与人类合作伙伴解决一项复杂的协作任务。



结果表明,该代理能够在执行一项物理任务时达到人类的水平,而这一解决方案需要两个参与者的参与。 此外,评估显示,最新的DRL方法可以从头开始进行在环培训,这为进一步研究协作学习打开了大门。


众所周知,未来的机器人技术会极具颠覆性,我们有望看到机器人在诸多行业的广泛采用。这一研究将极大促进人机协作的研究,并加快强大人机交互应用的实现。


然而,这一研究的局限性在于该方法可能无法在更复杂的任务中获得成功,当达到目标所需的随机动作试验次数增多时,模型的表现会显著下降。


原文:

https://arxiv.org/abs/1912.01715


深度学习模型的传播平台


研究人员发布了ModelHub.AI,这是一个基于社区的软件引擎,并且是一个能够将深度学习模型进行结构化传播的平台。ModelHub.AI为多种应用程序提供经过预训练的自包含深度学习模型。



从一定程度上说,整个科研界都为该平台作出了贡献。对于贡献者来说,平台会控制数据在整个推理周期中的流动,而面向贡献者的标准模板则公开了特定于模型的功能,包括推理、预处理和后处理三种。 Python和RESTful应用程序编程接口(API)使用户能够与ModelHub.AI上托管的模型进行交互,并允许研究人员和开发人员立即使用模型。


ModelHub重点介绍了深度学习应用程序的最新趋势,为研究人员之间的转移学习方法提供了支持,并提升了科学发展的可重复性。


这一研究未来的工作包括增加各种领域和数据类型中的模型注册表、贡献数量以及为更多输入和输出数据类型提供支持。这种增长将使未来的模型分析成为可能,也可以方便我们研究模型随时间和领域的演变。


项目页面:

http://modelhub.ai/

原文:

https://arxiv.org/abs/1911.13218


谷歌键盘让你任意书写全世界的语言


Gboard(Google键盘)为全世界的智能手机用户提供了强大支持,可以满足用户使用其首选语言进行交流和知识共享。Gboard可直接安装在Android智能手机上,目前支持900多种语言。目前全球很多人都在使用该应用程序,总安装量超过10亿次。


在本文中,研究人员描述了他们对Gboard深度国际化的展望。他们讨论了为什么要增加对数百种语言的支持,在扩展到数百种语言时所面临的技术和非技术挑战以及解决方案。他们的工作还总结了对世界各地数百种语言的用户研究得出的主要结论。


如今的人们比以往任何时候都更广泛地在线使用多种语言。这对语言技术提出了更高的要求。更重要的是,除了智能手机键盘之外,语言技术还有许多其他应用程序,例如语音转文本等。


这项工作有助于提高全球语言社区的需求和意识,不仅对键盘应用程序开发人员来说是这样,对语言技术的从业人员中也是如此。但是,要实现这一目标仍然任重道远,正如作者所说,“世界语言的开发技术需要正确的研究方法,技术,产品挑战,以及丰富的人际互动。


原文:

https://arxiv.org/abs/1912.01218


原始音频小型生成流WaveFlow


研究人员最近推出了WaveFlow,这是一种针对原始音频的基于流的紧凑模型。WaveFlow进行了最大程度的训练,且没有并行WaveNet和ClariNet中使用的概率密度蒸馏和辅助损失技术,从而简化了训练流程并降低了开发成本。



WaveFlow可以获得与自回归WaveNet相当的似然度并合成高保真语音,且只需要少量顺序步骤即可生成非常长的波形。它只有591万个参数,就可以合成22.05 kHz高保真语音,比Nvidia V100 GPU上的实时速度快40倍以上。而WaveGlow则需要87.8M个参数才能生成高保真语音。


神经波形合成器(例如WaveNet)在语音合成的最新进展中起着重要作用。


WaveFlow只需要少量恒定数量的连续步骤即可生成高保真语音,并获得与WaveNet相当的似然性。它消除了自回归模型和基于流的模型之间存在的显著似然差距,实现了有效的合成,并提供了针对时域波形的流模型(包括WaveNet和WaveGlow)的集成视图。在生产TTS系统中,尤其是在设备上进行部署时,WaveFlow较小的内存占用空间具有显著优势。


音频样本:

https://waveflow-demo.github.io/

原文:

https://arxiv.org/abs/1912.01219


其他爆款论文


用于多机器人系统合作学习的数据集模式:

https://arxiv.org/abs/1912.01741


PitchNet使用无监督方法实现声音转换:

https://arxiv.org/abs/1912.01852


从图片中搜索、本地化并识别价格标签信息:

https://arxiv.org/abs/1912.01923


路易斯安那州教育局与LSU的Gordon A. Cain中心合作,将CodeWorld引入了高中课程:

https://arxiv.org/abs/1912.00237


ALFRED——一个用于解释日常任务操作说明的基准:

https://arxiv.org/abs/1912.01734


数据集


第一个3D人类着装序列的大规模合成数据集:

https://arxiv.org/abs/1912.02792


任意设备上的打字,步态或刷卡活动数据将泄露你的年龄,身高等人口统计信息:

https://arxiv.org/abs/1912.02736


AI大事件


自2020年1月1日起,中国将发布Deepfakes和Fake News视为非法行为:

https://www.pcmag.com/news/372287/china-makes-deepfakes-and-fake-news-illegal


亚马逊推出即插即用的AI工具:

https://www.wsj.com/articles/amazon-introduces-plug-and-play-ai-tools-11575399371


微软Seeing AI技术的语言设置将包括5种除英语以外的语言:

https://www.dailymail.co.uk/sciencetech/article-7752787/Microsofts-AI-powered-assistant-app-visually-impaired-support-five-new-languages.html


AI机器人现在已实现团队合作:

https://www.cnet.com/news/facebooks-new-card-playing-bot-shows-ai-can-work-with-others/


澳大利亚正在激活一项新的AI技术,用以探测司机的非法使用手机行为:

https://www.bbc.com/news/technology-50630763


专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/


志愿者介绍

后台回复志愿者”加入我们



点「在看」的人都变好看了哦!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: