从音视频技术看AI的机会和挑战
2019-08-13 07:30
447 查看
原文链接:http://bj2019.livevideostack.com/schedule?utm_source=p_wechat\x26amp;utm_medium=ori\x26amp;utm_campaign=p_sc
事实上,从2017年第一届LiveVideoStackCon音视频技术大会开始,AI主题就没有缺席过,但直到2019年,AI在音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现。接下来,我来梳理下AI在多媒体各个场景下的应用。
内容理解
AI内容理解并不限于生成封面图,精彩剪辑,或者只看某个角色的镜头,这在内容推荐、广告平台有帮助。此外,内容理解还能帮助更好的处理视频,比如可以针对不同的视频内容选择不同的Codec,以及相关的编码工具;也可以找到视频中人眼最关注的部分,分配更多的码率,降低不易察觉的画面的码率,在保证用户体验的前提下降低码率。同时,AI可以把竖版的短视频裁剪成适合横屏播放的内容。
此外,AI还能帮助检测视频源片中的瑕疵,比如黑屏,异物遮挡,这可以在后期制作中修剪。同理,AI也可以帮助发现字幕遮挡关键画面信息的情况,从而调整字幕出现的时间或位置。关于内容理解的应用,Netflix走在业界前沿,可以多关注。
图像增强
关于图像增强大家谈的很多,也许你在看一些热门影片的时候已经用到了AI加持的图像增强技术。比如,将SDR转换为HDR视频,视频超分(将720p变成1080p),每秒30帧视频变换为每秒60帧等等。
AI与ABR
ABR即动态码率,其目的是为了解决客户端在不稳定网络下仍能流畅的观看视频,并且最大化的保证画质。ABR算法需要关注客户端的视频缓存,以及当下的最大带宽,从而去预测未来一段时间提供给该客户端的码率。AI的出现可以进一步提升ABR的效果,最著名的要数MIT提出的Pensieve。去年,著名的网络技术学术会议SIGCOMM上,也有二十多篇是关于机器学习的。
语音识别与语音合成
从Siri到小冰,从智能手机到智能音响,语音识别已经无处不在,无需赘述。而语音合成则是让电脑把文本变成语音,比如Google开源的Tacotron已经可以实现99%的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多的通过AI生成。
回声消除
这是一个所有音频设备必须解决的问题,在多麦克风设备上消除回声相对容易。但在一些低端的Android设备上,如果只有一个麦克风就需要利用AI来帮助消除回声,效果非常不错。
声纹——人声识别与音乐识别
声音是可以作为身份验证的,但是风险也同时存在,比如有人拿了你的录音去登录你的银行账号。而DNN可以掌握更多的声音特征,从而降低风险。而在音乐识别方面则没有那么高风险,但也直接关系到用户的体验,各大音乐App都集成了相关的功能。
此外,AI还可以帮助影视策划制作与营销,通过分析剧本类型、导演、明星阵容预测作品的流程程度,从而在后期推广、广 3ff7 告合作方面更加精准。以上粗浅聊了聊AI在音视频领域的具体应用,仅仅是冰山一角。无论你是否选择从事AI与多媒体领域,学习一些AI的基本知识还是很有必要的,但你如果想大干一番,而不是随便发一些paper,混个offer,来那些掌握海量数据的公司,能让你大显身手的。
多媒体搞AI,还有比这更靠谱的?
事实上,从2017年第一届LiveVideoStackCon音视频技术大会开始,AI主题就没有缺席过,但直到2019年,AI在音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现。接下来,我来梳理下AI在多媒体各个场景下的应用。
内容理解
AI内容理解并不限于生成封面图,精彩剪辑,或者只看某个角色的镜头,这在内容推荐、广告平台有帮助。此外,内容理解还能帮助更好的处理视频,比如可以针对不同的视频内容选择不同的Codec,以及相关的编码工具;也可以找到视频中人眼最关注的部分,分配更多的码率,降低不易察觉的画面的码率,在保证用户体验的前提下降低码率。同时,AI可以把竖版的短视频裁剪成适合横屏播放的内容。
此外,AI还能帮助检测视频源片中的瑕疵,比如黑屏,异物遮挡,这可以在后期制作中修剪。同理,AI也可以帮助发现字幕遮挡关键画面信息的情况,从而调整字幕出现的时间或位置。关于内容理解的应用,Netflix走在业界前沿,可以多关注。
图像增强
关于图像增强大家谈的很多,也许你在看一些热门影片的时候已经用到了AI加持的图像增强技术。比如,将SDR转换为HDR视频,视频超分(将720p变成1080p),每秒30帧视频变换为每秒60帧等等。
AI与ABR
ABR即动态码率,其目的是为了解决客户端在不稳定网络下仍能流畅的观看视频,并且最大化的保证画质。ABR算法需要关注客户端的视频缓存,以及当下的最大带宽,从而去预测未来一段时间提供给该客户端的码率。AI的出现可以进一步提升ABR的效果,最著名的要数MIT提出的Pensieve。去年,著名的网络技术学术会议SIGCOMM上,也有二十多篇是关于机器学习的。
语音识别与语音合成
从Siri到小冰,从智能手机到智能音响,语音识别已经无处不在,无需赘述。而语音合成则是让电脑把文本变成语音,比如Google开源的Tacotron已经可以实现99%的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多的通过AI生成。
回声消除
这是一个所有音频设备必须解决的问题,在多麦克风设备上消除回声相对容易。但在一些低端的Android设备上,如果只有一个麦克风就需要利用AI来帮助消除回声,效果非常不错。
声纹——人声识别与音乐识别
声音是可以作为身份验证的,但是风险也同时存在,比如有人拿了你的录音去登录你的银行账号。而DNN可以掌握更多的声音特征,从而降低风险。而在音乐识别方面则没有那么高风险,但也直接关系到用户的体验,各大音乐App都集成了相关的功能。
此外,AI还可以帮助影视策划制作与营销,通过分析剧本类型、导演、明星阵容预测作品的流程程度,从而在后期推广、广 3ff7 告合作方面更加精准。以上粗浅聊了聊AI在音视频领域的具体应用,仅仅是冰山一角。无论你是否选择从事AI与多媒体领域,学习一些AI的基本知识还是很有必要的,但你如果想大干一番,而不是随便发一些paper,混个offer,来那些掌握海量数据的公司,能让你大显身手的。
《如何进行动态协议优化》 Akamai 高级工程经理 Darren Ng《“京享超清”在复杂网络下应用与视频体验保障》 京东云 架构师 张树军《强化学习下的自适应码流服务》 爱奇艺 资深工程师 王亚楠《高效视频处理与AI融合架构》 Aupera 创始人兼CEO 廖玉峰《AI视频增强与编码损伤修复协同处理方案》 西安电子科技大学 硕士生导师 何刚《实时视频码率优化实战》 好视通 高级架构师 张弦《AI驱动的音频、视频效果新玩法》 相芯科技 资深图形引擎开发经理 蔡锐涛《沉浸式音频技术的采集,传输,播放,以及应用场景初探》 时代拓灵 创始人,CEO 孙学京《深度学习图像算法在内容安全领域的应用》 网易易盾 资深算法专家 李雨珂《端对端语音识别及其应用》 滴滴出行 首席算法工程师 李先刚《视频编解码优化以及与AI的结合》 RealNetworks Senior Lead Staff 况超《声纹识别与防录音重放攻击》 清华-得意音通声纹处理联合实验室 博士生 程星亮《多模视角下的内容理解算法与应用》 快手 多媒体内容理解部负责人 李岩《音频指纹技术在流媒体音乐平台的应用》 网易云音乐 音视频实验室负责人 刘华平《xNN:支付宝App中的实时AI引擎》 蚂蚁金服 高级算法专家 周大江《深度学习在回声消除中的应用》 大象声科 高级音频算法工程师 闫永杰
相关文章推荐
- 揭秘:快手用AI在短视频里玩出三大花样,背后是怎样的技术原理?
- “视网膜”重装来袭 AI技术为视频业务场景赋能
- 本周六技术分享直播:AI与开源背景下的数据结构演进 - 分布式系统中的机遇与挑战...
- Nvidia最新AI技术可制作以假乱真的视频
- 独家 | 磁共振斑块成像的技术研发、案例与数据挑战(附视频)
- Pony.ai宣布1.12亿美元A轮融资:James Peng和楼教主挑战Level4自动驾驶技术
- 展望2018音视频技术:AV1,AI,区块链,WebRTC
- 构建内容分发平台的技术架构与挑战及AI技术的应用实践
- 微软AI负责人沈向洋:AI当前水平、技术难点、微软AI之路及如何面对人才挑战
- UWP 手绘视频创作工具技术分享系列 - 有 AI 的手绘视频
- 阿里巴巴摘得LSVC桂冠 打造领先AI视频技术
- 9月30日云栖精选夜读:阿里巴巴摘得LSVC桂冠 打造领先AI视频技术
- 腾讯AI Lab:AI辅助诊疗系统面临的三大技术挑战
- 揭秘快手短视频背后的AI技术
- 用AI技术防止幼儿园虐待儿童,中国研究员研发视频流分析模型
- 一周AI看点 | 谷歌AI工程师说五年内实现人机对话,能实现吗;NASA开发AI竞赛无人机要挑战人类职业玩家,无需外部定位技术
- 这种新的 AI 技术只要你的一张照片,就能伪造出一段视频
- 音视频开发中P2P技术的介绍与挑战
- 直播系统 移动短视频APP开发可以在这四个方面应用AI技术
- 言论丨李开复:中国在AI领域的优势与机会,现阶段AI领域的挑战