您的位置：首页 > 其它

阿里云CTO章文嵩：GPU高性能计算是下一个风口

2015-09-11 14:03 399 查看

7月22日首届阿里云分享日×云栖大会北京峰会召开，吸引了海内外2000余名开发者、创业者及生态伙伴参与。

阿里云CTO章文嵩在分享日指出，随着DT时代的到临，高性能数据分析需求开始显现，云上将形成包括高性能计算在内的技术生态。

章文嵩透露，阿里巴巴内部早期上线了33个GPU线上应用，进行着1亿+张级别的图片训练，同时配备了2P FLOPS的GPU计算集群，结果在一周之内就被几乎全部占用，这是阿里云此前没预料到的。而当下在图片识别领域就出现了诸如face++ deepglint senstime linkface cogtu等众多初创公司，因此章文嵩判断，基于深度学习的图像，语音技术应用即将爆发。这些技术的爆发带来一个非常迫切的问题：高性能数据分析。

GPU高性能计算背后的新需求

为了更好阐述这一观点，章文嵩从多方面进行了剖析：

内部：去年阿里集团内部共上线了33个GPU应用，对应的图片训练已经到1亿+张。在阿里云上线2P FLOPS的GPU计算集群（未来规模还将翻番）之后，一周之内就被所有业务部门一抢而光。已经涵盖人脸识别、标签识别、质量控制、商品分类、风格预测、拍照购、OCR、语音识别、图象搜索、反黄等多个方面，为业务创造了巨大价值。

外部，基于深度学习、图形图象识别、语音技术的大规模爆发，业内迅速涌现出如Face++、格灵深瞳、Linkface、知图科技等10+创业公司。

在他看来，神经网络在80年代后期出现过一个低点。2000年前后，从浅层学习到深度学习的演变，将神经网络提高了几个数量级，对计算需求更高。尤其是近几年，2012年谷歌大脑用16000个CPU实现深度学习，为整个业界带来很好的启示。在互联网这富饶的土壤上，语音和图像的技术与应用的成熟，深度学习技术与业务的紧密结合，使得技术的投入和发展进入了良性循环。“我们可以看到，数据和计算成为爆发的基石。比如深度学习模型对数据依赖性非常高。过去解决问题是从模型算法着手，现在更多是获得高质量数据。数据已然决定了整个模型的训练效果，高质量的数据当然需要多多益善。这就带来了一个巨大挑战：获取、保存海量数据，并要大幅降低存储成本。要知道，即使是银行，14天后数据就会清除。另一方面，商业领域计算能力从未过剩。一张图片的特征提取要170G次浮点计算；120万张图片进行一次网络训练，需要318P次浮点运算；一个CPU要算上22天的计算量拿GPU来做，大概是18个小时。”

具体来看：

-数据能力。包括数据获取、数据存储、数据传输、数据加工和数据使用，正如原油、汽油和石油只是提炼品一样，挖掘和提炼能力越高，产出就越高。DT发展的必然阶段，就是从数据分析到高性能数据分析。要实现这一点，需要更高效能、更强大的计算能力。

-计算能力。比如谷歌大脑用了1000台服务器，每台6核，耗电是600KW，500万美金的成本投入。而斯坦福大学人工智能实验室重新做了一遍,只需要3台GPU服务器，耗电只有4KW，3.3万美元的投入。技术演进将带来巨大变革。在参数模型中，包含GPU，众核处理器充当内存，关键计算用Hybrid CPU—FPGA，在加上极致的软件性能优化，效能提升迅猛。“我们在一种模型上的优化，最多可以提升60%，而美国一家技术创业公司同样的优化，只能提升20%。”通过软硬一体的优化，使得物理机+加速器的能力能直接对外部输出，将是云上IaaS的第二种形态。这样的方式下，云上超算能力不会成为瓶颈。

-构建技术生态。企业不仅需要计算，还有更多配套服务。比如数据、信息的高速获取和分发需要极速CDN，数据和信息存储需要对象存储，互联网应用落地需要云服务器、负载均衡、云数据库，大数据分析和高性能数据分析需要大数据处理如ODPS和高性能计算，GPU集群对外输出（今年9月份天池大数据计算，会让参赛选手使用GPU集群）。

章文嵩总结道：“我们相信数据能力＋计算能力＋技术生态，可以实现用技术拓展商业边界的目标。阿里巴巴联合更多合作伙伴，开放出更多如同人脸识别、深度学习等人工智能新技术，和社会分享，帮助企业实现弯道超车。”

本文转自：http://www.gpuworld.cn/article/show/445.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： CUDA GPU 图像处理机器学习

相关文章推荐

新的分享

章节导航