您的位置:首页 > 其它

从“NVIDIA禁令”看如何正确选择NVIDIA GPU卡

2017-12-29 15:32 1246 查看
这周朋友圈真的很精彩, 一条 <英伟达新禁令:不能随便用GeForce显卡跑深度学习(挖矿可以)>刷了屏,不少朋友私信我问:Lady这是真的么?

一开始我也是很懵圈:难道NV要从驱动上下手?关键他怎么知道这卡是用在数据中心?

今天朋友圈被这条<英伟达独家回应一切,关于禁用GeForce你们都错了>霸屏了!

Lady我仔细看了一下,终于恍然大悟!

NVIDIA就是在最终用户协议里加了一条不鼓励用户在严苛的大规模企业环境中不恰当地使用Geforce和Titan系列产品。

这就类似于我们经常在港剧里看到的,阿Sir在抓捕疑犯时都要说一句:



简单的一句话其实包含的信息量很大:

1.如果你被认为是在“大规模企业环境中不恰当地使用GTX或者Titan卡”,当你的卡出了问题,NVIDIA可能不会保修哟!

2.不过GTX卡是第三方显卡厂商在提供,也就是说实际保修服务是由他们来提供的,NVIDIA这个规定其实也间接地保护了这些显卡厂商保修权益。

2.教育单位可能不受此限制

3.大规模企业环境是如何定义的?

借着这个话题,Lady我想说的是:如何正确地选择GPU卡!

本来,数据中心使用GTX卡,就是对用户的一种不负责任。

先说一下,我对数据中心的理解是这样的:



而不是一个机柜里摆放几台机架服务器跑自己的计算,就说自己建了个数据中心哟,从现在开始可不能随随便便给自己贴标签了....

道理很简单:数据中心硬件部署对于GPU的软件、硬件、散热等有着严苛需求,GeForce和TITAN并不是为其设计的,Tesla系列产品才是。

注意是24小时*365天持续工作哟!

上千台服务器,如果因为GTX卡跑挂导致最终使用者不得不终止计算,这个损失谁也负担不起。

Lady遇到不少客户都希望说在工作站上装Tesla P100。

这个我们其实一直不推荐这么用。注意,目前从Tesla K80开始,都是被动散热,被动散热都是风道散热的方式,搭配的就是机架式服务器!

专门的GPU服务器比如华硕ESC4000G3(支持4卡)和华硕ESC8000G3对散热都做了优化,确保了整体系统的稳定性。



散热不好,最容易出现的状况是:

死机

       循环重启

黑屏

....

对于工作站的用户来说,如果你需要做深度学习研究,也就是说,你对双精度计算能力没有要求,对数据ECC校验也没有要求,.那么我们就会推荐使用GTX高端卡,比如GTX1080ti



但是如果工作站用户说:我对双精度计算有要求,因为预算问题,我也不想换成机架服务器,那么这个问题就无解了.....

不过好消息是,NVIDIA的Tian V要出来了!这个卡作为主动散热的卡,根正苗红,关键支持双精度!对于工作站用户来说,这款绝对是值得期待的!而且也不会存在大规模企业环境部署的问题,所以NVIDIA这个限制条件并不适用你!

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  nvidia gpu