您现在的位置:首页 > 国际新闻 >

Nvidia发布Grace CPU:首个基于Arm、针对AI的数据中心CPU

2021-12-21 09:32 来源:杨园三居 浏览:

Nvidia正在瞄准更具有挑战性的人工智能工作负载,发布了自己首个基于Arm的数据中心CPU。

Nvidia在今天举行的GTC线上大会活动中发布了这款名为“Grace”的新CPU,据说是10000个工程年的成果,设计旨在满足当前最强大的AI应用对计算力的巨大需求,包括自然语言处理、推荐系统、AI超级计算机驱动的药物发现等。

Nvidia表示,Grace可以在配置了Nvidia知名GPU(例如Nvidia A100 GPU)的系统发挥最高性能。Nvidia高管表示,当与Nvidia GPU紧密结合时,基于Grace的系统性能达到目前运行英特尔x86 CPU的DGX的系统的10倍。

Nvidia称,Grace CPU以美国计算机编程先驱Grace Hopper的名字命名,旨在为新型超级计算机提供动力,早期用户瑞士国家计算中心(CSCS)将推出新型Alps超级计算机。

Alps系统目前是由HPE打造的,基于HPE的Cray EX超级计算机产品线,由Nvidia HGX超级计算平台提供支撑,该平台采用了A100 GPU、Nvidia High-Performance Computing软件开发套件以及此次推出的Grace CPU。一旦系统启动并运行起来,将可以在短短两天内训练出全球最大的自然语言处理模型GPT-3,比2.8Periflops的Selene超级计算机快近7倍,Selence是目前经过MLPerf认证的全球最快的AI超级计算机。

Nvidia加速计算高级总监Paresh Kharya在新闻发布会上表示,Grace是首款旨在满足当今全球功能最强大的AI模型呈现爆炸式增长的CPU。他举例说,GPT-3模型需要处理1000多亿个参数,而现有CPU架构根本无法满足这个需求。

Kharya说:“巨型模型正在推高着现有架构的极限。”问题在于,这些模型是不支持GPU内存的,只支持系统内存,而后者速度较慢。

Kharya解释说,Grace CPU是为升级计算架构以更好处理AI和HPC而生的。他说:“我们全新打造了一款CPU,以兑现这个承诺。这款CPU能够与GPU紧密结合,提供一个消除了瓶颈的平衡架构。”

瑞士国家计算中心将在那些能够受益于自然语言理解的众多科研领域中采用Alps超级计算机,例如分析成千上万篇科学论文,创造可以用于辅助药物发现的新分子。

瑞士国家计算中心主管Thomas Schulthess表示:“Nvidia新推出的Grace CPU使我们能够融合AI技术和经典的超级计算技术来解决计算科学中最棘手的问题。”

Nvidia表示,用于新系统的Grace CPU将通过Nvidia NVLink互连技术链接到Nvidia GPU上。Nvidia还补充说,Grace CPU每秒连接速度高达900Gb,总带宽比其他计算机服务器高30倍。

Nvidia表示,Grace CPU还得到了LPDDR5x内存子系统的支持,让该系统与DDR4内存相比带宽和能源效率分别提高1倍和10倍。当然,Grace CPU还将支持Nvidia HPC SDK、全套CUDA和CUDA-X GPU应用库。

Constellation Research分析师Holger Mueller表示,随着Grace的推出,Nvidia这家历史悠久的公司将开启发展的新篇章。他说,Nvidia将宣布第一个基于Arm技术的完整AI平台,以应对AI带来的最大挑战。

Mueller说:“这将让Nvidia能够快速有效地把数据移动到GPU和数据处理单元中,是Nvidia AI产品组合的自然延伸,对于其他基于云的AI和ML工作负载来说,将是他们在本地环境中的一大挑战。而对那些希望在哪运行工作负载有更多选择的公司来说,是个好消息。”

Moor Insights&Strategy的分析师Patrick Moorhead表示,Grace CPU是2021年GTC大会迄今为止最重大的公告。

“Grace是紧密集成型CPU,可用于有1万亿多个参数的AI模型,而这对于通过PCIe链接的CPU和GPU经典组合来说是难以解决的。Grace专注于IO和内存带宽,与GPU共享主内存,因此你肯定不会将它与AMD或者英特尔的通用型数据中心CPU相混淆。”

Nvidia首席执行官黄仁勋在大会主题演讲中表示,如今AI工作负载中所使用的数据量是惊人的。Grace的推出意味着Nvidia现在除了GPU和数据处理单元外,还拥有第三种用于AI的基础技术,从而使其能够针对这些工作负载完全重新构建数据中心。他说:“Nvidia现在是一家三芯片公司。”

Nvidia表示,Grace CPU将于2023年全面上市。

全球首个云原生多租户AI超级计算机

与此同时,企业仍然可以通过Nvidia下一代云原生Nvidia DGX SuperPOD AI硬件的形式,使用功能非常强大的AI超级计算平台。

新推出的Nvidia DGX SuperPOD(如图所示)首次配备了Nvidia BlueField-2 DPU数据处理单元,后者可以卸载、加速和隔离数据,将用户安全地连接到Nvidia AI基础设施。Nvidia表示,BlueField-2 DPU与新的Nvidia Base Command服务相结合,让多个用户和团队可以安全地访问、共享和操作DGX SuperPOD基础设施。Base Command可用于为全球数据科学家和开发人员团队协调AI训练和操作。

Nvidia DGX A100是这个SuperPOD系统的基本组成部分,同时结合了8个Nvidia顶级A100数据中心GPU与2个CPU和1 TB内存。