昨天在Nvidia的GPU技术会议上,每个人都发现了首席执行官Jensen Huang在做饭的事—由Volta驱动的DGX-2深度学习系统的安培驱动的继任者。
在星期三,我们描述了Huang的厨房中神秘的硬件,除了特斯拉v100 GPU的新后继产品外,还可能“包装了几个Xeon CPU”。Egg就是我们的面子—新系统配备了一对AMD Epyc 7742 64核,128线程CPU,1TiB RAM,一对RAID1中的1.9TiB NVMe SSD(用于引导驱动器),以及多达RAID 0中的四个3.8TiB PCIe4.0 NVMe驱动器作为辅助存储。
从技术上讲,它不应该作为太多的惊喜,Nvidia公司将挖掘AMD在其旗舰机器学习节点-EPYC CPU的罗马已经踢英特尔的至强服务器CPU产品线向上和向下相当长的块,而现在。站在技术方面,Epyc 7742对PCIe 4.0的支持可能比其高CPU速度和大量内核/线程数量更为重要。
基于GPU的机器学习经常会遇到存储瓶颈,而不是CPU瓶颈。DGX A100使用的M.2和U.2接口每个都使用4个PCIe通道,这意味着从PCI Express 3.0到PCI Express 4.0的转换意味着每个单独的SSD的可用存储传输带宽从32Gbps翻倍到64Gbps。
更换CPU供应商的决定背后也可能隐藏着一些政治因素。在利润率相对较低的消费类图形市场上,AMD可能是Nvidia的最大竞争对手,但英特尔正在涉足数据中心市场。目前,英特尔在分立式GPU中提供的产品大部分都是汽水-但我们知道Chipzilla的计划更大,更宏大,因为它将其重点从垂死的消费者CPU市场转移到了所有数据中心。
英特尔DG1本身(这是我们迄今为止所见的唯一真正的硬件)已经泄漏了基准 ,使它与来自Ryzen 7 4800U的集成Vega GPU竞争。但是Nvidia可能更担心Xe HP 4块GPU,其2048个EU(执行单元)可能提供高达36TFLOPS的性能-至少与今天为DGX提供动力的Nvidia A100 GPU处于同一水平。
DGX,HGX,SuperPOD和Jetson
该DGX A100是今天的产品发布,它是一个独立的系统,具有8分A100的GPU,与40GiB GPU内存每人的明星。美国能源部的阿贡国家实验室已经在使用一架DGX A100进行COVID-19研究。系统的9个200Gbps Mellanox互连使得可以将多个DGX A100集群化,但是那些预算不支持大量200,000美元GPU节点的DGX A100可以通过将A100 GPU划分为多达56个实例来实现。
对于 确实有预算购买和群集DGX A100节点群的用户,也可以采用HGX(超大规模数据中心加速器)格式。英伟达表示,由其较早的DGX-1节点以及600个用于推理训练的独立CPU组成的“典型云集群”可以由五个能够处理两种工作负载的DGX A100单元取代。这将使硬件从25个机架缩减到一个,功率预算从630kW降低到28kW,成本从1100万美元降低到100万美元。
如果HGX听起来还不够大,那么Nvidia也已经为其SuperPOD发布了参考架构,与Plume无关。Nvidia的A100 SuperPOD通过170个Infiniband交换机连接了140个DGX A100节点和4PB闪存,并提供700 petaflops的AI性能。Nvidia已在其自己的SaturnV超级计算机中添加了四个SuperPOD,至少根据Nvidia而言,这使SaturnV成为世界上最快的AI超级计算机。
最后,如果不是您想要的数据中心,可以使用Jetson EGX A100在您的边缘计算中使用A100。还有EGX Jetson Xavier NX。对于不熟悉的人来说,Nvidia的Jetson单板平台可以被认为是类固醇的Raspberry Pi,它们可以部署在IoT场景中,但是将强大的处理能力带到了小巧的外形上,可以加固并嵌入到诸如以下设备的边缘设备中机器人技术,医疗保健和无人机。