单个实验加速器芯片可以在一个模块中组合在一起

2019-07-03 14:48:53 来源: INeng财经

毫无疑问,GPU-powerhouse Nvidia希望能够为各种规模的AI提供解决方案 - 从大规模的数据中心工作到始终在线的低功耗神经网络,这些网络可以监听语音助理中的唤醒字。

现在,这需要几种不同的技术,因为它们都没有特别好地扩大或缩小。能够部署一种技术而不是几种技术显然更为可取。因此,根据 Nvidia首席科学家Bill Dally的说法, 该公司一直在寻求回答这个问题: “你能构建一些可扩展的东西...... 同时在整个频谱范围内保持每瓦特竞争性能吗?”

看起来答案是肯定的。上个月在京都举行的 VLSI研讨会上,Nvidia详细介绍了一款小巧的测试芯片,它可以独立完成低端工作,或者在一个模块中与多达36个亲属紧密联系,以进行深度学习。 。它实现了这一切,同时实现了大致相同的顶级性能。

单个加速器芯片设计用于执行深度学习的执行方而不是训练部分。工程师通常根据每焦耳能量或毫米面积可以进行多少次操作来测量这种“推理”芯片的性能。Nvidia原型芯片中的一个峰值达到每秒4.01万次操作(每秒1000亿次操作)和每毫米1.29 TOPS。与使用相同精度的其他组的先前原型相比,单个芯片的面积效率至少为16倍,能量效率为1.7倍。但是连接到一个36芯片系统它达到了127.8 TOPS。这是一个32倍的性能提升。(不可否认,除了卷积神经网络之外,一些效率来自于不必处理更高精度的数学,某些DRAM问题以及其他形式的AI。)

公司主要是调整他们的技术,以便最适合他们的特定利基。例如,加利福尼亚州Irvine, - 启动Syntiant 在闪存中使用模拟处理来提高极低功耗,低需求应用的性能。虽然谷歌最初的张量处理单元的功能将被浪费在除数据中心的高性能,高功率环境之外的任何其他方面。

通过这项研究,Nvidia试图证明一种技术在所有这些情况下都能很好地运行。或者至少它可以在芯片与多芯片模块中的Nvidia网状网络连接在一起。这些模块基本上是小型印刷电路板或硅片,它们可以作为一个大型IC处理多个芯片。他们正变得越来越受欢迎,因为它们允许一对夫妇的小组成的系统芯片,通常被称为小芯片的单一更大更昂贵的芯片-instead。

多芯片模块选项不仅具有很多优势,不仅适用于未来可扩展的[深度学习]加速器,还适用于构建具有不同功能的加速器的产品版本,”Dally解释道。

Nvidia多芯片模块将新的深度学习芯片绑定在一起的关键是使用称为地参考信号的技术的芯片间网络。顾名思义,GRS使用导线上的电压信号和公共地之间的差异来传输数据,同时避免了该方法的许多已知缺陷。它可以使用单根线传输25千兆位/秒,而大多数技术需要一对电线才能达到该速度。使用单线可以提高每秒毫米边缘流量的数据量,达到每秒高达几兆兆位的数据量。更重要的是,GRS的功耗仅为每比特微焦耳。

“这是我们开发的一种技术,基本上可以选择在有机基板上构建多芯片模块,而不是采用更加昂贵的硅插入器,”Dally说。

在VLSI展出的加速器芯片几乎不是Nvidia关于人工智能的最后一句话。Dally表示,他们已经完成了一个版本,该芯片的TOPS / W基本上翻倍。“我们相信我们可以做得更好,”他说。他的团队渴望找到推断加速技术,超越VLSI原型的9.09 TOPS / W并达到200 TOPS / W,同时仍然可扩展。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。