谷歌发布了一系列内部设计的硬件加速器,以加速公司云平台上的某些机器学习工作负载。Google的新Cloud Tensor处理单元(TPU)将于本周开始用于Beta评估。每个TPU包含四个专用集成电路(ASIC)。单个TPU在单个板上可以提供多达180 teraflops的性能和高达64 GB的高带宽内存。
根据Google产品经理John Barrus和Zak Stone的说法,这些板可以以独立方式使用,也可以通过专用网络连接链接在一起以形成所谓的TPU吊舱,该TPU吊舱基本上是用于运行机器学习应用程序的多个petaflop级超级计算机。两位产品经理在2月12日的博客中表示,谷歌将从今年晚些时候开始向云平台客户提供更大的超级计算机。
Barrus和Stone表示,Google的Cloud TPU旨在为使用TensorFlow开源软件库编程的目标机器学习工作负载提供更高的性价比。该技术将使机器学习研究人员和工程师能够比使用当前技术更快地训练,运行和构建他们的机器学习模型。
两位工程师说,例如,机器学习工程师不必等待共享的计算资源可用,而现在可以通过可自定义的Google Compute Engine虚拟机获得对专用Google Cloud TPU的专有访问权限。
同样,新的TPU消除了机器学习研究人员花费数天甚至数周时间训练业务关键模型的需求。Stone和Barrus表示:“您可以在一整夜的Cloud TPU上训练相同模型的多个变体,并在第二天将最精确的训练模型部署到生产中。”
他们补充说,Google还使组织对新的Cloud TPU进行编程成为可能,而无需处理超级计算机和定制ASIC时通常需要的高度专业技能。Google为TensorFlow提供了几种高级API,组织可以立即使用它们。
Google还向开源发布了一组模型实现,公司可以将其用作构建利用新Cloud TPU的程序的参考。这些参考模型包括用于图像分类的模型,例如ResNet-50和Densenet,一种用于对象检测(称为RetinaNet),一种用于语言建模和机器翻译。
“云TPU还可简化对[机器学习]计算资源的规划和管理,” Barrus和Stone说道。云托管,紧密集成的机器学习计算集群消除了组织在其内部维护一个集群的需要。对于组织内部开发,部署和维护而言,这样的基础架构可能会非常昂贵。
Google产品经理指出,由云托管的基础架构还使企业能够在需要时扩展其需求,并在不再需要时将其缩减。