(JY编译)Alphabet公司旗下的谷歌周二(4日)公布了其用于训练人工智能模型的超级计算机的新细节,称这些系统比英伟达(Nvidia)的同类系统更快、更省电。
谷歌已经设计了自己的定制芯片,称为张量处理单元,或称TPU(Tensor Processing Unit)。该公司90%以上的人工智能培训工作都使用这些芯片,即通过模型输入数据,使其在用类似人类的文字回复查询或生成图像等任务中发挥作用。
谷歌的TPU现在已经是第四代了。谷歌周二发表了一篇科学论文,详细介绍了它如何利用自己定制开发的光学开关,将4000多个芯片串联成一台超级计算机,以帮助连接各个机器。
改善这些连接已经成为建造人工智能超级计算机的公司之间竞争的一个关键点,因为为谷歌的Bard或OpenAI的ChatGPT等技术提供动力的所谓大型语言模型的规模已经爆炸性增长,这意味着它们远远无法存储在单个芯片上。
这些模型必须被分割到数以千计的芯片上,然后这些芯片必须共同工作数周或更长时间来训练模型。谷歌的PaLM模型,是迄今为止其公开披露的最大的语言模型,是通过将其分割到4,000个芯片的两台超级计算机上,历时50天进行训练的。
谷歌表示,其超级计算机可以很容易地在运行中重新配置芯片之间的连接,帮助避免问题和调整以提高性能。
谷歌研究员诺姆·乔皮(Norm Jouppi)和谷歌杰出工程师大卫·帕特森(David Patterson)在一篇关于该系统的博文中写道︰「电路切换使我们很容易绕过故障的组件。这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速ML(机器学习)模型的性能。」
虽然谷歌现在才公布其超级计算机的细节,但自2020年以来已经在公司内部位于俄克拉荷马州梅耶斯县的一个数据中心上线。谷歌表示,初创公司Midjourney使用该系统来训练其模型,该系统在被输入几句话的文本后会生成新鲜的图像。
谷歌在论文中说,对于同等规模的系统,其芯片比基于英伟达A100芯片的系统快1.7倍,省电1.9倍,英伟达芯片与第四代TPU同时上市。
英伟达的一位发言人拒绝发表评论。
谷歌表示,它没有将其第四代产品与英伟达目前的旗舰产品H100芯片进行比较,因为H100是在谷歌的芯片之后上市的,而且是用更新的技术制造的。
谷歌暗示它可能正在开发一种新的TPU,与英伟达H100竞争,但没有提供细节,乔皮告诉《路透社》,谷歌有「一个健康的未来芯片渠道」。
Photo by Pawel Czerwinski on unsplash