谷歌稱其AI超級計算機比英偉達A100芯片更快更省電

（JY編譯）Alphabet公司旗下的谷歌週二（4日）公佈了其用於訓練人工智能模型的超級計算機的新細節，稱這些系統比英偉達（Nvidia）的同類系統更快、更省電。

谷歌已經設計了自己的定制芯片，稱為張量處理單元，或稱TPU（Tensor Processing Unit）。該公司90%以上的人工智能培訓工作都使用這些芯片，即通過模型輸入數據，使其在用類似人類的文字回複查詢或生成圖像等任務中發揮作用。

谷歌的TPU現在已經是第四代了。谷歌週二發表了一篇科學論文，詳細介紹了它如何利用自己定制開發的光學開關，將4000多個芯片串聯成一台超級計算機，以幫助連接各個機器。

改善這些連接已經成為建造人工智能超級計算機的公司之間競爭的一個關鍵點，因為為谷歌的Bard或OpenAI的ChatGPT等技術提供動力的所謂大型語言模型的規模已經爆炸性增長，這意味著它們遠遠無法存儲在單個芯片上。

這些模型必須被分割到數以千計的芯片上，然後這些芯片必須共同工作數週或更長時間來訓練模型。谷歌的PaLM模型，是迄今為止其公開披露的最大的語言模型，是通過將其分割到4,000個芯片的兩台超級計算機上，歷時50天進行訓練的。

谷歌表示，其超級計算機可以很容易地在運行中重新配置芯片之間的連接，幫助避免問題和調整以提高性能。

谷歌研究員諾姆·喬皮（Norm Jouppi）和谷歌傑出工程師大衛·帕特森（David Patterson）在一篇關於該系統的博文中寫道︰「電路切換使我們很容易繞過故障的組件。這種靈活性甚至允許我們改變超級計算機互連的拓撲結構，以加速ML（機器學習）模型的性能。」

雖然谷歌現在才公佈其超級計算機的細節，但自2020年以來已經在公司內部位於俄克拉荷馬州梅耶斯縣的一個數據中心上線。谷歌表示，初創公司Midjourney使用該系統來訓練其模型，該系統在被輸入幾句話的文本後會生成新鮮的圖像。

谷歌在論文中說，對於同等規模的系統，其芯片比基於英偉達A100芯片的系統快1.7倍，省電1.9倍，英偉達芯片與第四代TPU同時上市。

英偉達的一位發言人拒絕發表評論。

谷歌表示，它沒有將其第四代產品與英偉達目前的旗艦產品H100芯片進行比較，因為H100是在谷歌的芯片之後上市的，而且是用更新的技術製造的。

谷歌暗示它可能正在開發一種新的TPU，與英偉達H100競爭，但沒有提供細節，喬皮告訴《路透社》，谷歌有「一個健康的未來芯片渠道」。

Photo by Pawel Czerwinski on unsplash