财聯社 4 月 5 日訊(編輯 周子意)當地時間周二(4 月 4 日),谷歌公布了其用于訓練人工智能(AI)模型的超級計算機的最新細節。該公司稱,這些系統比英偉達公司的同期系統更快、更節能。
目前,谷歌公司 90% 以上的 AI 訓練工作都是通過谷歌自主研制的 TPU 芯片(Tensor Processing Unit)完成的。其 AI 訓練的過程是:通過給模型輸入數據,使其能夠用類似人類的文本回應、并具備生成圖像等功能。
現谷歌 TPU 芯片已經出到第四代(TPU v4)了。谷歌公司周二發布的一篇論文詳細闡述了,該公司是如何利用自己定制的光開關将 4000 多個芯片組合到一台超級計算機中,從而幫助連接一台台獨立機器。
改善芯片間的連接
随着 OpenAI 的 ChatGPT、谷歌的 Bard 等 AI 聊天機器人的競争愈演愈烈,改善芯片間的連接已成爲開發 AI 超算的科技公司的一個關鍵競争點。
由于 ChatGPT、Bard 等産品背後使用的大型語言模型的規模太龐大了,無法存儲在單一芯片上。所以,這些模型必須分散在數千個芯片上,然後這些芯片必須同時工作,花費數周或更長時間來訓練語言模型。
谷歌的 PaLM 是該公司迄今爲止公開披露的最大的語言模型。其訓練方式是:通過将其分配到兩台各包含 4000 個芯片的超級計算機中,曆時 50 天進行訓練。
谷歌周二稱,其超級計算機可以很輕松地在運行過程中重新配置芯片之間的連接,有助于避免問題并調整性能。
該公司的研究員 Norm Jouppi 和工程師 David Patterson 在上述論文中寫道," 電路切換可以很容易地繞過故障組件…這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速機器學習模型的性能。"
研發新版本
雖然谷歌直到現在才披露關于其超級計算機的詳細信息,不過事實上,自 2020 年以來,該系統已經在公司内部上線,應用于該公司位于俄克拉荷馬州的一個數據中心。
據悉,初創公司 Midjourney 使用該系統來訓練其模型,在輸入幾句文字後,模型就會生成新的圖像。
谷歌在論文中還寫道,相比于與 TPU v4 同時發布的英偉達 A100 芯片,其芯片速度高達 A100 的 1.7 倍,能耗效率是 A100 的 1.9 倍。
不過谷歌也承認,并沒有将 TPU v4 與英偉達目前的 H100 芯片進行比較。給出的理由是:H100 上市時間晚于谷歌芯片,并且采用了更新的技術。
此外,谷歌還暗示,正在研發一種新版本 TPU,以期與英偉達 H100 芯片競争,但沒有提供細節。