全球首個！英偉達發布了一把用于“聲音的瑞士軍刀”

快科技 11 月 26 日訊，英偉達近日展示了其最新研發的人工智能模型—— Fugatto。

Fugatto 是一款基于生成式 Transformer 架構的人工智能模型，其完整版配備了 25 億個參數，并在由 32 個 NVIDIA H100 Tensor Core GPU 組成的 NVIDIA DGX 系統上進行了訓練。

這款模型的主要功能在于能夠修改和生成聲音效果，專爲音樂、電影和視頻遊戲制作人設計，英偉達将其形象地稱爲 " 聲音的瑞士軍刀 "。

據 NVIDIA 應用音頻研究經理 Rafael Valle 透露，Fugatto 的研發初衷是創建一個能夠像人類一樣理解和生成聲音的模型。

它支持多種音頻生成和轉換任務，是首個展示緊急屬性的基礎生成式 AI 模型，這得益于其各種訓練能力的交互以及組合自由格式指令的能力。

Fugatto 的功能十分強大，能夠根據文本描述生成音效和音樂，例如将鋼琴演奏轉換成人聲歌唱，或改變錄音的口音和情緒。

對于音樂制作人而言，Fugatto 可以幫助他們快速制作原型或編輯歌曲創意，嘗試不同的風格、聲音和樂器，同時添加效果并提高現有軌道的整體音頻質量。

廣告代理商則可以利用 Fugatto 快速定位多個地區或情況的現有廣告活動，将不同的口音和情感應用于畫外音。

視頻遊戲開發人員則可以使用該模型修改遊戲中預先錄制的素材，或根據文本說明和可選的音頻輸入動态創建新素材。

另外，Fugatto 的新穎性主要體現在以下方面：

首先，在推理過程中，該模型采用了稱爲 ComposableART 的技術，能夠組合在訓練期間隻能單獨看到的指令。

例如，通過組合提示，可以要求模型以法國口音說出帶有悲傷情緒的文本。

此外，該模型在指令之間進行插值的能力使用戶能夠對文本指令進行精細控制，如重音的沉重程度或悲傷的程度。

其次，Fugatto 還能夠生成随時間變化的聲音，NVIDIA 将這一功能稱爲時間插值。

例如，它可以模拟暴雨穿過區域的聲音，雷聲逐漸增強，然後慢慢消失在遠處。這一功能使用戶能夠精細地控制音景的演變方式。

最後，與大多數隻能重現所接觸的訓練數據的模型不同，Fugatto 允許用戶創建以前從未見過的音景。

例如，它可以模拟雷雨随着鳥兒的歌聲緩和爲黎明的場景。

總而言之，Fugatto 憑借其功能多樣性和創新性，在音頻領域具有廣闊的發展空間。