作者 | 周愚
編輯 | 鄧詠儀
美國時間 6 月 16 日,Meta 正式發布語音生成模型 Voicebox。據官網介紹,通過非自回歸 " 流匹配 "(Flow Matching)技術,研究人員無需手動标記不同數據,即可利用長達 5 萬小時的語言和有聲書文本訓練 Voicebox。Voicebox 生成語音的速度,可到達目前最先進的自回歸模型的約 20 倍。
不同于過去的語音 AI 模型一般隻有單一用途,Voicebox 基于同一通用模型,即可實現基于文本的語音生成、語音編輯和降噪、跨語言轉換、多風格語言采樣等功能。
在英語文本到文字的轉換過程中,Voicebox 的平均單詞錯誤率與音頻相似度 ( 相較于真實語音)分别爲 1.9% 和 0.681,而目前最先進的英語模型 Vall-E,則分别爲 5.9% 和 0.580。
此外,Voicebox 還支持合成包括英語、法語、西班牙語、德語、波蘭語和葡萄牙語等六種語言的語音。在跨語言轉換的表現上,Voicebox 同樣優于該領域領先的 YourTTS,平均單詞錯誤率從 10.9% 降低到了 5.2%,音頻相似度則從 0.335 提高到了 0.481。
Voicebox 與其他語音生成模型單詞錯誤率對比。來源:Meta
Voicebox 與其他語音生成模型音頻相似度對比。來源:Meta
在訓練過程中,Voicebox 會得到一個音頻樣本和相應的文本,然後部分音頻将被屏蔽,該模型需要根據前後音頻和給定的文本,生成被屏蔽的音頻片段。
經過這種訓練的模型可以直接或在少量微調後,适用于許多任務。以降噪和語音錯誤修改爲例,Voicebox 在實現這兩項看似不同的功能時,均是首先屏蔽出現噪音或錯誤的部分,然後基于前後已有的音頻和原文本或修改後的文本,重新生成該部分語音。
這也是 Meta 研發 Voicebox 的主要目标。在一篇披露 Voicebox 技術細節的論文中,Meta 研究人員寫道:" 研究目标是建立一個單一模型,通過上下文學習來執行多種基于文本的語音生成任務。"
Voicebox 通過前後音頻學習生成語音。來源:Meta
Voicebox 并非是爲特定應用程序訓練的生成模型,因此還可以執行許多未經過訓練的其他任務。
輸入長度僅爲兩秒的音頻樣本,Voicebox 就可以獲得相應的音頻樣式。而後,使用者隻需輸入文本就可以生成語音。Meta 表示,這項功能可爲語言功能障礙人士提供語音,或爲 NPC 和虛拟助手定制聲音。
同時,Voicebox 跨語言轉換的功能也可以幫助不同語言的人們進行順暢的交流。基于六種語言的語音樣本和給出的文本,使用者在 Voicebox 的幫助下便可以輕松生成目标語言的語音。
Voicebox 還可以将其生成的語音用于模型訓練。Meta 的研究結果表明,與真實語音訓練出的模型相比,使用 Voicebox 生成的語音訓練出的語音識别模型表現幾乎一樣好。
Voicebox 與其他主流語音生成模型功能對比。來源:Meta
盡管 Meta 研究團隊已經發布了披露技術細節的相關論文,但 Meta 并沒有公開 Voicebox 的模型或代碼,認爲 " 需要在開放和責任之間找到适當的平衡 "。
Meta 在社交平台上公開表示:" 與其他強大的人工智能創新技術一樣,我們認爲這項技術也可能會被濫用,造成意外傷害。"