文 | 劉士武(36 氪遊戲)
10 月 24 日,趣丸科技宣布與香港中文大學(深圳)聯合研發的語音大模型「MaskGCT」正式在 Amphion 系統中開源,面向全球用戶開放使用。區别于傳統 TTS 模型,MaskGCT 采用掩碼生成模型與語音表征解耦編碼技術,在聲音克隆、跨語種合成、語音控制等任務環節中能夠快速落地。
測試結果(來源:MaskGCT)
據了解,相較于現有的 TTS 大模型,MaskGCT 在語音的相似度、質量和穩定性上進一步突破,在三個 TTS 基準數據集上都達到了 SOTA 效果。其顯著特點如下:
秒級超逼真的聲音克隆:提供 3 秒音頻樣本即可複刻人類、動漫、" 耳邊細語 " 等任意音色,且能完整複刻語調、風格和情感。
更精細可控的語音生成:可靈活調整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的高度一緻。
高質量多語種語音數據集:訓練于香港中文大學(深圳)和趣丸科技等機構聯合推出的 10 萬小時數據集 Emilia,是全球最大且最爲多樣的高質量多語種語音數據集之一,實現中英日韓法德 6 種語言的跨語種合成。
MaskGCT 的研發工作由港中大(深圳)、趣丸科技人工智能聯合實驗室成員完成。作爲一個大規模的零樣本 TTS 模型,MaskGCT 采用非自回歸掩碼生成 Transformer,無需文本與語音的對齊監督和音素級持續時間預測,其技術突破性在于采用掩碼生成模型與語音表征解耦編碼的創新範式。
MaskGCT 大模型翻譯《黑神話:悟空》動畫片段(視頻來源:趣丸千音)
根據官方實驗表明,MaskGCT 在語音質量、相似度和可理解性方面優于當前絕大部分的 TTS 模型,并且在模型規模和訓練數據量增加時表現更佳,同時能夠控制生成語音的總時長。
MaskGCT 已在香港中文大學(深圳)與上海人工智能實驗室聯合開發的開源系統 Amphion 發布
值得一提的是,MaskGCT 是一個兩階段模型。在第一階段,模型使用文本預測從語音自監督學習(SSL)模型中提取的語義标記;在第二階段,模型基于這些語義标記預測聲學标記(遵循掩碼預測學習範式)。
在訓練過程中,MaskGCT 學習根據給定的條件和提示預測掩碼的語義或聲學标記。在推理過程中,模型以并行方式生成指定長度的标記。通過對 10 萬小時的自然語音進行實驗,結果表明 MaskGCT 在質量、相似度和可理解性方面優于其他現有的零樣本 TTS 系統。
目前,MaskGCT 在短劇出海、數字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。爲了加快落地應用,在安全合規的前提下,趣丸科技開發了多語種速譯智能視聽平台 " 趣丸千音 ",可實現一鍵上傳視頻即可快速翻譯成多語種版本,并包含字幕修複與翻譯、語音翻譯、唇音同步等功能,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成爲影視、遊戲、短劇等内容出海的新選擇。
視頻來源:趣丸千音
《2024 年短劇出海白皮書》顯示,2023 年海外市場規模高達 650 億美元,約爲國内市場的 12 倍,短劇出海正成爲藍海新賽道。基于 MaskGCT 的趣丸千音,有機會幫助國産短劇以更低成本、更快捷的方式 " 走出去 ",提升中國文化内容的出海效率。