小雷平時刷 B 站經常會看到有 UP 主發布 AI 模仿明星唱歌的視頻,音色音準至少有 6-7 成的相似度,甚至部分訓練到位的 AI 模型能複刻出與明星幾乎一緻的聲音。除了唱歌外,這種功能還被廣泛應用于不同角色的配音,一個被投喂了足夠數量和時長的高質素材的 AI 大模型,絕對能達到以假亂真的程度。
五音不全的小雷十分向往這項技術,但苦于本地訓練模型的繁雜,一直沒有下定決心去訓練自己的 AI 聲音。恰巧近期百度文心一言上線了定制智能體專屬聲音的新功能,官方宣稱用戶隻要花費幾秒就能完成設定。
如此省時省力就能訓練出自己的 AI 聲音?帶着疑惑,小雷嘗試着創建專屬自己的「AI 嘴替」。
打開文心一言 App,點擊下方「+」号,我們就進入到智能體的創建界面。在聲音選項欄中,我們能給智能體選擇聲音特性。在官方聲音根據方言、性别、音色以及角色進行分類,提供了 32 種不同的聲音。但我們目标明确,還是來體驗下創建自己的聲音這一功能。
圖源:雷科技制作,文心一言頁面
點擊「創建我的聲音」,用戶需要用自然的語氣朗讀系統給出的文字,讓系統識别音色音準。經實測,識别過程僅需 2-3 秒,小雷的「AI 嘴替」就正式創建成功。值得注意的是,系統在錄制前會對環境音進行短暫的識别,确認噪聲符合錄制要求後,才正式進入錄制環節。
不僅如此,我們還能對智能體的性格特征、口頭禅、個人經曆、親友關系、興趣愛好以及開場白,進行個性化定制,這些因素會影響智能體後續的交流表現。
圖源:雷科技制作,文心一言頁面
話不多說,我們來看看文心一言在短時間内創建的 AI 聲音究竟能不能讓人滿意。開啓聲音播報功能後,小雷試着讓智能體給我介紹雷科技的相關信息,先不說聲音,至少對雷科技的介紹還是比較全面的,除了公衆号 168 萬粉絲(已超過 170 萬)的數據有些過時外,其他描述大體一緻。
說回聲音,音色方面本人認爲至少能達到 8 成的相似度,尤其是情緒、語氣的表現,差點讓小雷以爲是自己在說話。或許是爲了讓用戶能更好的聽清楚智能體的表達,整體語速稍慢,想讓用戶耐心聽完全部回答可能會有些難度。
對比傳統的文字表達,智能體語音回答的拟人度更高,在回答中加入了比較多的語氣詞,更接近人們日常交流的表達習慣。驗收完聲音質量後,小雷決定還是回歸到自己對 AI 嘴替的本質要求——唱歌,十分可惜的是,目前文心一言創造的智能體暫時不支持該項功能。随後小雷換了個角度,讓智能體朗讀歌詞,這次倒是成功了,雖然朗讀運用的是本人音色,但從呈現效果距離音樂确實還差點意思。
後續,小雷圍繞聲音進行了朗誦、念詩等測試,效果大差不差。大家可以理解爲一個聲音狀态永遠穩定的自己,能讓他代替你完成許多基礎性的語言工作,但呈現效果與你錄制時的情感、風格和自然度有着極高的關聯性。因爲小雷并不是從事播音專業,因此 AI 聲音的效果算不上特别好,如果用戶能提供更高質量的語音素材,或許文心一言能給到更好的反饋。
總的來說,文心一言這項新功能确實給小雷帶來了驚喜,在傳統離線本地訓練的基礎上,通過文心大模型和語音合成大模型的大量語音訓練,讓 AI 聲音無論是生成效率,還是呈現效果都能讓人滿意,但其個人助理的定位讓其功能受到了一定限制,智能體無法提供類似唱歌等其他功能,用戶也無法進一步訓練 AI 聲音,讓 AI 聲音的表現效果更接近本人。
事實上,這是所有「快餐式創建 AI 聲音」的應用都會面臨的問題。同樣是個性化聲音定制服務,通義實驗室提供的服務則需要用戶錄制 20 句話,用于定制自己的 AI 聲音,整體效果與文心一言相差不大,效果上依舊存在瓶頸,關鍵原因正是輸入和訓練的素材不夠。
圖源:魔搭 ModelScope
大家日常聽到最多個性化定制聲音的場景,應該是語音導航、文字播報或者小說閱讀等方面。通常來說,從文本到聲音的技術要讓 AI 聲音達到合格标準,需要音源人在專業錄音棚錄制成百上千句的數據量,高規格的定制流程将絕大多數普通人對 AI 聲音的探索拒之門外。
而随着個性化語音合成(Personal TTS)技術的成熟,平台通過手機、電腦等常見錄音設備獲取目标的少量聲音片段後,就能快速構建出目标的語音合成系統。與傳統定制聲音技術相比,僅需少量數據量是個性化語音合成的最大優勢。
無論是文心一言,還是通義實驗室,他們都隻需要極少的數據量,就能給用戶提供個性化聲音定制服務,大大降低了語音合成的定制門檻,将 AI 聲音普及給普通用戶。但有得必有失,TTS 技術在降低聲音定制門檻的同時,也給這項功能的上限帶上了枷鎖。
根據魔搭 ModelScope 提供的産品邏輯圖,我們能看出 TTS 模型需要經過錄音檢測、數據處理、模型訓練、打包合成四個階段,最終形成我們的 AI 聲音。有限的數據投喂量讓 AI 聲音的語言邏輯、語音語調,更多依托于已經訓練完成模型數據,而用戶錄制的素材或許隻是更多作用在聲音表層,聲音靈魂仍是背後的大模型數據。
作爲參考,小雷又調查了本地訓練聲音模型的步驟。相比起文心一言、通義實驗室的便捷服務,本地訓練聲音模型的聲音效果上限要高得多,但需要付出的成本也是幾何倍的增加。
首先,用戶得準備一批高質量的幹聲音頻數據、一台具備一定性能的計算機、一個 AI 聲音開源項目,在經曆一系列數據處理、特征提取以及 N 輪訓練後,我們才能得到所需的 AI 聲音。
大家光看文字描述可能覺得也就那麽回事,實際上,光是音頻數據的收集就是一個大工程。這決定了 AI 聲音的音色、聲音特征。特别要注意的是,這裏的音頻數據指的是目标的幹聲,也就是要去除掉伴奏、雜音等一切背景聲,沒有專業設備的用戶可以通過軟件實現。
當然,如果大家嫌麻煩也可以去模型工坊網站下載已經訓練好的聲音模型,但肯定沒有還原自己聲音那麽有成就感就是了。
圖源:mxgf.cc
經過無上限的高強度訓練後,最終就能達到前段時間互聯網上比較流行的 AI 孫燕姿效果,并且用戶還能自由決定 AI 聲音進行朗讀或唱歌等多種情景表達,不再局限于單一的表達形式。
AI 對聲音的影響已經深入到各個領域,從文字轉語音,到音樂,我們見證了許多有趣的 AI 聲音應用。前段時間,小雷體驗了文生音頻的新星—— Suno,其高效高質的音樂生成方式令不少音樂人産生危機感。盡管現階段絕大多數的 AI 聲音類模型仍存在部分缺陷,但 AIGC 重構内容産業幾乎是必然。
AI 聲音與 AI 音樂一樣,是普通人的自我表達。AI 的作用更多是降低人們的創作門檻,令普通人也能實現幻想中的場景。目前諸多 AI 大模型還處于「孤島」的狀态,在雷科技看來,當單一的 AI 大模型發展到瓶頸階段,可能接下來就是不同類型大模型之間的有效聯動。
舉個簡單的例子,用戶通過 ChatGPT 生成想要的歌詞,由 Suno 将歌詞編制成曲并賦予音樂風格,最後将自己的 AI 聲音加入其中。當多個大模型建立連接,用戶要做的或許就是下達一個指令,就能創作出一首專屬自己的歌曲。
當然,目前 AI 大模型還是持續發展的階段。像文心一言、通義千問等國産大模型也在不斷叠代之中,此次小雷體驗的個性化聲音定制功能雖然在效率、質量方面已有不錯的表現,但在功能多樣性上還有巨大的進步空間。
或許在未來,文心一言的智能體可以突破助理定位,展現出不遜色于本地訓練大模型的表現效果,屆時 AI 聲音這一技術也能找到更多适用的場景,給用戶體驗以及音頻相關的行業帶來帶來翻天覆地的變化。