OpenAI 雪藏的新産品——語音合成引擎 Voice Engine,終于被正式揭幕。
有了它,隻需 15 秒的語音樣本,就能克隆出一個人的聲音,而且還能跨越語言!
APP 版ChatGPT 中的語音對話功能,也正是由這項技術所驅動。
效果如何?先來聽段 DEMO:
Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.
鹽分也可以保持人體内的水分,确保其滿足正常功能的需要。
而 OpenAI 通告顯示,他們在 2022 年底就已經開發出了這項技術,但出于安全考慮一直沒有正式發布。
這次,OpenAI 終于官宣了 Voice Engine,并展示了小規模測試中的幾個應用案例。
比如,一家非營利醫療機構就利用這項技術,爲一名年輕的病人恢複了她的聲音。
另外值得一提的是,去年爆火的視頻翻譯軟件 HeyGen,采用的語音引擎也正是 Voice Engine。
那麽,這次 OpenAI 還展現了哪些效果,下面就來一睹爲快。
用 AI 幫助病患恢複聲音
首先是利用基礎的語音合成能力,爲兒童等不具備文字閱讀能力的群體提供閱讀輔助。
比如一家兒童教育技術公司,就一直在使用 Voice Engine 來給編寫好的畫外音内容配音。
DEMO 中生成的大段内容,都是基于這樣一段 15 秒的樣本:
然後,就可以合成相同音色的長段語音:
再來看看 HeyGen 中用到的的語音翻譯技術,原始素材是一段英語的音頻:
它被用原始的音色,翻譯成了普通話、法語、德語等多種語言。
忽略譯文的質量,隻聽聲音,中文的效果是這樣的:
音色保持的還算不錯,不過腔調很明顯一聽就是外國人在說中文。
至于這到底是個 bug 還是個 feature,就見仁見智了(手動狗頭)。
此外,一款名爲 Livox 的殘障人士輔助應用,也利用 Voice Engine 爲不能說話的殘障人士 " 發出聲音 " ——
在有了 Voice Engine 之後,TA 們可以選擇專屬的真人音色,而不再是機械感明顯的合成音,并且在各種語言之間都能保持音色的一緻性。
不隻是幫助殘障人士擁有自己的聲音,Voice Engine 還可以爲因疾病導緻聲音發生在重大改變的人群,恢複患病之前聲音,隻要有以前的聲音樣本就能實現。
一名年輕的患者因罹患血管性腦腫瘤,失去了流利講話的能力,說話變成了這樣:
醫生從她所在學校錄制的視頻中提取到了她患病前的聲音作爲樣本,在 Voice Engine 的幫助下爲她恢複了此前的音色。
此次發布的案例,特别是爲不便人士提供幫助的場景受到了不少好評,但也有網友對這項技術的濫用表達了擔憂。
安全問題需要全社會共同關注
實際上,安全問題也是 OpenAI 遲遲未将這項技術公之于衆的主要考量。
出于安全考慮,前面案例的開發者都經過了 OpenAI 的嚴格篩選,并且需要承諾遵守使用協議。
這些開發者被要求必須明确說明聲音是合成的,并且設定了黑名單以防止克隆公衆人物聲音。
此外,OpenAI 還向合成的聲音中添加了水印,以便出現問題時可以進行檢測監控,同時呼籲人們采取措施共同應對這一問題:
在銀行等敏感信息的安全驗證措施中逐步淘汰語音驗證方式
探索 AI 時代下個人聲音的保護措施
教育公衆理解 AI 的局限性,并了解其被用于欺詐的可能
加速開發跟蹤溯源技術,讓人們能夠清晰辨别出真人和 AI
參考鏈接:
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices