OpenAI藏了1年多的技術正式公開！15秒素材克隆聲音，HeyGen也在用

OpenAI 雪藏的新産品——語音合成引擎 Voice Engine，終于被正式揭幕。

有了它，隻需 15 秒的語音樣本，就能克隆出一個人的聲音，而且還能跨越語言！

APP 版ChatGPT 中的語音對話功能，也正是由這項技術所驅動。

效果如何？先來聽段 DEMO：

Salt also makes sure we stay hydrated which means there is enough water in our body for it to properly function.

鹽分也可以保持人體内的水分，确保其滿足正常功能的需要。

而 OpenAI 通告顯示，他們在 2022 年底就已經開發出了這項技術，但出于安全考慮一直沒有正式發布。

這次，OpenAI 終于官宣了 Voice Engine，并展示了小規模測試中的幾個應用案例。

比如，一家非營利醫療機構就利用這項技術，爲一名年輕的病人恢複了她的聲音。

另外值得一提的是，去年爆火的視頻翻譯軟件 HeyGen，采用的語音引擎也正是 Voice Engine。

那麽，這次 OpenAI 還展現了哪些效果，下面就來一睹爲快。

用 AI 幫助病患恢複聲音

首先是利用基礎的語音合成能力，爲兒童等不具備文字閱讀能力的群體提供閱讀輔助。

比如一家兒童教育技術公司，就一直在使用 Voice Engine 來給編寫好的畫外音内容配音。

DEMO 中生成的大段内容，都是基于這樣一段 15 秒的樣本：

然後，就可以合成相同音色的長段語音：

再來看看 HeyGen 中用到的的語音翻譯技術，原始素材是一段英語的音頻：

它被用原始的音色，翻譯成了普通話、法語、德語等多種語言。

忽略譯文的質量，隻聽聲音，中文的效果是這樣的：

音色保持的還算不錯，不過腔調很明顯一聽就是外國人在說中文。

至于這到底是個 bug 還是個 feature，就見仁見智了（手動狗頭）。

此外，一款名爲 Livox 的殘障人士輔助應用，也利用 Voice Engine 爲不能說話的殘障人士 " 發出聲音 " ——

在有了 Voice Engine 之後，TA 們可以選擇專屬的真人音色，而不再是機械感明顯的合成音，并且在各種語言之間都能保持音色的一緻性。

不隻是幫助殘障人士擁有自己的聲音，Voice Engine 還可以爲因疾病導緻聲音發生在重大改變的人群，恢複患病之前聲音，隻要有以前的聲音樣本就能實現。

一名年輕的患者因罹患血管性腦腫瘤，失去了流利講話的能力，說話變成了這樣：

醫生從她所在學校錄制的視頻中提取到了她患病前的聲音作爲樣本，在 Voice Engine 的幫助下爲她恢複了此前的音色。

此次發布的案例，特别是爲不便人士提供幫助的場景受到了不少好評，但也有網友對這項技術的濫用表達了擔憂。

安全問題需要全社會共同關注

實際上，安全問題也是 OpenAI 遲遲未将這項技術公之于衆的主要考量。

出于安全考慮，前面案例的開發者都經過了 OpenAI 的嚴格篩選，并且需要承諾遵守使用協議。

這些開發者被要求必須明确說明聲音是合成的，并且設定了黑名單以防止克隆公衆人物聲音。

此外，OpenAI 還向合成的聲音中添加了水印，以便出現問題時可以進行檢測監控，同時呼籲人們采取措施共同應對這一問題：

在銀行等敏感信息的安全驗證措施中逐步淘汰語音驗證方式

探索 AI 時代下個人聲音的保護措施

教育公衆理解 AI 的局限性，并了解其被用于欺詐的可能

加速開發跟蹤溯源技術，讓人們能夠清晰辨别出真人和 AI

參考鏈接：

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices