科大訊飛高建清：「底座+能力+應用」是科大訊飛AIGC整體布局的三層架構

ChatGPT 掀起 AIGC 浪潮後，關于它的影響，成爲了行業内外最爲熱議的話題之一。

宏觀的觀點已不勝枚舉：改變世界、AI 的 iPhone 時刻……

但如果回歸到技術本質，它到底會帶來哪些變革？

我們認爲，它會改變信息分發獲取的模式。革新内容生産模式，變革人機交互模式，同時也會促進多個産業的升級。

這是科大訊飛 AI 研究院常務副院長高建清，在首屆中國 AIGC 産業峰會上給出的答案。

作爲國産 AI 的中堅力量，在這股最新趨勢下，科大訊飛始終被寄予厚望。

尤其在 2 月初，他們率先給出類 ChatGPT 技術與産品跟進情況及定檔時間，更是把行業内外的期待值拉滿了。

具體如何？還得 5 月 6 日見分曉。

但提前劇透已經來了。

在首屆中國 AIGC 峰會現場，在語音識别、語音合成、自然語言理解等領域擁有深厚積累和成果的科大訊飛 AI 研究院常務副院長高建清，分享了科大訊飛對于 AIGC 趨勢的理解、技術進展、産品應用，以及認知智能大模型相關思考等内容。

爲了完整體現他的思考，在不改變原意的基礎上，量子位對其演講内容進行了編輯整理，以飨讀者。

中國 AIGC 産業峰會是由量子位主辦的行業峰會，近 20 位産業代表與會讨論。線下參與觀衆 600+，線上收看觀衆近 300 萬，得到了包括 CCTV2、BTV 等在内的數十家媒體的廣泛報道關注。

演講要點

" 底座 + 能力 + 應用 " 是科大訊飛 AIGC 整體布局的三層架構。

語音合成将會向着交互更加拟人化、情感化、口語化的方向發展，并且要控制好音色、音律、口音等語義信息。

ChatGPT 引發的創新，讓 AI 在邏輯推理、多角色、多風格文本生成上都有了巨大進步。

大模型會改變信息分發獲取的模式，并給内容生産模式、人機交互帶來變革。

以下爲高建清演講全文：

音頻創作也會向大模型方向發展

非常榮幸能有這樣的機會和大家分享科大訊飛在 AIGC 方面的技術探索與應用創新方面的一些進展。

如下是科大訊飛在整個 AIGC 領域的布局情況。

科大訊飛在 AIGC 的三大模塊：音頻創作、視覺創作和文本創作，都有一些自己的理解和進展。

在音頻創作方面，訊飛是一家以語音起家的公司，我們在音頻創作方面有語音合成的全棧能力；在視覺創作方面，積累了以虛拟人爲核心的完整視頻創作能力；在文本生成方面，訊飛這些年主要圍繞行業應用做了很多工作。

今天将主要圍繞這三個方面展開介紹。

首先看一下音頻創作。

在這一領域，我們認爲最重要的技術之一是語音合成。

現階段，播報式的語音合成已經接近或達到真人水平，接下來的發展趨勢是什麽？

我們認爲，首要的發展趨勢是如何在交互領域實現更好的拟人化、情感化以及口語化，總之讓它更像真人。

另外，在内容生産領域，如何更好控制音色、音律、口音等語音裏最重要的語義信息，也是一個重要的發展方向。

這兩年我們也在這些領域有了一些進展。

首先是虛拟聲音自動創作方面。

語音合成裏，和聲音相關的兩個最主要元素：

第一是音色

第二是韻律信息

我們對這兩部分進行顯示建模，這樣當你給系統輸入一個人設時，比如青年甜美的女聲，就可以生成對應的音色。

目前我們通過這一技術已經虛拟生成了 500 個聲音，并在訊飛開放平台上開放。在滿分爲 5.0MOS 分的情況下，我們生成的聲音超過 4.0MOS 分，已經達到了可用的階段，有了這種虛拟生成聲音的方式，大家可以選擇生成喜歡的一些聲音。

第二方面，怎樣向多情感、多風格方面拓展？

去年，科大訊飛發布了全新的語音合成系統，即多情感多風格SMART-TTS系統。

這是一個端到端的方案，輸入文本直接得到語音輸出。其中有三個關鍵模塊，第一是跨模态預訓練，第二是韻律預訓練，第三是聲學預訓練。三部分各司其職。

第一個模塊可以提高語音合成中韻律的自然度；第二個模塊是一個中間模塊；最後一個模塊可以提高聲音整體的音質。

通過這樣一個系統合成的聲音，和專業聲音演員錄音水平的差距0.05MOS，已經取得了非常好的進展。

MOS 是 Mean Opnion Score 的縮寫，譯爲平均意見得分，是音頻質量主觀評估方法的一種。在語音合成領域，常見的有自然度 MOS ( MOS of naturalness ) ，相似度 MOS ( MOS of similarity ) 。

在這個系統中，我們還拓展了多個風格。

以往大家熟悉的語音合成主要用于播報、交互等領域，現在我們可以支持紀錄片、遊戲解說、廣告直播等十多個領域。

同時，語音的情感能得到控制，SMART-TTS 提供 11 種情感，每個情感有 20 檔調節能力。我們發現，停頓、重音、語速等關鍵屬性對于聲音的表現力非常重要，這些也可以進行調節。我們也将這些能力開放給開發者，讓大家都能創造并得到想要的聲音。

下面是一個簡單的 demo，其中有各種不同風格的聲音。

還有通過聲音合成制作的二十四節氣紀錄片。

可以看到，近年來聲音合成已經不是傳統意義上的播報、機器風格，已經向多感情、更多場景去拓展。

接下來音頻創作會向什麽方向發展？

我們認爲有兩個大方向：

第一，大家今天談論最多的是大語言模型。在聲音領域，大語言模型也是一個重要方向，ChatGPT 給聲音創作領域帶了很多啓示。

如果我們用 Audio 大語言模型方案，有可能對語音合成中的一些關鍵因素，比如口音、韻律等特征，進行很好的控制。

另外就是聲音藝術。其實現在追求的不僅是聲音能夠表達意思，而是怎樣能從自然可懂到悅耳享受。比如在聲音中插入音效、環境音，會對整個語音合成的感受有很大改善。

5 月發布大模型新成果

接下來來看第二部分，即科大訊飛在視覺創作方面的一些進展。

在虛拟人多模态合成方面，科大訊飛從 2018 年首發多語種虛拟人口唇驅動，2021 年發布了 2D 真人捏臉系統。目前已經形成了 3D 虛拟口唇表情和動作的 AI 驅動到 AI 貫穿 3D 形象構建的全流程。

首先看一下虛拟人領域的關鍵技術——動作生成。

衆所周知肢體語言對虛拟人來說非常關鍵，業界傳統方法是采用動作庫。

要知道，動作生成和兩個因素有很大關系：

第一是語音發音中的韻律節奏

第二是動作意圖

針對這兩部分進行建模，能夠很好實現動作合成，訊飛研究院提出的語義驅動虛拟人動作技術，在虛拟人動作的拟人度和契合度方面，都較傳統方案有很大改善，從 2.63 分提升到 3.75 分左右。

第二個方面也一樣，我們希望實現語音可控的半身數字人像生成。

通過文本語義約束的人像語義空間構建、基于擴散模型的人像語義向量生成兩個階段，輸入一個人設，就能動态生成下圖右邊這些圖像。這些圖像是半身數字人的形象。

最後一個虛拟人的關鍵因素就是3D 虛拟人的動态生成。

近兩年科大訊飛研究院打造了個性化 3D 虛拟人複刻系統，實現了基于一張圖片、一段語音就能驅動 3D 虛拟人，同時還支持 3D 虛拟人發型、眼睛、嘴型進行動态二次編輯。

在這些虛拟人技術的基礎上，我們在産品方面也有一些探索。

訊飛音樂發布了 AI 虛拟歌手 Luya，通過上述所說的音色創作技術，給這個虛拟歌手賦予了一定聲音的能力。通過 AI 變聲以及歌曲合成，現在 TA 已經發布了十多首歌曲，其中一些歌曲也得到了大衆的喜愛。

那麽問題來了，虛拟人未來的發展趨勢是什麽？

首先我們認爲，現在虛拟人制作過程中還有很多人工環節，如果把 AI 能力融合進去的話，全流程加入 AI 會解決很多問題。

另外 AIGC 這一兩年的發展速度非常迅猛，從文本到聲音到圖像，這些全棧能力的集合，讓我們覺得可以形成以虛拟人爲中心的全棧視覺生成能力。

接下來，再看一下科大訊飛在 AIGC 方面産品創新的一些探索。

首先是我們推出了訊飛智作 APP，這個 APP 結合了以上很多 AIGC 能力，希望能夠打造一個音視頻内容的 AI 創作基地，這裏有一個簡單的 demo：

第二個是訊飛音樂的詞曲家平台。

通過 AI 的輔助作詞作曲，可以幫助創作者提高生産力。通過歌曲試音及質量分析，能夠使采買人和音樂人之間的溝通變得更加順暢。

最後再簡單介紹一下科大訊飛在文本生成方面的思考。

關于文本生成，我們在教育、醫療等行業應用上做了很多工作。過往的一些進展今天不做過多贅述，主要分享一下我們在大模型基礎能力上的一些理解和布局。

首先，ChatGPT 基于所謂大語言模型，正是因爲模型數據量巨大，使得它對信息記憶非常完整。

第二個是它範式上的最大變化，是将以往 NLP 裏面每一個任務進行單獨建模，ChatGPT 是典型多任務的對話式理解的建模，正是因爲它對多任務同時建模，使得模型在底層的語義理解能力極大增強；

另外，它采用學習的方法，能夠将人類反饋非常好地融入到模型中。

正是這幾方面創新，讓 AI 在邏輯推理、多角色、多風格文本生成等方面都有了很大進步。

同時，大模型也會給産業帶來非常大變革。

我們認爲它會改變信息分發、獲取模式，首先會給搜索引擎帶來非常大的影響，其次也會給内容生産模式帶來革新；第三對于人機交互會産生一個大變革。

在這個趨勢下，科大訊飛在大模型方面也在開展一些工作。主要會基于我們對自身所在領域的理解，包括場景、數據、場景中的行爲等方面，以及在教育、醫療、人機交互、辦公這些方向。

之前訊飛研究院也在認知智能大模型上有一定積累和探索，5 月 6 日我們也将有新的發布，敬請大家期待！