ChatGPT 掀起 AIGC 浪潮後,關于它的影響,成爲了行業内外最爲熱議的話題之一。
宏觀的觀點已不勝枚舉:改變世界、AI 的 iPhone 時刻……
但如果回歸到技術本質,它到底會帶來哪些變革?
我們認爲,它會改變信息分發獲取的模式。革新内容生産模式,變革人機交互模式,同時也會促進多個産業的升級。
這是科大訊飛 AI 研究院常務副院長高建清,在首屆中國 AIGC 産業峰會上給出的答案。
作爲國産 AI 的中堅力量,在這股最新趨勢下,科大訊飛始終被寄予厚望。
尤其在 2 月初,他們率先給出類 ChatGPT 技術與産品跟進情況及定檔時間,更是把行業内外的期待值拉滿了。
具體如何?還得 5 月 6 日見分曉。
但提前劇透已經來了。
在首屆中國 AIGC 峰會現場,在語音識别、語音合成、自然語言理解等領域擁有深厚積累和成果的科大訊飛 AI 研究院常務副院長高建清,分享了科大訊飛對于 AIGC 趨勢的理解、技術進展、産品應用,以及認知智能大模型相關思考等内容。
爲了完整體現他的思考,在不改變原意的基礎上,量子位對其演講内容進行了編輯整理,以飨讀者。
中國 AIGC 産業峰會是由量子位主辦的行業峰會,近 20 位産業代表與會讨論。線下參與觀衆 600+,線上收看觀衆近 300 萬,得到了包括 CCTV2、BTV 等在内的數十家媒體的廣泛報道關注。
演講要點
" 底座 + 能力 + 應用 " 是科大訊飛 AIGC 整體布局的三層架構。
語音合成将會向着交互更加拟人化、情感化、口語化的方向發展,并且要控制好音色、音律、口音等語義信息。
ChatGPT 引發的創新,讓 AI 在邏輯推理、多角色、多風格文本生成上都有了巨大進步。
大模型會改變信息分發獲取的模式,并給内容生産模式、人機交互帶來變革。
以下爲高建清演講全文:
音頻創作也會向大模型方向發展
非常榮幸能有這樣的機會和大家分享科大訊飛在 AIGC 方面的技術探索與應用創新方面的一些進展。
如下是科大訊飛在整個 AIGC 領域的布局情況。
科大訊飛在 AIGC 的三大模塊:音頻創作、視覺創作和文本創作,都有一些自己的理解和進展。
在音頻創作方面,訊飛是一家以語音起家的公司,我們在音頻創作方面有語音合成的全棧能力;在視覺創作方面,積累了以虛拟人爲核心的完整視頻創作能力;在文本生成方面,訊飛這些年主要圍繞行業應用做了很多工作。
今天将主要圍繞這三個方面展開介紹。
首先看一下音頻創作。
在這一領域,我們認爲最重要的技術之一是語音合成。
現階段,播報式的語音合成已經接近或達到真人水平,接下來的發展趨勢是什麽?
我們認爲,首要的發展趨勢是如何在交互領域實現更好的拟人化、情感化以及口語化,總之讓它更像真人。
另外,在内容生産領域,如何更好控制音色、音律、口音等語音裏最重要的語義信息,也是一個重要的發展方向。
這兩年我們也在這些領域有了一些進展。
首先是虛拟聲音自動創作方面。
語音合成裏,和聲音相關的兩個最主要元素:
第一是音色
第二是韻律信息
我們對這兩部分進行顯示建模,這樣當你給系統輸入一個人設時,比如青年甜美的女聲,就可以生成對應的音色。
目前我們通過這一技術已經虛拟生成了 500 個聲音,并在訊飛開放平台上開放。在滿分爲 5.0MOS 分的情況下,我們生成的聲音超過 4.0MOS 分,已經達到了可用的階段,有了這種虛拟生成聲音的方式,大家可以選擇生成喜歡的一些聲音。
第二方面,怎樣向多情感、多風格方面拓展?
去年,科大訊飛發布了全新的語音合成系統,即多情感多風格SMART-TTS系統。
這是一個端到端的方案,輸入文本直接得到語音輸出。其中有三個關鍵模塊,第一是跨模态預訓練,第二是韻律預訓練,第三是聲學預訓練。三部分各司其職。
第一個模塊可以提高語音合成中韻律的自然度;第二個模塊是一個中間模塊;最後一個模塊可以提高聲音整體的音質。
通過這樣一個系統合成的聲音,和專業聲音演員錄音水平的差距0.05MOS,已經取得了非常好的進展。
MOS 是 Mean Opnion Score 的縮寫,譯爲平均意見得分,是音頻質量主觀評估方法的一種。在語音合成領域,常見的有自然度 MOS ( MOS of naturalness ) ,相似度 MOS ( MOS of similarity ) 。
在這個系統中,我們還拓展了多個風格。
以往大家熟悉的語音合成主要用于播報、交互等領域,現在我們可以支持紀錄片、遊戲解說、廣告直播等十多個領域。
同時,語音的情感能得到控制,SMART-TTS 提供 11 種情感,每個情感有 20 檔調節能力。我們發現,停頓、重音、語速等關鍵屬性對于聲音的表現力非常重要,這些也可以進行調節。我們也将這些能力開放給開發者,讓大家都能創造并得到想要的聲音。
下面是一個簡單的 demo,其中有各種不同風格的聲音。
還有通過聲音合成制作的二十四節氣紀錄片。
可以看到,近年來聲音合成已經不是傳統意義上的播報、機器風格,已經向多感情、更多場景去拓展。
接下來音頻創作會向什麽方向發展?
我們認爲有兩個大方向:
第一,大家今天談論最多的是大語言模型。在聲音領域,大語言模型也是一個重要方向,ChatGPT 給聲音創作領域帶了很多啓示。
如果我們用 Audio 大語言模型方案,有可能對語音合成中的一些關鍵因素,比如口音、韻律等特征,進行很好的控制。
另外就是聲音藝術。其實現在追求的不僅是聲音能夠表達意思,而是怎樣能從自然可懂到悅耳享受。比如在聲音中插入音效、環境音,會對整個語音合成的感受有很大改善。
5 月發布大模型新成果
接下來來看第二部分,即科大訊飛在視覺創作方面的一些進展。
在虛拟人多模态合成方面,科大訊飛從 2018 年首發多語種虛拟人口唇驅動,2021 年發布了 2D 真人捏臉系統。目前已經形成了 3D 虛拟口唇表情和動作的 AI 驅動到 AI 貫穿 3D 形象構建的全流程。
首先看一下虛拟人領域的關鍵技術——動作生成。
衆所周知肢體語言對虛拟人來說非常關鍵,業界傳統方法是采用動作庫。
要知道,動作生成和兩個因素有很大關系:
第一是語音發音中的韻律節奏
第二是動作意圖
針對這兩部分進行建模,能夠很好實現動作合成,訊飛研究院提出的語義驅動虛拟人動作技術,在虛拟人動作的拟人度和契合度方面,都較傳統方案有很大改善,從 2.63 分提升到 3.75 分左右。
第二個方面也一樣,我們希望實現語音可控的半身數字人像生成。
通過文本語義約束的人像語義空間構建、基于擴散模型的人像語義向量生成兩個階段,輸入一個人設,就能動态生成下圖右邊這些圖像。這些圖像是半身數字人的形象。
最後一個虛拟人的關鍵因素就是3D 虛拟人的動态生成。
近兩年科大訊飛研究院打造了個性化 3D 虛拟人複刻系統,實現了基于一張圖片、一段語音就能驅動 3D 虛拟人,同時還支持 3D 虛拟人發型、眼睛、嘴型進行動态二次編輯。
在這些虛拟人技術的基礎上,我們在産品方面也有一些探索。
訊飛音樂發布了 AI 虛拟歌手 Luya,通過上述所說的音色創作技術,給這個虛拟歌手賦予了一定聲音的能力。通過 AI 變聲以及歌曲合成,現在 TA 已經發布了十多首歌曲,其中一些歌曲也得到了大衆的喜愛。
那麽問題來了,虛拟人未來的發展趨勢是什麽?
首先我們認爲,現在虛拟人制作過程中還有很多人工環節,如果把 AI 能力融合進去的話,全流程加入 AI 會解決很多問題。
另外 AIGC 這一兩年的發展速度非常迅猛,從文本到聲音到圖像,這些全棧能力的集合,讓我們覺得可以形成以虛拟人爲中心的全棧視覺生成能力。
接下來,再看一下科大訊飛在 AIGC 方面産品創新的一些探索。
首先是我們推出了訊飛智作 APP,這個 APP 結合了以上很多 AIGC 能力,希望能夠打造一個音視頻内容的 AI 創作基地,這裏有一個簡單的 demo:
第二個是訊飛音樂的詞曲家平台。
通過 AI 的輔助作詞作曲,可以幫助創作者提高生産力。通過歌曲試音及質量分析,能夠使采買人和音樂人之間的溝通變得更加順暢。
最後再簡單介紹一下科大訊飛在文本生成方面的思考。
關于文本生成,我們在教育、醫療等行業應用上做了很多工作。過往的一些進展今天不做過多贅述,主要分享一下我們在大模型基礎能力上的一些理解和布局。
首先,ChatGPT 基于所謂大語言模型,正是因爲模型數據量巨大,使得它對信息記憶非常完整。
第二個是它範式上的最大變化,是将以往 NLP 裏面每一個任務進行單獨建模,ChatGPT 是典型多任務的對話式理解的建模,正是因爲它對多任務同時建模,使得模型在底層的語義理解能力極大增強;
另外,它采用學習的方法,能夠将人類反饋非常好地融入到模型中。
正是這幾方面創新,讓 AI 在邏輯推理、多角色、多風格文本生成等方面都有了很大進步。
同時,大模型也會給産業帶來非常大變革。
我們認爲它會改變信息分發、獲取模式,首先會給搜索引擎帶來非常大的影響,其次也會給内容生産模式帶來革新;第三對于人機交互會産生一個大變革。
在這個趨勢下,科大訊飛在大模型方面也在開展一些工作。主要會基于我們對自身所在領域的理解,包括場景、數據、場景中的行爲等方面,以及在教育、醫療、人機交互、辦公這些方向。
之前訊飛研究院也在認知智能大模型上有一定積累和探索,5 月 6 日我們也将有新的發布,敬請大家期待!