你看好數字人嗎?這個問題在今天似乎頗難回答。如果從宏觀趨勢上看,數字人的利好要素似乎已經達到了一個空前的高度。比如有市場分析機構預測,到 2026 年中國 AI 數字人的市場規模将突破 100 億人民今天Retired 要和大家分享的是數字人的生死疲勞,歡迎閱讀~
你看好數字人嗎?
這個問題在今天似乎頗難回答。如果從宏觀趨勢上看,數字人的利好要素似乎已經達到了一個空前的高度。比如有市場分析機構預測,到 2026 年中國 AI 數字人的市場規模将突破 100 億人民币,整體市場呈現高速增長态勢。又比如今年 7 月,北京發布了《北京市促進數字人産業創新發展行動計劃(2022-2025 年)》(以下簡稱《行動計劃》),這意味着數字人産業迎來了中國首個專項支持政策。《行動計劃》中甚至提到,到 2025 年北京市數字人産業規模突破 500 億元。
但如果我們從微觀上看,又會發現數字人的發展與應用并不是一帆風順的。今年雙 11,大量商家開始放棄使用數字人;很多企業、機構的數字人員工、虛拟偶像,在發布之後就杳無音訊;數字人解決方案報價太高、維護太貴的聲音不絕于耳;很多投入了大量宣發資源,被寄予厚望的數字人項目,極短時間内就喪失了流量。
如果說,數字人在 2020 年末到 2021 年,高速完成了從技術孵化到教育市場的創生期,那麼在目前階段,數字人則恰好處在從産業鍊搭建到大規模應用轉化的過渡期。這個階段,雖然整體市場依舊被看好。但從産業鍊到應用場景、接受情況中的一系列問題也暴露了出來。數字人市場,開始不能用簡單的 " 好 " 與 " 不好 " 來評判。
速生速死,極限拉扯的數字人,不免讓我們想起一本書——莫言的《生死疲勞》。
莫言說,人活着就是要疲勞。今天我們可以說,不光是人,數字人想要活着,也挺疲勞。
生于直播
讨論數字人的現狀,我們必須先達成一個共識:什麼是數字人?
一般來說,數字人是指具有拟人或者真人外貌、行為和特點的虛拟人物。這裡的重點在于,今天很多人已經默認數字人是具有 TTS 語音合成、多輪對話、語義理解技術特征,由 AI 驅動的虛拟形象。但在整個産業發展的實際脈絡來看,數字人長期以來都跟 AI 技術關系不大,或者隻使用了比較初級的 AI 技術,比如語音合成。
最早的數字人,基本都是以虛拟偶像等方式出現的。就像初音未來、洛天依等等,基本是由動畫設計 + 語音合成來實現。這時的數字人大多是作為展示,缺乏互動性,并且門檻很高,難以普及推廣。
接下來,随着直播行業的發展,大量由真人配音,搭配 TTS 語音合成、唇形表型預測來實現的數字人開始出現。這時的數字人主要作用依舊是虛拟主播,但更多類似真人主播的一種 " 新型表演 ",并不能從生産力上實現替代人類主播的作用。
當 NLP、知識圖譜技術不斷成熟,數字人具備了多輪對話能力。同時機器視覺帶來的唇形捕捉、面部捕捉技術愈發完善,由 AI 技術驅動的 AI 數字人開始出現。這時的數字人發生了最為深刻的一個變化:數字人可以獨立完成人物,人工配音和真人扮演不再成為必備。這讓數字人對齊了一個巨大的商業空間:在那些隻需要簡單對話、交互的工作中,由 AI 替代人類。
這樣的工作有很多,比如 AI 數字人最早出現在企業園區中的導航、導覽工作中。接下來,櫃台服務、智能客服等領域開始出現數字人。尤其在金融、保險等領域,由于顧客的需求相對固定,且數字人不易出現人為錯誤。在這些行業薪資水平相對較高的前提下,數字人客服展現出了一定優勢。
但與客服場景相比,真正讓數字人火起來的,依舊是直播。從虛拟偶像到虛拟主播,直播始終都是數字人的天然溫床,是數字人 " 生 " 的動力和希望。随着直播帶貨成為主流的電商消費形式,主播逐漸成了稀缺資源。很多廠商與品牌方,在近兩年選擇了全天候、多線路的高強度直播模式。而這就導緻主播的需求壓力激增。加上疫情導緻主播工作不确定性增加、主播坑位費與雇傭費等成本增大等因素,讓企業和 MCN 機構開始探索主播的替代方案。加上在目前的直播經濟中,很多品牌方的直播需求僅僅是不間斷宣講信息、推出産品,工作門檻并不高,用 AI 代替人類主播就成為可能。
早在 2021 年雙 11,我們可以看到各個電商平台、直播平台,以及 MCN 機構的宣傳重點,已經從直播帶貨能力,變成了虛拟主播、數字人的直播帶貨能力,以及綜合成本優勢。
另一方面,有問答互動能力,由 AI 驅動的數字人主播能夠激發用戶的獵奇感、新鮮感,因此直播市場普遍呈現正向反饋。這些反饋,支撐了今天大量關于數字人的政策支持與市場預判。
但生于直播,成于直播的數字人,有這樣一個先決條件:數字人的應用成本,必須要比人類主播更低。
這是因為,作為替代品出現的數字人,歸根結底問答能力、應變能力與才藝能力都不如人類主播。數字人 + 直播的興旺态勢,建立在大量企業與商品等待開播,但沒有主播可用的特殊需求上,從而導緻大量低成本開發、模闆換皮的數字人快速走上崗位。
随着主播需求開始發生調整,人類主播的成本降低,以及企業的直播需求逐漸放緩。數字人的市場利好也将逐步失效。而從另一個維度看,數字人本身的開發成本、制作成本卻在上漲,對比人類主播的成本優勢開始松動。
這是因為,數字人已經遇到了從業以來的最大挑戰:同質化。
死于同質
至少在目前階段我們必須承認,由 AI 驅動的數字人依舊處在交互能力有限、表達單一的階段。在對話比較尴尬的情況下,數字人更多作用還是播放已經錄制好的内容,或者切換成人類配音 + 語音合成 + 唇形識别的 " 木偶人 " 模式。
當然,AI 對于數字人的價值是多樣的,并不限于多輪對話和知識圖譜,還包括視覺、語音方面的内容。但無論怎麼說,數字人應用很快進入了一個基本困境:由于數字人背後的 AI 模型來源隻有那麼幾個,導緻每個數字人即使在外貌上進行了差異設計,其交互能力和所具備功能卻大多是一樣的。
好看的皮囊萬裡挑一,但無趣的靈魂千篇一律。随着數字人帶來的第一波新奇體驗逐漸平淡,接下來如何讓數字人産生差異化就成為了巨大挑戰。
于是我們看到,很多數字人剛出道沒多久就銷聲匿迹。" 數字人之死 ",遠比預想中來得更快一些。某服裝品牌的數字人,僅僅在直播和短視頻平台活躍了幾個月就杳無音訊;某大型活動的數字人推廣大使,因為建模過于粗糙遭到網友吐槽;大量新出道的虛拟偶像,都缺乏能讓人記住的特點;很多直播間在嘗試了一段時間數字人後,又把人類主播召喚了回來。
蜂擁而上的數字人,絕大多數都沒有激起什麼水花,反而淹沒在形象、功能、交互的高度同質化裡,轉眼消失不見。
一方面看好數字人長期發展,另一方面同質化又在侵蝕數字人的應用空間。想要逃離這個怪圈,行業似乎就隻好 " 卷 " 起來。數字人擺脫同質競争,需要卷設計、卷聲優、卷渲染,更重要的是需要卷 AI 技術。數字人的核心技術包括圖形計算、AI 動作捕捉、NLP、語音合成、知識突破等等。這些技術能力都有升級空間,但所需代價是最大的。
一旦卷起來,想要擺脫同質化,數字人的成本又将直線上升,繼而也就喪失了對标人類主播的低成本優勢。這個進退兩難的囚徒困境,導緻數字人産業在大展宏圖之前,已經先行進入了疲勞期。
數字人,也疲勞
想生存,就要卷,這是科技行業永恒的命題。而對于今天的數字人來說,企業快速弄一個換皮、套殼的數字人主播确實是代價很小,甚至可以忽略不計。然而一旦企業對這樣的數字人産品有了不滿,希望能夠做出有創意、足夠智能的數字人,那麼代價會猛然增加。
這種成本壓力,導緻企業出現了用數字人也不是,不用更不是的疲勞感。
具體來看,這種疲勞的來源是多方面的。前期的供應鍊成本、後期的運營維護成本,以及取悅最終用戶的成本,都加劇了數字人長期應用的難度。我們可以将這些壓力,總結成數字人的三種疲态:
1. 産業鍊疲勞。
數字人擁有着非常漫長且非常複雜的供應鍊。它既然需要 AI 模型作為底層支撐,同時也需要開發工具、平台環境、存算網資源的支持。在技術能力之外,數字人還在設計、動畫、專業人才等方面産生成本支出。一家企業如果想要獲得完善且優質的數字人方案,要麼自身具備統合多方面供應鍊與技術開發、藝術設計的能力,要麼直接購買定制化的數字人解決方案。
顯然,後一種方式對于絕大部分企業來說更加現實。但定制化和高要求意味着數字人的前期成本直線飙升。能否在後續應用中收回這些成本,或者能否有效降低這些成本,對于企業來說都是未知數。這也是為什麼,很多企業甯可直接抛棄數字人,也不願意升級數字人。或者依舊讓初級的數字人解決方案苦苦支撐。
另一方面,對于數字人供應鍊企業來說,大量數字人都湧向直播,确實帶火了業務。但過分聚焦的業務,讓接下來的升級遭遇了困境。從産業鍊來看,數字人可能涉及顯示硬件、光學器件、芯片、AI 模型、AI 開發工具、建模軟件等等技術領域,還必須包括應用層的行業開發者與軟件供應商。如此多複雜的産業鍊,最終都僅僅為直播服務。單一的應用場景很難消納産業鍊的創新成本。這導緻數字人的底層技術很難快速升級,或者将成本攤薄。
過長、過複雜,并且牽一發動全身的數字人産業鍊,導緻數字人很難低成本、高效率做出改變。産業鍊懼怕應用窗口太窄,應用擔心産業鍊升級太貴,最終讓數字人出現了局面大好之下的焦灼感與焦慮感。
2. 運維疲勞。
當前數字人産業的另一個問題,是很多企業發現數字人買得起,用不起。這是因為數字人的定制化服務整體成本過高,很多供應商擔心市場情況。于是采取了降低一次性解決方案成本,但要捆綁運維支持的商業模式。而由于數字人的商業供需非常單一,這種模式大多需要落在依賴虛拟主播的電商來為之買單。
這種先嘗後買的模式,非常容易帶來後期運維層面的焦慮感。随着用戶的習慣甚至厭倦,數字人直播帶來的直接價值降低,其因為成本的壓力就會突顯出來。對于企業用戶來說,會越發将數字人連續不斷的運維費用作為負擔,并且産生不願升級、不願續費的想法。而對于服務商來說,則更多希望降低數字人的真實運營成本,拓展自身的實際利潤。這就導緻很多數字人畫風越來越崩壞,體驗愈發不智能。這就是因為服務商降低了數字人的 AI 模型或者圖像渲染成本。更有甚者,一些服務商甚至在不告知甲方的情況下,直接派真人配音來代替數字人當中的 AI 技術,以期降低運營壓力。AI 假裝真人還未成功,真人已經開始扮演 AI,這也是讓人想不到的情況。
3. 審美疲勞。
無論是前期投入還是後期成本,數字人産業的疲态都來自成本壓力。而所有成本壓力的來源,在于最終用戶對數字人 + 直播 / 短視頻的模式已經産生了審美疲勞。畢竟 AI 的交互能力與理解能力都有限,很難實現源源不斷的新價值輸出。但用戶對于主播的期待是無限的,單調、重複,已經成為很多用戶對數字人主播的刻闆印象。
口味愈發苛刻的用戶審美,會最終推動數字人産業鍊進行洗牌。低成本、高重複的模式很難維序下去。數字人能否真正走入大規模應用階段,需要看是否能跳出這個疲勞怪圈。
如果說配音是數字人 1.0,對唇形是數字人 2.0,AI 驅動是數字人 3.0。那麼走向 4.0 時代的數字人,必須要面對擺脫千篇一律的功能,走向直播之外的更廣闊産業空間。智能與差異,是治愈數字人疲勞感的關鍵。
目前,解決這一問題的思路漸漸成形。比如說用大模型提升數字人的 " 腦容量 ",ChatGPT 的出現快速讓很多産業興奮了起來,其中就包括數字人。更多以預訓練大模型來提升數字人智能水平的方案,将成為接下來這個領域的升級重點。
再比如通過硬件升級,來實現數字人更廣泛的商業價值。新一代 VR 硬件這股風在歐美已經十分勁爆,并且開始向中國傳導。在 VR 場景下,數字人可以以更多方式與用戶交互,從而帶來新的需求,解決一部分手機直播中的審美疲勞,這也是數字人擺脫直播依賴的一個方法。
還有,持續縮短數字人供應鍊,降低數字人的上遊成本也是解決方案之一。很多雲計算廠商,開始面向企業與軟件開發者,推出封裝好的一站式數字人搭建方案,從而讓數字人從解決方案買斷,更多轉型自主開發、自主定制的低成本方案。
這些解題思路的最終結果,都還有待未來去檢驗。至少在今天,我們似乎沒有理由認為數字人已經迎來了春天。在繁榮的市場預期與政策期待下,應該先問數字人幾個問題:
1. 直播中的數字人的價值究竟幾何?他們的不可替代性和成本優勢能夠維持多久?
2. 曾經的頭部主播也紛紛過氣,距離用戶厭煩數字人還需要多久?
3. 播之外,真的有商業價值能撐起如此複雜的數字人産業鍊嗎?
數字人真想走出去,需要某個新技術帶來規模龐大,且足夠持久的新應用市場。或許隻有一場深層次的技術變革,才能治好數字人的疲憊。
關于數字人的生死疲勞就介紹完了,您有什麼想法可以聯系Retired 。