讓郭德綱飙英文、讓黴黴說中文的翻譯視頻生成工具 HeyGen 和掀起 AI 證件照熱潮的 " 妙鴨相機 " 一樣,在一陣瘋狂刷屏之後,又迅速在各大群裏銷聲匿迹了。
十月份,由 HeyGen 制作的各種明星跨語言翻譯視頻,在全網瘋傳,大家震撼于 AIGC 地道的中英文表達,完全沒有譯制片的腔調,惟妙惟肖的音色還原、高度對齊的口型聲音,讓不少人表示," 真的有被吓到 "" 配音演員要失業了 " ……
太陽底下無新事,這個現象級 AIGC 應用,也逃不過 " 速朽 " 的命運。
如今我所在的 LLM 大模型讨論群裏,偶爾有人發一個中英翻譯視頻,根本無人讨論,可能大多數人連點開看看,都提不起興趣。
大衆的新鮮感很快會過去," 明星譯制片 " 隻有看個樂子的娛樂屬性,并不是高頻剛需,獵奇嘗鮮之後,到了真金白銀付費的時候,自然風過了無痕。
這一年,大模型無疑是全球最大的熱點。但熱歸熱,最終在商業市場立足的大模型應用仍然稀少。
明明已經是 " 百模争豔 ",爲何成功産品化的現象級應用,就那麽幾個?
而這些産品成熟也不缺熱度的爆款 AIGC 應用,爲何無法将流量轉化爲持久的經濟效益,商業化仍是一團迷霧?
本文希望從 "AI 譯制片 " 這個小切口,探讨一下大模型的産品化條件和商業化迷思。
一夜爆紅
是産品化的勝利
首先要明确一點,妙鴨也好,HeyGen 也好,AIGC 應用的一夜爆紅,對于大模型産業來說,絕對是一件正面的事。
大模型隻是一種基礎技術,相當于鋼材,大模型廠商相當于煉鋼廠,還要有人設計出洗衣機、跑步機、微波爐等一個個具體的産品,新技術才能爲人所用。
而 HeyGen 的一夜爆紅,正是産品化的勝利。
技術原理上,跨語言翻譯視頻制作并不是什麽新事物,業内已經有很多科技公司、影視公司、後期制作公司在探索并推出了專業級工具平台。
簡單來說,就是升級版的 TTS(Text To Speech)技術。利用大語言模型對文本進行更地道的翻譯,然後對聲音空間進行更好的建模,訓練一個跨語種遷移 TTS 模型,讓風格遷移、音色遷移、情感遷移更加魯棒,合成的語音更加自然、還原。
這種技術的特點就是高效,整個翻譯過程全自動化,可以批量生成翻譯視頻。不過在自然度和表現力細節上,還是不如真人配音演員的演繹那麽細膩、有創造力。
總結一下就是,HeyGen 背後的技術原理,并非什麽獨家秘籍。
其火爆的原因,是極高的産品化能力。
一般來說,AI 技術的産品化,要經曆三個步驟:
第一步:選擇工具。
工欲善其事,必先利其器,工具是開發人員喜歡花費大量時間争論的話題。HeyGen 的工具選擇,是比較務實的,甚至看起來特别 " 小白 ",那就是頭部閉源模型 + 開源 " 大禮包 "。
有網友扒出,HeyGen 是用 Whisper 将語音轉文字,GPT4(目前未開源)進行文本翻譯,聲音克隆 + 生成音頻用 so-vits-svc,最後用 GeneFace++,将翻譯後的語音與視頻中說話者的嘴唇動作同步。
大模型熱潮以來,我們看到了許多開發者在衡量和挑選 " 最好 " 的大模型,而市面上有各種不同的基座模型供應商,提供類似的競品服務,開發者想要找到絕對意義上最好的工具,幾乎不可能。這些底層工具如基座模型、編程語言等,先進性都可能變化。選擇好相對較優的工具組合,然後快速去開發 demo、驗證想法、叠代升級,才是開發者最應該做的。
第二步:原型設計。
HeyGen 選擇的工具,無論是 GPT4 的 API,還是開源模型,都是比較容易獲取的,但大多數普通人都不會從搜索 GitHub 倉庫、處理軟件 bug 中獲得多少樂趣。
就拿跨語種視頻翻譯來說,其中涉及了多模态内容的翻譯,包括語音、文本以及視頻,在字幕翻譯、語音合成、智能配音方面,目前都有很好的自動化,但将多模态功能集成到一起,實現端到端一鍵翻譯的産品還不多見。
所以,HeyGen 構建了一個簡單易上手的訪問界面,通過集成多種模型、多種工具,降低了翻譯門檻,用戶隻需要上傳初始視頻-選擇目标語言-一鍵輸出,就可以坐等聲音克隆完成了。
HeyGen 的核心價值,就是讓非技術用戶不必陷入繁多的技術細節中,不需要安裝 N 多個額外的工具,就可以與多個模型交互,完成轉寫、翻譯、配音、圖像處理、音畫同步等一大堆複雜的事情,輕松進行高維度、可交互的内容創作。
第三步:産品化。
從 HeyGen 官網可以看到,數字人 + 跨語言翻譯視頻,才是 HeyGen 的核心産品力,并給出了跨境電商營銷視頻、跨語種品牌宣傳、老師制作教學視頻、社交媒體吸粉、爲生日婚禮等紀念日制作令人難忘的個人視頻等,一系列落地場景。
在此基礎上,HeyGen 讓數字人跨語言翻譯視頻,可以通過自動化流水線來制作。
用戶可以上傳自己的照片,進行個性化形象定制,也可以在 HeyGen 提供的數字人素材和模闆中選擇,輸入腳本後就能生成自己所需的多語種視頻了。
至此, HeyGen 順利完成了 AI 譯制産品化的轉換,從而取得了巨大的成功,導緻了 " 多年譯制無人問,一朝 HeyGen 天下知 " 的景況。
從 AI 寫真到 AI 譯制片的爆火,一次次說明,産品化是承上啓下、不可或缺的一步,再怎麽強調也不爲過。
可以肯定地說,不能完成從技術到原型設計再到産品化的轉換,将是許多大模型投資回報率低的主要原因,也是許多 AI 創業項目失敗的原因之一。
難逃 " 速朽 " 命運
商業化的魔咒
然而,即便如此成功的産品化,HeyGen 又一次重複了 " 妙鴨 " 前輩的故事,在訪問量陡增之後,又很快在各大群裏銷聲匿迹了。
公域流量的退潮,似乎是爆款 AIGC 應用的共同命運。
對此,有人認爲,HeyGen 是在 " 悶聲發大财 "。雖然獵奇玩家散去了,但留下來的用戶還是給 HeyGen 貢獻了收入增長,HeyGen 連續九個月環比增長率在 50% 以上。創始人 Joshua Xu 也在社交媒體上公布了相關數據,僅七個月時間,ARR 年度經常性收入就達到了 100 萬美元。
問題來了,HeyGen 的商業化潛力是可持續的嗎?
我們認爲,HeyGen 将要面臨的商業化挑戰,還是非常大的。
首先,技術工具無法被壟斷,僅靠多模态 AI 無法建立商業模式。
HeyGen 憑借大模型強大的多模态和理解能力,讓跨語種翻譯視頻制作,達到了傳統 AI 譯制所望塵莫及的水平,這是非常厲害的工作。但大模型就像 c++、數據庫一樣,隻是一種新技術工具,它是無法被壟斷的。HeyGen 所使用的開源工具極易獲得,閉源模型 API 也敞開了迎客,所以僅靠底層工具無法建立商業模式和競争壁壘。
而産品創意、交互界面的開發門檻并不高,大量科技企業和個人開發者都可以輕松複刻并優化升級,産品被超越或許隻在旦夕之間。
如今點開海外科技媒體的報道頁面,會看到類似 HeyGen(原 movio)的視頻生成工具,推薦清單高達 95 個之多。可以說,HeyGen 提供了一個寶貴的 AIGC 用例,但很快就開啓了一場白熱化競争,這對其後續收入的持續增長是很大的威脅。
其次,C 端付費剛性,B 端行業壁壘深,收入增長曲線會放緩。
目前,HeyGen 收入主要靠 C 端客戶付費。免費版本隻支持一個免費的 credits 字幕,顯然僅供玩票,而最低的創作者(Creator)付費檔也要 24 美元 / 月,對于個人博主來說雖然不算太貴,但随着一大堆同質化産品的價格 " 内卷 ",未來也會面臨性價比不高的窘況。
而商業用戶(business)雖然付費能力強、價格接受度高,但對跨語言視頻翻譯的技術含金量則要求更爲複雜。HeyGen 商業版本的客戶,大多是制作電商營銷廣告、語言學習數字人、多語種新聞播報、譯制片等,對翻譯質量就會提出更爲細粒度的要求,比如文本翻譯的長度,要盡量和目标語言接近,來保持說話口型的一緻性。還有,不同人說話的韻律不一樣,停頓的位置、重音的位置都要對齊,才能高度還原個人風格。
再比如,老人、小孩說同一個文本時,因爲角色人設的不同,遣詞造句也應該不一樣,翻譯後的文本、語音都需要跟人設相對齊。
還有很多文化細節,是跨語種翻譯中要進行強把控的,很多還是要人工譯者去完成。畢竟商用場景不同于娛樂場景,跨語言容易産生歧義,一旦出現 1% 的錯誤,都可能讓做對的 99% 工作打了水漂,面臨丢單甚至海外市場合規風險。
所以說,商業用戶需要複雜、高質量、高控制的産品。這就需要廠商在數據方面,尤其是小語種等少樣本數據,有獨家的、高質量的數據積累。模型訓練,強行業知識等,都要長期積累和叠代,達到專業譯者的水平。
目前,已經有 AI 公司針對精品化視頻譯制的需求,推出了 ToB 的産品解決方案,訓練跨語種 Voice Conversion 模型,采集配音演員的口型,由人工控制,再經由 VC 模型生成配音結果,比 TTS 模型的表現力更強,細節保留更多。
目前國内的 AI 巨頭都很重視 B 端市場,資源充足,并且在機器翻譯 TTS、多模态 AI 技術方面的積累深厚,都可能是 HeyGen 商業用戶的争奪者。
大模型的産品創新風口,才剛剛開始,要保持商業化的優勢身位,如逆水行舟," 當紅頂流 " 也不能掉以輕心。
爆款應用 " 速生速朽 "
大模型的商業迷思
2022 年 11 月 30 日,ChatGPT 問世,在一周年剛剛過去之際,這場大語言模型的熱潮,将所有人都席卷其中。或許還有人無知無覺,但也注定無法置身事外。
一年以來,時常有妙鴨相機、HeyGen 這樣的爆款應用,在社交媒體刷屏。這證明了幾件事:
1. 大模型是條件,而不是結果。運用好這些新工具,創造新産品的人,會獲得新時代裏無限多的機會。
2. 基建是問題,但也不是問題。提到大模型,業界總會擔憂算力卡被限制,國産大模型能力有差距,但悲觀者正确,樂觀者前行。實際上,無論算力基建、開發工具、基座模型,在今天都不是,也不該是應用開發者的阻礙。
業内有人說過,國産卡隻要達到 N 卡 60% 的性能,用戶就會買單。而一些開發者告訴我,密集使用了文心一言、訊飛星火等國産大模型,基礎邏輯推理确實能叫闆 GPT 3.5-turbo,非基礎能力比如 func call、穩定性等也可圈可點。而妙鴨、HeyGen 也都是中國企業所開發的,行動比洞見更重要。
3. 産品化,是大模型商業化的必要條件。做了那麽多通用大模型和行業大模型,如果沒有大量産品化的成果,是無法轉化爲使用價值和經濟效益的。" 改變世界 " 的不是大模型,而是各種各樣的産品,無數個 HeyGen,幫助開發者完成從原型設計到産品化的轉換,降低試錯成本,将是接下來大模型廠商最重要的動作。
4. 建立商業壁壘的,是剛需場景 + 強業務知識 / 數據 + 軟件工程。HeyGen 的商業化挑戰,說明大模型不是壁壘,産品也不是壁壘,這些都是很容易被複制的。而行業知識 / 數據,大規模軟件工程的流程控制、降本增效,可以針對特定場景的需求深入挖掘、快速開發、快速叠代優化,才符合 AI 技術特性,才是商業化的保障。
幾位行業大模型應用的開發者,不約而同地跟我說過一件事:先找到場景,再優化産品和服務。也就是先想好商業變現的路線,确定自己的壁壘達到了,再去紮紮實實做産品,心裏才能不慌。
比如一個 ToC 的民宿大模型,解決的是旅客入住民宿時,管家介入太深顯得沒有邊界感,過度打擾;管家介入太淺,又缺乏服務價值感,無法及時解決問題。基于大模型的語音交互助手,就在旅客和管家之間,起到了很好的緩沖橋梁作用,讓服務恰到好處。而旅客在當地的餐飲、遊玩、購物等活動,也都是圍繞 " 住 " 展開的,通過民宿大模型提供優質可靠的推薦服務,也帶來了商業轉換的潛力。
一個 ToB 的金融大模型應用開發者也表示,企業機構内部的多樣化需求,是不可能由一個通用的、标準化的軟件産品來承載的,所以 ToB 大模型創業,既要做業務分析咨詢,又要做軟件開發寫代碼,才能真正服務好客戶。AI 軟件開發的流程化、自動化,對于控制成本非常重要,不能每個項目都靠一群博士 " 手搓 " 代碼。
對商業和場景的深刻洞察,對行業和客戶的理解,比掌握算法、掌握技術都要難得多,也是開發者最應該重視的核心能力。
最後我想說,雖然大模型已經非常火了,但别急着擔心 " 泡沫 "、害怕 " 追高 ",這才是開始。
國際咨詢機構的調查報告顯示,65% 的受訪者目前有時或很少使用生成式人工智能,而約占 90% 的受訪者認爲,AI 應該被 " 經常或總是 " 使用。
也就是說,大衆對機器學習和生成式 AI(Gen AI)的接受度很高,而實際滲透率并不高。妙鴨、HeyGen 等現象級 Gen AI 産品,無疑邁出了一大步,而隻有它們,是遠遠不夠的。
爆款 AIGC 應用,隻是 AI 和大模型價值潛力的一小部分。目前還沒有一種商業模式長期跑通,恰恰說明技術的新大陸上,留給登陸者、建設者們的發揮空間還很大。