來源:獵雲精選;文 / 孫媛
2023 年,大模型狂飙;但一級市場卻略顯十動然拒。
一邊,大廠跟大佬 all in 大模型的規劃掀起賽道的狂熱,有 VC 搶做一個吃螃蟹的人,數億元融資成大模型投早标配。
譬如,啓明攜手經緯,數億元天使輪投向周伯文創辦的銜遠科技;創新工場孵化的 AI 2.0 大模型瀾舟科技,也續上一筆數億元 Pre-A 輪,斯道資本和創新工場持續加碼。
但到了另一邊,卻仿佛現實照進理想,大模型自研所需的 " 鈔能力 " 讓不少 VC 望而生畏。
一次運算 450 萬美元(約合 3000 萬元)的開銷,以及月薪 2 萬至 10 萬 / 人的重金求賢争奪賽,讓某家美元基金相關人員直接表示," 不關注 AI 大模型,太貴了。"
更有投資人直言,真實情況是項目根本搶不起來。一是估值體系還不成熟,幾億一輪融資,釋放 10 到 20 個點的股權,估值馬上超 10 億,而這估值還是按照一個大模型燒 GPU 消耗的成本去計算,而不是以其真正的商業價值去評估;二是國内存在商業化落地以及時機的不确定性。
" 大家看好宏觀趨勢,也更願意做跟投,但到具體項目,要領投可太需要勇氣了。而且一起進場投,很可能會追高。"
但有 VC 放棄,就會有 VC 勇往直前。
有幾家機構跟獵雲網表示目前仍在持續學習中,但還未形成投資邏輯,處于想投但是多觀望的狀态。而這樣的狀态反應到項目端,卻也引發了部分創業者的吐槽,有創業者表示,很多基金與其說是投資溝通,不如說是找他們學習。
" 有 VC 還在問一些很基礎的問題,譬如大模型跟原來小模型有什麽不同。天天給人教育,相當于變成了一個免費的老師,後面的盡調也一直在問偏學術上的問題,商業上的考量都還沒有聊到。"
顯然,在一級市場投 " 真香 " 大模型上,多看少投甚至不投成爲了大部分 VC 的日常。
國内大模型 " 冷飯熱吃 "
說起大模型,其實也不算什麽新鮮概念。
國外超大規模預訓練模型始于 2018 年谷歌提出 BERT 大規模預訓練語言模型,并在 2021 年進入 " 軍備競賽 " 階段。
2020 年,OpenAI 推出 GPT-3 超大規模語言訓練模型,參數達到 1750 億,用了大約兩年的時間,實現了模型規模從 1 億到上千億級的突破,并能實現作詩、聊天、生成代碼等功能。
再到 2021 年,谷歌推出的 Switch Transformer 模型成爲曆史上首個萬億級語言模型多達 1.6 萬億個參數,并在 12 月提出了具有 1.2 萬億參數的 GLaM 通用稀疏語言模型,在 7 項小樣本學習領域的性能優于 GPT-3。
同期,國内超大模型的研發發展也很迅速,2021 年成爲中國 AI 大模型爆發的一年。
商湯科技的計算機視覺模型、華爲雲聯合發布的盤古 NLP 超大規模預訓練語言模型和盤古 α 超大規模預訓練模型、阿裏達摩院 PLUG 中文預訓練模型以及聯合發布的 M6 中文多模态預訓練模型以及百度的 ERNIE 3.0 Titan 模型陸續面世,其中達摩院 M6 模型的參數達到 10 萬億,直接将大模型的參數提升了一個量級。
雖然當時國内院校跟大廠都在做大模型,但在銀杏谷資本高級投資經理鍾偉成看來,這更多是科研上的效果複現,對國外較爲前沿的 AI 模型的跟進。直到 2022 年年底 StableDiffusion、ChatGPT 的出現,才開始讓更多業内人士從觀望走向下場。
" 之前産品的商用價值并沒有完全體現出來,大部分比較好的落地場景是心理慰藉的對話,或者文檔的改寫生成,以及此前的 AI 繪畫。ChatGPT 出來後,大家發現說可以通過多輪對話去做不斷微調、上下文學習,然後去生成更好的内容。"
從技術和戰略層面上看,ChatGPT 讓更多人意識到這不單隻是一個應用工具,甚至會成爲一個新的 PaaS 層基礎設施。從技術和戰略層面上,群雄争霸,都想試圖成爲一個新時代的基礎設施供應商。
再到 2023 年,上市公司和大廠陸續放出做大模型的信号,AIGC 概念股股價翻番,外加 "AI 的 iPhone 時刻 " 無不讓這股熱度從二級市場湧向一級,引發對語言大模型的重點關注。
風口之下,從前年開始布局的學院派等語言大模型創企從去年開始浮出水面,擊中了有出手壓力的 VC 心巴。
鍾偉成表示,多數投資人在大環境不确定下,會傾向于尋求一些偏底層及回報較高、能最終形成一家獨大的投資領域,外加對錯過下一個時代風口的焦慮,使得語言大模型項目成爲了市面上最爲性感的一類投資标的。
然而賽道雖香,語言大模型的火爆表象下,技術差距并不止一點。
以當前國内大廠語言基礎大模型十幾億、幾百億的參數規模,以及大多數創業公司還在做一兩百億的參數模型來看,跟 ChatGPT 相比,還有 2-3 年的距離。
VC 多看少投,項目端狂蹭熱點
正如上文所說,現在 VC 看大模型,光看鮮出手。
一方面,是因爲一些基金是從 AIGC 火了後,才研究和關注大模型,開始找項目,正處于學習階段,而更主要的原因是貴。
以 OpenAI 爲例,其在推出 GPT3 的 API 接口出來之前,已經燒了好幾億,後在微軟百億美元狂砸下,才有了 GPT3 的面世及能力的湧現。
所以想要對标 ChatGPT,資金必不可少。
鍾偉成表示,過去,團隊健全的大佬創業項目,一般第一輪估值 2-3 億元就已經很高。但放到大模型創企來說,光 1 年租 1000 張 GPU 卡就要花大幾千萬到 1 億元的支出。
" 這還隻是試錯的成本,萬一技術路徑選錯了,模型訓練的過程中出了一些 bug,重新弄根本吃不消。天使輪估值就這麽高,等退出還要 7-8 年,跑出來的還不一定是投資的那一家。冒着整支基金回報的風險去投大模型,是項目推進時較大的阻力。"
與此同時,不同背景的基金之間,對于基金存續期以及試錯風險的承受度都有不同的要求,部分基金會要求被投企業盡早做商業化嘗試,而這樣的投資模式跟慢工出細活的通用基礎大模型并不适配。
就目前來說,旗下有美元基金的機構存續期較長,更容易下注投資語言大模型,但就目前主要投資早期輪來看,随着語言大模型項目到第三四輪,一輪 5-10 億的砸錢下,估值到 50 億元後,誰來接盤又成爲問題。
在鍾偉成看來,與百度阿裏等大廠,有内部資金支持科研團隊去做不同,國内語言大模型創企,投資風險高就在于不确定因素太多,早期 VC 基金攢局投完以後,後期輪還是需要國資機構的投資介入,幫助創企緩和資金量,才能推動扶持出一家頭部企業。
他不禁感慨," 别看創業公司去做語言大模型好像很熱鬧,最後的格局可能還是一家特别大,兩家相對小的中文語言大模型存活下來。"
與此同時,以目前市面上的大模型項目來說,蹭熱點的也不在少數。
就華映資本董事劉天傑的感觸來說,他從年底開始開始看 AIGC 的項目,過去是一個月看 5-10 個,現在是每天都要看 3-4 個,其中大概有 1/4 跟大模型相關。在他看來,現在項目多到已經成爲繼上一波移動互聯網以來的新一輪全球狂潮。
" 所有人都想第一波沖進去,挺正常。現在很多做語音圖像識别的中後期輪甚至上市公司都在蹭這一波熱度,有些公司号稱做大模型,但最終是面向應用的,其中大模型也得分語言大模型,以及中度的促進性模型。"
故而在一級市場上,普遍 VC 采取看多投少的節奏,尤其是在大模型底層還未确定能發展多快的情況下,美元基金偏好語言大模型,人民币基金則更偏向應用層,但總體出手還是相當審慎。
此外,劉天傑還指出,上一波 AI 公司現在往 AIGC 靠攏,其實已經很難追上。事實上,這就是一場 AI 的自我革命。
" 國外大模型從 2018 年就開始研究,這不是一蹴而就的事情。傳統判别式或者做卷積網絡的 AI 團隊現在跳出來講大模型,但是他在傳統 AI 技術路線上投入了太多時間人力,曆史包袱成爲其困局所在。"
同時,劉天傑也坦言,在基礎大模型領域,其實文字、圖形乃至視頻的創業機會都不大。
" 因爲這不是一個擁有幾個算法天才就能解決的事情,你需要一個非常龐大的算力基礎,這可能現在連國内的大廠都沒有,就更别說創業公司。同時你還需要一個巨大的高質量數據集基礎,純靠公網扒取、或者花錢去買,想要去做語言大模型真是挺困難。"
再回到現如今的大佬紛紛下場創業,在鍾偉成看來也并非獨具優勢。
" 很多大佬是邀請了一些以前參與過大模型訓練項目的人,把架構搭起來重造,但其實不同量級的語言大模型訓練,在工程化上都有很多不同的坑需要去逐步攻克,從 0 開始做,同行的競争壓力還是蠻大的。"
應用層暫時失寵,模型層投資機會在 " 細分 "
短期來看,國内互聯網大廠在研發語言及多模态大模型的節奏下,未來 3-5 年會出現各種不同垂直領域的大模型,甚至細分到各個公司私有化部署的大模型。
在這樣趨勢下,各家都會有一個嘗鮮期。
在鍾偉成看來,這就跟過去的中台概念很像,短期内激發一波需求,會有很多大廠或初創公司,去輔助大企業煉制自己的 AI 大模型。而中國的市場裏面,長遠來看還是會走出一兩家通用的語言大模型,由百家争鳴的狀态走向大一統,且目前來看互聯網大廠的勝率較大。
" 國内公域流量上的中文語料非常差,優質的中文語料又集中在各個不同大廠的私域場景裏,比方抖音的視頻數據、阿裏的圖文數據、百度的文本數據,還有知乎跟小紅書等,這些數據都是不會共享出來給外部去做通用的大模型訓練。而有着私域數據及資金能力的互聯網大廠訓練各自領域的大模型後,再看哪一家有能力擴展到更多行業,變成一個通用的語言大模型,我覺得這是國内大模型比較符合常理的一個發展過程。"
那既然創業公司做基礎大模型對标 ChatGPT 的機會不大,那麽大模型創業還能往哪卷?
對此,有投資人給出一些答案:投細分、投基礎設施。
劉天傑表示,現階段,國内有一些大模型在垂直領域的細分機會可以查漏補缺,包括一些現在在國際上比較前沿的領域,比如 3D 大模型、視頻大模型、多模态大模型等中型模型。
" 微軟英偉達,他們也沒有足夠多的 3D 數據去訓練一個通用的 3D 大模型,而是用一些中型模型的路徑或者說用一些模型監督強化學習的方式去迫近 3D 大模型。在這一點上,我覺得國内公司是有機會的。"
對此,鍾偉成也持相同看法。" 關注垂直的語言大模型或多模态的大模型,國内創企還是有一定的數據優勢,譬如字節或快手的人去做視頻生成,就很有可能做成。我認爲在垂直領域,市場規模足夠大、你進得足夠早,比别人先積累一些領域内的私有數據,很有可能做到行業一霸。"
此外,他也認爲未來針對模型推理 / 訓練的優化、AI 推理 / 訓練專用芯片等 AI 基礎設施方向,也是有比較明确的市場需求。
值得注意的是,目前相較于模型層,應用層暫時屬于失寵狀态。
過去移動互聯網或元宇宙浪潮,其最大特點是基礎設施發展較慢,但基礎設施架構上的應用發展較快。但到了這一波 AI,基礎設施不僅已經迎來爆發式增長,更在大廠大模型的湧入下,不斷變化着。
在劉天傑看來,這種情況下講應用毫無意義,投入後一旦大廠發了一個新模型,就可能直接把應用幹翻。
" 在這種情況下,我們第二波才會看應用。現在的 AI 公司,如果能在目前中文大模型不那麽完善的情況下,釋放功能給 C 端積累大量的高質量數據集,那這家公司才有意義和價值。"
此外,據鍾偉成透露,4 月看大模型的投資人基本會對心儀的項目做最後推進,好幾家已經 close 了。現在還在市面融資的大模型項目相對變少,但還是會有很多做應用的 AIGC 項目主動找上門。
在他看來,眼下大廠百家争鳴,大模型越割裂,對資本來說是一個利好,讓投資機構有機會參與到垂直領域的大模型投資。但對于創業者來說,無論是模型層還是應用層,都需要想清楚,一是找到一個 AI 原生的細分領域,二是認真思考其所帶來的根本性變化在哪,隻是生成内容,還是内容的理解及後續合成。
顯然,這新一輪 AI 浪潮下,找 VC 拿錢的條件越來越高了。