圖片來源 @視覺中國
文 | 光錐智能,作者 | 周文斌,編輯 | 王一粟
" 不敢下手,現在中國還沒跑出來一家絕對有優勢的大模型,上層應用沒法投,擔心押錯寶。" 投資人 Jucy(化名)向光錐智能表示,AI 項目看得多、投的少是這段時間的 VC 常态。
ChatGPT 點燃 AI 大爆炸 2 個月中,中國一直在等待自己的 GPT-3.5。
AI 真的冒犯到了打工人。遊戲團隊替代掉 30% 的原畫師、電商團隊用 AIGC 生成低成本數字人模特、基礎程序員也感受到了被降維打擊的焦慮 ...... 眼看着 GPT 在國外要将所有領域都重新做一遍的趨勢,科技颠覆裹挾着金錢的味道滾滾而來。
于是,除了焦慮的打工人,企業急着用大模型降本增效,創業者急着接入大模型推出新産品,股市急着用 ChatGPT 概念割韭菜,培訓機構更是先賺一波爲敬。
襯托之下,反而顯得喜歡追逐風口的中國科技巨頭們比以往更沉得住氣。
果然,周期使人成長,公司也是。
終于,衆望所歸、望眼欲穿、姗姗來遲,4 月第二周,中國也迎來了新一代大模型的密集發布。
繼通義千問開放測試 4 天後,張勇在接手阿裏雲後首次亮相,宣布所有阿裏産品未來将接入 " 通義千問 " 大模型,進行全面改造;
商湯科技在 10 日的技術交流會上,演示了 " 日日新 " 大模型的能力:對話、AI 繪畫、編程、數字人,第二天開盤大漲 9%;
華爲盤古大模型在 8 日低調亮相,但并于 10 日發布新産品;
明星創業者王小川公開亮相,攜手搜狗老搭檔茹立雲正式開啓 AI 創業的新征程,将在下半年推出百川智能的大模型;
毫末發布首個自動駕駛大模型 DriveGPT 雪湖 · 海若,把人類反饋強化學習引入到駕駛領域。
就連遊戲公司昆侖萬維也趕來湊熱鬧,宣稱 " 中國第一個真正實現智能湧現 " 的國産大語言模型将于 17 日啓動邀請測試,但随後被媒體質疑其借熱點炒作股價。
熱熱鬧鬧、真真假假,大模型一時竟然有點亂花漸欲迷人眼。中國的大模型怎麽就一下子如雨後春筍般都冒了出來?如果不重複造輪子,大家還能幹點什麽?
雖然是摸着 Open AI 過河,但中國大模型也都邁入了無人區。
01 湧現之前:亦步亦趨,又分道揚镳
如果要爲 AI 大模型找一個時間節點,2019 年應該是關鍵的一個。
這一年 2 月,遠在大洋彼岸的 OpenAI 推出了 GPT-2,恰好也是這個時間點,微軟慷慨的投入了 10 億美元,讓 OpenAI 從 " 非營利性 " 組織變成了 " 盈利上限 " 組織。
大概在一個月之後,太平洋的另一邊,百度發布了 ERNIE1.0,成爲中國第一個正式開放的預訓練大模型。
但這種第一其實有很多,比如華爲的盤古大模型,業界首個千億參數的中文語言預訓練模型;比如阿裏的 M6,中國首個千億參數多模态大模型;再比如騰訊 HunYuan,國内首個低成本、可落地的 NLP 萬億大模型 .....
總之,隻要定語加的足夠多,就總能在某個領域當第一。那段時間,從矽谷到北京西二旗、再從五道口到上海臨港,包括華爲、阿裏、騰訊、商湯在内,凡是有能力的企業,都開始涉足 AI 大模型的相關研究。
但中國第一波 AI 大模型的 " 湧現 " 卻是在兩年之後。
2021 年,曾任職過微軟亞洲工程院院長、後被雷軍親自邀請到金山接替求伯君任 CEO 的張宏江,牽頭成立的智源研究院發布 " 悟道 1.0",包括國内首個面向中文的 NLP 大模型、首個中文通用圖文多模态大模型和首個具有認知能力的超大規模預訓練的模型等等。
智源成立于 2018 年,也就是 OpenAI 發布 GPT-1.0 的前五個月,作爲北京市和科技部牽頭成立,并集合學界和頭部科技企業資源的研究機構,智源其實是中國早期探索 AI 大模型的一個代表。
可以說," 悟道 1.0" 其實爲中國後來所有 AI 大模型的一個樣本。除此之外,智源研究院還爲中國構建了大規模預訓練模型技術體系,并建設開放了全球最大中文語料數據庫 WuDaoCorpora,爲後來其他企業發展 AI 大模型打下了基礎。
也正是在 " 悟道 1.0" 之後,中國大模型開始出現井噴的狀态。
2021 年,華爲基于昇騰 AI 與鵬城實驗室聯合發布了鵬程盤古大模型。2022 年,阿裏發布了 " 通義 " 大模型系列,騰訊發布混元 AI 大模型 ......
在中國 AI 大模型如雨後春筍般湧現的同時,國外的 AI 大模型也走到了從量變到質變的節點。
2022 年 11 月,OpenAI 發布了基于 GPT-3.5 的 ChatGPT,徹底打開了人工智能的魔盒,然後就是席卷全球的 AI 2.0 浪潮。
事實上,如果以 2018 年 GPT-1 發布爲節點,中國的 AI 大模型的發展與國外的發展脈絡一直都亦步亦趨,但 ChatGPT 爲什麽并沒有出現在中國?
這其實和國内外 AI 大模型兩種不同的發展路徑有關。
從目前國外具有代表性的 AI 大模型産品來看,比如 ChatGPT、Midjourney、Notion AI 或者 Stable diffusion 等等,都是以 C 端用戶爲基礎的産品。
而反觀國内,目前大模型的主要應用場景的都在 B 端。
比如阿裏的 " 通義 " 大模型的典型應用場景包括電商跨模态搜索、AI 輔助設計、開放域人機對話、法律文書學習、醫療文本理解等等,而騰訊的 HunYuan-NLP-1T 大模型則應用在騰訊廣告、搜索、對話等内部産品落地,或者像商湯的大模型,爲自動駕駛、機器人等通用場景任務提供感知和理解能力支持。
之所以選擇 To B,一個重要的原因是,B 端能夠更容易進行商業化。
To B 的行業特點導緻中國的 AI 大模型并不需要做到非常大的參數規模,甚至于當 ChatGPT 出來之後,國内的公司讨論的一個重要方向,是如何将已有的大模型規模 " 做小 ",應用到具體的行業上。
所以中國采用谷歌 BERT 路線的 AI 大模型會比較多,以更小的參數,做更有效率,更适合垂類的場景。
所以某種程度上, 從出生的第一天,中國大模型就帶着商業化的任務。
而國外 To C 的大模型則不同,如 ChatGPT 的用戶在短短兩個月就達到一億,其底層預訓練大模型 GPT-3.5 作爲通用大模型," 大 " 成爲參數的一個基本要求。
這在某種程度上促進 OpenAI 不停爲 GPT 增加參數,然後激發更強大的 " 湧現 " 現象,最終實現 " 大力出奇迹 " 的 ChatGPT。
因此,To B 和 To C 兩種完全不一樣的發展路徑,也将中國和美國的 AI 大模型引向了兩種完全不同的發展方向。
02 不要重複造輪子,但大家都想當輪子
" 基建狂魔 " 的稱号在大模型上再次得到驗證。
到目前爲止,中國已經發布的 AI 大模型産品已經發布了 5 個,而這之後,還有 5 個 AI 大模型産品正在趕來的路上。
模型大亂鬥已經開始。
大部分國内的大模型能力都在 GPT-2 的水平上,但關注度卻遠遠高于 GPT-2 推出時,這就造成了一種尴尬的局面——明知道還沒有完全準備好,但卻不得不積極地在推進模型發布,似乎稍微晚一點就會錯過整個市場。
的确,無論是市場還是技術本身,都在要求企業更快地将大模型推向市場。
從技術上講,越早進入市場就能越早地獲得用戶的使用數據,進而推動模型優化叠代。從市場角度而言,當國外 AI 大模型與産業結合帶來更高效率的同時,國内企業也存在同樣的需求。
比如目前,光錐智能向多個 SaaS 公司調研發現,幾乎都已經接入 GPT-3.5,目前在同步測試文心一言中。
而對于推出大模型的企業來說,這個時候搶占市場先機就變得尤爲重要。
某頭部機構負責 AI 的投資人告訴光錐智能," 中國現在被排除在 ChatGPT 生态之外是非常危險的。"
他認爲,雖然應用層存在更大的創業機會,但應用層的所有應用卻都依賴于大模型而存在。就像 PC 互聯網時代,所有的桌面應用都基于 Windows 開發,而移動互聯網時代所有 APP 又都基于 Android 或 iOS 系統一樣,在模型即服務的時代,也需要出現一些 " 操作系統 " 級别的底層大模型。
目前國外 GPT-4 已經明确可以成爲這樣的存在,但國内還沒有相應的大模型出現。因此,在底層大模型的格局還未明朗的情況下,一旦大模型的市場格局發生變化,建立在大模型之上的應用也将付之東流。
這也成爲許多投資人不願意現在就下場的原因,他們想讓這個市場再跑一跑,等待一個明确能夠成爲 " 操作系統 " 級别的底層大模型出現。
所以,無論是百度還是阿裏,在推出大模型之後,第一件關心的事就是——是否有更多企業能夠達成合作。
比如,在 2 月份明确文心一言推出計劃後,百度就開始積極推進不同行業的企業接入文心一言,到 3 月 16 日百度發布文心一言時,已有超過 650 家企業宣布接入文心一言生态。而在 4 月 7 日,阿裏官宣 " 通義千問 " 之後,第一件事也是向企業開放測試邀請。
如今國内的 AI 大模型正處在競争 " 誰能成爲底層操作系統 " 的階段,各家積極推出自己的大模型,開放内測,引導企業入駐,一個核心目标就是圍繞大模型建立起自己的模型生态。
這是大廠能否在下一個時代繼續成爲大廠的關鍵。下一個 AI 時代的船票并不是大模型,而是圍繞大模型建立起來的生态。
因此,即便所有人都在口口聲聲表示不要重複造輪子,不要浪費資源建立一個同樣的大模型,但機會當前,所有人都在重複造輪子。
但如今從百度到阿裏,再從華爲到商湯,底層大模型的戰争也才剛剛剛開始,畢竟不隻是像騰訊、字節這樣的科技巨頭,還有像王小川、王慧文、李開複等創業大佬也在虎視眈眈。
王小川、王慧文都先後入駐搜狐網絡科技大廈,五道口似乎又恢複了之前的榮光。
畢竟,許多人都感覺到," 這是一次文藝複興 "。
到目前爲止,更多具有競争力的玩家還沒有完全下場,但底層大模型的 " 百團大戰 " 卻已經一觸即發。
03 AI 熱 " 兩極化 ",中間真空
大模型讓 AI 公司越來越重。
4 月 10 日,商湯在公布 " 日日新 SenseNova" 大模型體系的同時,其實還提到另一個關鍵點,即依托于 AI 大裝置 SenseCore 實現 " 大模型 + 大算力 " 的研發體系。
爲了滿足大模型海量數據訓練的需求,原本可以輕裝上陣的算法公司,開始自己做雲,也自建人工智能數據中心(AIDC)。
另一個案例就是毫末,這家自動駕駛公司爲了用大模型訓練數據,也建了自己的智算中心。
這些垂類的 AI 巨頭和獨角獸,之所以要自己做的這麽重,最重要的原因之一,就是市面上幾乎沒有高性能的現成産品可以滿足。
近年來,大模型參數量以指數級的速率提升,而數據量随着多模态的引入也将大規模增長,因此就必然會導緻對算力需求的劇增。例如,過去 5 年,超大參數 AI 大模型的參數量幾乎每一年提升一個數量級。過往的 10 年,最好的 AI 算法對于算力的需求增長超過了 100 萬倍。
一位商湯員工表示,商湯上海臨港 AIDC 的服務器機櫃設計功耗 10 千瓦 ~25 千瓦,最大可同時容納 4 台左右英偉達 A100 服務器,但普通的服務器機櫃普遍設計功耗以 5 千瓦居多,而單台 A100 服務器的功耗即高達 4.5 千瓦左右。
科技巨頭就更是如此,每個巨頭都希望在自己的生态中形成閉環,一定程度上也是因爲整個國内開源的生态不夠強大。
目前,大模型産業鏈大緻可以分爲數據準備、模型構建、模型産品三個層次。在國外,AI 大模型的産業鏈比較成熟,形成了數量衆多的 AI Infra(架構)公司,但這一塊市場在國内還相對空白。
而在國内,巨頭們 都有一套自己的訓練架構。
比如,華爲的模型采用的是三層架構,其底層屬于通識性大模型,具備超強的魯棒性的泛化性,在這之上是行業大模型和針對具體場景和工作流程的部署模型。這種構架的好處是,當訓練好的大模型部署到垂類行業時,可以不必再重複訓練,成本僅是上一層的 5%~7%。
阿裏則是爲 AI 打造了一個統一底座,無論是 CV、NLP、還是文生圖大模型都可以放進去這個統一底座中訓練,阿裏訓練 M6 大模型需要的能耗僅是 GPT-3 的 1%。
百度和騰訊也有相應的布局,百度擁有覆蓋超 50 億實體的中文知識圖譜,騰訊的熱啓動課程學習可以将萬億大模型的訓練成本降低到冷啓動的八分之一。
整體來看,各個大廠之間的側重點雖然有所不同,但主要特點就是降本增效,而能夠實現這一點,很大程度上就是受益于 " 一手包辦 " 的閉環訓練體系。
這種模式在單一大廠内部固然有優勢,但從行業角度而言,也存在一些問題。
國外成熟的 AI 産業鏈形成了數量衆多的 AI Infra 公司,這些公司有的專門做數據标注、做數據質量、或者模型架構等。
這些企業的專業性,能夠讓他們在某一個單一環節的效率、成本、質量上都要比大廠親自下場做得更好。
比如,數據質量公司 Anomalo 就是 Google Cloud 和 Notion 的供應商,它可以通過 ML 自動評估和通用化數據質量檢測能力,來實現數據深度觀察和數據質量檢測。
這些公司就像汽車行業的 Tier 1,通過專業的分工,能夠讓大模型企業不必重複造輪子,而隻需要通過整合供應商資源,就能快速地搭建起自己模型構架,從而降低成本。
但國内在這一方面并不成熟,原因在于:一方面國内大模型的主要玩家都是大廠,他們都有一套自己的訓練體系,外部供應商幾乎沒有機會進入;另一方面,國内也缺乏足夠龐大的創業生态和中小企業,AI 供應商也很難在大廠之外找到生存的空間。
以谷歌爲例,谷歌願意将自己訓練的數據結果分享給它的數據質量供應商,幫助供應商提高數據處理能力,供應商能力提升之後,又會反過來給谷歌提供更多高質量數據,從而形成一種良性循環。
國内 AI Infra 生态的不足,直接導緻的就是大模型創業門檻的拔高。
王慧文剛下場做光年之外的時候曾提出 5000 萬美金的投入,這筆錢其實是李志飛爲他算的,具體可以分爲 2000 萬美金搞算力,2000 萬美金找人,1000 萬美金做數據。這體現出一個直接的問題,如果将在中國做大模型比喻成吃上一頓熱乎飯,那必須從挖地、種菜開始。
目前,在 AI 2.0 的熱潮中,一個重要的特點就是 " 兩極化 ":最熱門的要麽是大模型層、要麽就是應用層。而類似 AI Infra(架構)的中間層,反而有很大的真空。
别都盯着造輪子,能造一顆好的螺絲也很重要。
04 結語:巨頭 & 創新者
王小川和百度的隔空口水戰,成爲最近大模型混戰中一個熱鬧的插曲。
" 高富帥 " 李彥宏認爲,中國基本不會再出 OpenAI,用巨頭的就可以了。
" 直男 " 王小川說,行業中有些人(李彥宏)對未來的觀點從來就沒有判斷對過,一直活在平行宇宙裏。
除了陳年恩怨,這大體上可以看作是巨頭和創業者之間的立場對立:巨頭都喜歡包攬一切,而創業者則喜歡打破常規。
而科技行業的成功似乎更依仗于創新。畢竟,從打造 AlophaGo 的 DeepMind,到發布 ChatGPT 的 OpenAI,沒有一個是從巨頭中孵化出來的。
這就是創新者的窘境。
對于科技巨頭而言,自己造輪子固然重要,但能找到、孵化出下一個 OpenAI 又未嘗不可呢?
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App