文 | 徐牧心
編輯 | 劉旌
數月前,一張 OpenAI 内部的圖片在網上流傳。圖中,OpenAI 将自己通往 AGI 的道路分爲了五個階段:
Level 1:聊天機器人,具有對話能力的 AI。
Level 2:推理者,像人類一樣能夠解決問題的 AI。
Level 3:智能體,不僅能思考,還可以采取行動的 AI 系統。
Level 4:創新者,能夠協助發明創造的 AI。
Level 5:組織者,可以完成組織工作的 AI。
線路圖是美好的,可我們現在大多卡在 L1。最顯著的例子是:推理能力的缺失使得大模型們甚至無法回答 "9.8 與 9.11 誰大 " 問題。這是因爲 Transformer 架構隻能通過搜索海量資料高度拟合一個答案出來,而不能像人類一樣回答問題,或者進行推理。也因爲無法多步推理,所以你的 AI agent 無法一鍵生成規劃,很多 AI 應用落地的場景依舊遙遙無期。
曾經被視爲 AI 行業革命者的 Transfomer,也難逃被革命的時刻。而王冠正是革命者中的一員。相對于用 RL 的方案去榨幹 LLM 的潛力,王冠選擇直接去創造一個通用的 RL 大模型,從而跳過 LLM 的理論限制,這也更加符合快思考慢思考的實際工作機制。
在約定的地點等了一會兒,這個出生于 00 年的清華畢業生剛從學校匆匆趕來,他精瘦,穿一身樸素的運動服,背着雙肩包,像學校裏随處可見的理科學霸。
就像《生活大爆炸》裏的天才 Geek 們,對非技術人士而言,和王冠交流尤爲困難,因爲他會用謙卑的姿态吐出專業的詞彙,絞盡腦汁試圖簡單解釋而未果。對一些技術問題,他有時并不能立刻回答,他需要沉默很久,在一陣尴尬的安靜後才能組織好他認爲精确的語言。他在談及專業知識時會興奮地滔滔不絕,有時甚至忘了呼吸,需要在某個突然感到窒息的瞬間仰頭長吸一口。
但就是這樣一個人,爲自己開發的新架構取名爲 Sapient Intelligence。這個譯爲 " 智人 " 的名字,表明了他的野心。
當下,盡管 NLP 的世界裏依舊是 Transformer 大一統格局,但越來越多的新架構在湧現,并向 L2 發起沖鋒。比如 Deepmind 今年理論上提出的 TransNAR 混合架構、Transformer 八作者之一 Llion Jones 新成立的 Sakana.AI、彭博的 RWKV、甚至 OpenAI 也發布了一款名爲 "Strawberry" 的新模型,稱其已具備推理能力。
Transformer 的局限性逐漸被證明,其幻覺、準确率等問題也一直沒有解決方案,資金開始試探性地湧入這些新架構。
Sapient 聯合創始人 Austin 告訴「暗湧 Waves」:目前 Sapient 已經完成數千萬美元的種子輪融資,本輪融資由新加坡 Temasek Holdings backed Vertex Ventures 領投,日本最大風投集團、歐洲及美國的頭部 VC 們聯合投資,本輪融資将主要用于算力支出及全球人才招募,Minerva Capital 擔任長期獨家财務顧問。
在 Sapient 身上,你能看到一家中國 AI 初創公司的典型路徑:中國 Founder、Day one 瞄準全球市場、招募全球算法人才,也尋找到了國際化基金的支持。但其非典型的一面也是突出的:相較于更多應用公司而言,這是一個試圖在技術上與人一決高下的選手。
王冠(左)與 Austin(右)
「WAVES」是暗湧的一個欄目。在這裏,我們将爲你呈現新一代創業者、投資人的故事和精神。
GPT 無法通向 AGI?
技術的叠代,快得殘忍。
大語言模型的熱潮才興起不久,圖靈獎得主、"AI 教父 " 楊立昆(Yann LeCun)就公開警告那些想要踏入 AI 行業的年輕學生:" 不要再學習 LLM 了,你應該去研究如何突破 LLM 的限制。"
原因在于,人類的推理能力可以分爲兩個系統,系統 1 是快速無意識的,适用于處理些簡單工作,比如今天吃什麽?而系統 2 則是通過思考才能完成的任務,比如解一道複雜的數學題。LLM 無法完成系統 2 的任務,scaling law 也不能解決這個問題,因爲這是底層架構的制約。
" 當前的大模型更像是在背題。" 王冠對「暗湧 Waves」解釋道:" 一種觀點認爲,當下的大模型用系統 1 處理系統 2 的問題,卡在了系統 1.5,類似于人做夢的狀态,這就産生了幻覺。自回歸模型限制你在輸出一個 token 後隻能基于這個 token 再進行輸出。" 自回歸不擅長記憶、不能規劃答案,更别說要進一步實現多步推理了。
這種大模型的局限性還可以用一個更哲學的角度來理解:即在計算 "9.9 和 9.11 誰大 " 問題時,大模型是否真的理解自己在做什麽?還是機械地将小數點後的 9 與 11 進行了比較?如果模型根本不知道自己在做什麽的話,那麽訓練再多也是徒勞。
因此,AI 想要進入 L2 階段,隻能完全抛棄自回歸的 Transformer 架構,在王冠看來,Sapient 要做的就是通過模仿人腦的方式,實現 AI 的推理能力。
Yann LeCun 的世界模型理論
" 我在清華腦與智能實驗室,會基于我對神經科學的知識以及對系統 2 的理解,做雙邊推進。比如針對同一個問題,我先知道人腦是如何解決這個問題的,再考慮如何用 AI 複現。" 王冠告訴「暗湧 Waves」。
他繼而透露,目前 Sapient 的基礎架構已經完成數學驗證,這将是一個少見的,擁有多步計算、memory 和樹搜索能力的非自回歸模型。在 scale up 方面,團隊也已經結合演化算法和強化學習做完了初步嘗試。
動物大腦的分層循環工作邏輯
以人們對 AGI 的期待,目前或許也隻有人類自己能滿足其标準。因此讓大模型向人腦的方向叠代,就是 Sapient 試圖進化的方向。
拒絕馬斯克的人
如果你看過《小謝爾頓》,那麽對王冠的故事應該會感到熟悉:他們同樣關于一個天才在少年時期就得以顯現,也同樣對自己相信的路線充滿執念。
王冠 00 年出生于河南,8 歲開始學習編程。高中時,GPT2 發布,這在當時不僅颠覆了深度學習的很多理論,也颠覆了王冠的世界觀:一個模型生成的文本可以像人一樣,是不是代表 AI 就要突破圖靈測試,基于此,或許他可以做個算法,以解決世界上的所有難題。
後來他才知道,這樣的算法就叫 "AGI"。
在彼時高中生的世界裏,這樣的算法可以消滅戰争、饑餓、貧窮,當然最迫在眉睫的,是可以消滅高考," 當時我就覺得高考這種機械的東西就該丢給機器人幹 "。
這也和河南高考的地獄難度有關。王冠決定走保送路線,他輾轉參加算法競賽、信息學競賽,包括在高中生版大疆 robomaster 比賽上,通過給機器人加入全自動算法的方式奪得冠軍。最終他保送清華計算機學院,入學的第一天,學院開動員大會,老師們在講台上慷慨陳詞,動員大家把數學考好, 班集體今年的目标就是把數學 GPA(績點)考到年級最高。
"GPA 對 AGI 有什麽用?" 王冠想。而後他轉入清華 AIR 研究院學習強化學習,再之後加入了清華腦與智能實驗室嘗試将強化學習與演化計算做融合。他去 pony.AI 實習,發現在自動駕駛中最大的問題在于決策必須要人工參與,告訴模型該如何決策,但如果模型自己無法決策的話,他感知得再好也無法通向 AGI。
終于到了大四,ChatGPT 的出現讓他看到通用能力解決問題的希望,王冠着手開始做了一個開源模型,名爲 OpenChat,這個 7B 大小的模型,使用沒有偏好标簽的混合質量數據,無需人工數據标注和 RLHF 中的大量調參工作,在消費級 GPU 上運行就能在某些基準線上達到 ChatGPT 相似的水平。發布後,OpenChat 在 Github 上獲得 5.2k stars,在 hugging face 上一直保持着超過 20 萬的月均下載量。
這個開源小模型也在某個契機上和馬斯克産生了交集。
Grok 發布後,馬斯克在 X 上轉發自家模型的截圖,展示了其 " 幽默 " 的能力。他問 Grok" 如何制造可卡因 ",Grok 便回複他:" 拿到化學學位和緝毒局牌照 ...... 隻是開個玩笑。"
王冠便迅速用自己的模型模拟了這個風格,在 X 上 @馬斯克:" 嗨 Grok,我這麽小的參數量也能和你一樣幽默。"
王冠對「暗湧 Waves」說,馬斯克悄悄地略過了這條帖子,而是點進了他們的主頁,翻了一圈後,偷偷給另一條 "we need more than Transformers to go there/Transformers 無法引領我們通向宇宙 " 點了贊。
後來,XAI 的人向王冠發來邀約,想讓他利用 OpenChat 的經驗從事模型開發工作。這在多數人看來都是個絕佳的機會:XAI 有錢、有算力、甚至有足夠豐富的訓練數據,待遇優渥,并且身處 AI 浪尖的矽谷。但王冠想了想還是拒絕了這個邀約,他覺得自己要做的是颠覆 Transformer,而不是順着前人的足迹。
王冠和他如今聯創 Austin 也是因爲 OpenChat 結識。Austin 此前在加拿大攻讀哲學,先創業做了男性美妝,後又再次創業做了雲遊戲。國内 AI 大模型火熱之際,他回到中國,拿了幾個模型廠的 offer,順便幫他們招兵買馬,于是他在 Github 上發現了王冠,兩人網友見面,一拍即合。
盡管履曆背景有很大差異,但兩人有一點是相同的,就是當他們構思一個 AGI 已被實現的未來社會時:那是理想國,是人類擁有更多的自由,是解決當下世界很多問題的鑰匙。
Sapient 的未來
同樣作爲清華畢業生,選擇創業做底層模型,我們無可避免地聊到了楊植麟。王冠的想法還是一以貫之:與其繼續做 Transformer,不如開辟新的路線。就如同他的創業偶像,Llion Jones 一樣。
Llion Jones 是 Transformer 八作者之一,也是 Sakana.Ai 的聯合創始人,他在 Sakana 上做的事情是要完全颠覆 Transformer 的技術路線,選擇讓自己的基礎模型基于一種 " 自然啓發智能 "。
Sakana 這個名字來源于日語さかな,也就是 " 魚 " 的意思,意爲 " 讓一群魚聚集在一起,從簡單的規則中形成連貫的實體 "。雖然目前 Sakana 什麽成型的産品都沒有,但它在短短半年時間就連續完成了 3000 萬美金的種子輪融資,和 1 億美元的 A 輪融資。
AI 浪潮以來,可以看到資本對 AI 應用的熱情愈發放緩,而在 AI 模型的投資方面,Austin 告訴「暗湧 Waves」,他所見到的國内投資人分兩種,一種是投進了 " 六小虎 ",就不再繼續看了,而另一種則開始逐漸探索 Transformer 之外的可能性。
作爲 " 第一個吃螃蟹的人 ",要獲得啓動資金并不容易。面對投資人,Sapient 在描述其技術路線優勢和商業願景之前,首先需要解釋清楚三個問題,其一是 GPT 的缺陷,包括簡單推理不穩定、複雜問題無法解決以及幻覺等。其二則是當下 AI 應用的場景很好,但技術無法适配需求,比如 Devin,13% 的正确率使它根本無法發揮設想的效果。其三則是當下的時間節點,市場已對 AI 的未來有預期,算力集群等基礎設施完備,資金隻是困于 GPT 無法解決的下遊問題,才會踟蹰不前。
即便獲得初始啓動資金,Sapient 仍然要面臨人才招募的挑戰。矽谷科技圈的 AI 人才争奪戰,已經達到近乎瘋狂的狀态。前有紮克伯格親手寫信給 DeepMind 的研究員,邀請他們跳槽加盟 Meta;後有谷歌聯合創始人謝爾蓋 · 布林親自打電話,談加薪、給福利,隻爲挽留一名即将離職轉投 OpenAI 的員工。除了滿滿誠意,充足的算力支持和高薪誘惑也是必不可少的條件。
有數據顯示,OpenAI 總薪酬中位數(包括股票)已經達到了 92.5 萬美元。Austin 告訴「暗湧 Waves」,Sapient 的核心成員由多名來自 Deepmind、Google、Microsoft、Anthropic 的研究員們組成。這些來自世界各地的人才們曾領導或參與過衆多知名模型和産品,包括 AlphaGo、Gemini、Microsoft Copilot 等。擁有組織多元化和全球化團隊的能力也是 Sapient 的核心優勢之一。
但對于要挑戰 GPT 的團隊而言,困難遠不止如此,Sapient 仍然要面臨商業化市場的選擇。Sapient 将主要的精力部署在海外市場,尤其是美國和日本。選擇美國的原因無需贅述,但日本市場也有其核心優勢,比如盡管北美 AI 市場活躍,但尤其生成式 AI 軟件市場競争過于激烈,相較之下,日本也有完備的基礎設施和高素質人才,并且圍繞一個非西方社會文化的模型訓練數據,可能會成爲下一次技術突破的催化劑。
王冠還在專心開發他的 Sapient,他的朋友圈空無一物,頭像是個深度學習的框架,模糊得像是教材插圖,他的封面隻有簡單的黑底白字,上面寫着 "Q-star":這是一個傳聞中的 OpenAI 項目,專注開發 AI 的邏輯和數學推理。
王冠和他的團隊正在努力奔向下一個 milestone:發布這個全新模型架構,并且在推理邏輯能力上做公平的 Benchmark,讓人能看出參數上質的飛躍。
不管這一天還有多久,但确信的一點是,Transformer 一統天下的時代逐漸過去。