文|鄧詠儀
編輯|蘇建勳
進入 2024 年,中國大模型公司面對的牌局愈發艱難。一方面,在 2023 年快速入局,獲得了大額融資、高昂估值的 " 六小虎 " 們,面對着各種聲音—— AI 應用同質化、尚未跑通的商業模式。
在另一面,以 OpenAI 爲首的頂級模型叠代速度放緩,GPT-5 遲遲未發,近期整個行業都在讨論:大模型的 Scaling Law 是否失效了?
但久未露面的月之暗面創始人楊植麟表示:Scaling Law 依舊有效,隻是 Scale 的東西變了。
△月之暗面創始人楊植麟 圖源:作者拍攝
11 月 16 日,月之暗面正式發布新數學模型 K0-math。
這是一個專注于計算能力的數學模型。在 Demo 中,K0-math 不僅展示了能夠解決數學競賽中的高難度數學題,更難得的,是能夠展現解題時的分布思考步驟——從拿到題目,到拆分步驟思考。在遇到解題步驟出現錯誤時,K0-math 還能夠自己反思思考的邏輯是否有誤,返回到特定的步驟重新展開推理。
月之暗面公布的基準測試顯示,Kimi k0-math 的數學能力,可對标全球領先的 OpenAI o1 中可公開使用的兩個模型:o1-mini 和 o1-preview。
楊植麟還專門強調,爲了讓和 o1 的對比足夠公平,月之暗面團隊使用了不同種類的測試集進行實時測試。
△ K0-math 模型基準測試結果 圖源:作者拍攝
在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中,k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。
在兩個難度更大的競賽級别的數學題庫—— OMNI-MATH 和 AIME 基準測試中,k0-math 初代模型的表現,則分别達到了 o1-mini 最高成績的 90% 和 83%。
僅僅在一個月前,Kimi 剛剛發布最新版本 "Kimi 探索版 ",将以 CoT(思維鏈爲主)的能力放到了模型當中。Kimi 探索版的 AI 自主搜索能力,可以模拟人類的推理思考過程,多級分解複雜問題,執行深度搜索,并即時反思改進結果。
無論是 Kimi 探索版還是如今的 K0-math,其釋放的信息都是類似的:不斷提升模型的智力、思考水平。這也是面對以 OpenAI o1 爲首的頂尖模型,Kimi 邁出的追趕第一步。
不過楊植麟也坦承,如今的 K0-math 還有不少局限性。
比如,對于高考難題、IMO 數學競賽等等難題,K0-math 還會有一定概率做錯。有時候,模型也會過度思考——對于 1+1=2 類的簡單數學題,模型可能會花沒有必要的步驟去反複驗證答案,甚至會 " 猜答案 ",但不能展現爲什麽可以得出正确的答案。
作爲國内 AI 初創公司中 " 技術理想主義派 " 的代表,楊植麟本人曾多次強調 Scaling Law(縮放定律,大模型最重要的技術原理)的意義和重要性。
但現在,他也明确表示行業範式正在發生改變:從原來的擴大計算和參數規模,到如今的強化學習爲主的技術路線,着重提升模型智力水平。
"AI 的發展就像蕩秋千,我們會在兩種狀态之間來回切換:有時候,算法、數據都很 ready 了,但是算力不夠,我們要做的就是加算力;但今天我們發現,不斷擴大算力規模已經不一定能直接解決問題了,所以這時就需要通過改變算法,來突破這個瓶頸。"楊植麟解釋。
數學模型 K0-math 之所以選擇在今天發布,也有其特殊意義:11 月 16 日,是月之暗面第一個産品 Kimi Chat 的一周年紀念日。
過去兩年裏,月之暗面是國内最受關注的 AI 初創公司之一。經曆了 2023 年的 Kimi 助手爆火,到 2024 年的極速投流增長、近期的仲裁風波,這個團隊一直處于風口浪尖之上,如同在迷霧中穿行。
但現在,月暗顯然并不打算回應一切。在發布會中,楊植麟隻講新模型和技術相關的問題,并簡單地公布了一個數字:截至 2024 年 10 月,Kimi 的月活用戶已經達到 3600 萬。
△ Kimi 最新用戶數據 圖源:作者拍攝
" 我仍然保持更樂觀的心态。" 楊植麟預測,行業範式轉向,并不意味着以擴大規模爲主的預訓練模式完全失靈——頂尖模型再未來半代到一代,還能釋放出預訓練的許多潛力。
而在模型的思考能力進一步提升後,這也意味着大模型能夠進一步落地,解決更多領域内的專有任務。
以下爲楊植麟在發布會中的更多發言與回應,經《智能湧現》編輯整理:
AI 的發展就像蕩秋千,本質上都要跟 Scaling 做好朋友
Q:轉向強化學習路線之後,數據會不會成爲模型叠代的比較大的挑戰?
楊植麟:這确實是強化學習路線的核心問題。以前我們做下一個字段預測的時候,通常用的是靜态數據,我們對數據的過濾、打分、篩選,這些技術都比較成熟。
但在強化學習路線上,所有的數據都是自己生成的(比如一些思考過程)。模型思考的時候,其實需要知道想法是對還是錯,這會對模型的獎勵模型提出更高的要求。我們還要做很多對齊的工作,一定程度可以抑制這些問題。
Q:在模型叠代的過程裏,無論是之前的擴大算力路線,還是說強化學習上,怎麽進行平衡?
楊植麟:我覺得 AI 的發展就是一個蕩秋千的過程,就是你會在兩種狀态之間來回這個切換一種狀态。如果你的算法、數據非常 ready,但是算力不夠,那麽你要做的事情就是做更多的工程,把 Infra 做得更好,然後它就能夠持續的提升。
從 Transformer 誕生到 GPT 4,我覺得基本上其實更多的矛盾是怎麽能夠 Scale,在算法和數據上它可能沒有本質的問題。
但今天當 Scale 得差不多的時候,你會發現加更多算力可能并不一定能直接解決的問題,核心是高質量的數據就沒有那麽多了,小幾十 T 的 token,這就是人類互聯網積累了 20 多年的上限。
所以我們需要通過算法的改變,讓這個東西不會成爲瓶頸。所有的好算法,都是和 Scaling 做朋友,讓它釋放更大的潛力。
我們在很早就開始做這個強化學習相關的東西,我覺得這是接下來很重要的一個趨勢了,通過這種方式改變目标函數、學習的方式,讓他們持續 Scale。
Q:非 Transformer 路線會不會解決這種問題?
楊植麟:不會,因爲它本身不是 Architecture 的問題,它是一個學習算法或者是沒有學習目标的問題。Architecture 我覺得沒有本質的問題。
Q:關于推理成本,數學版上線到 Kimi 探索版之後,是用戶可以去選擇不同的模型,還是你們會根據提問來分配?以及,你們現在的主要模式是打賞,而不是訂閱,怎麽平衡成本問題?
楊植麟:我們接下來的版本大概率會讓用戶自己去選擇。早期通過這種方式可以更好的分配或者更好的滿足用戶的預期,我們也不想讓它 1+1 等于多少,想半天,所以我覺得早期可能會用這樣的方案。
但最終,這可能還是一個技術問題。一,我們能動态的給它分配最優算力,模型足夠聰明的話,它就會知道什麽樣的問題匹配什麽樣的思考時間,和人一樣,不會 "1+1" 的問題也想半天。
二,成本也是不斷下降的過程。比如說今年你如果達到去年 GPT4 模型的水平,你可能隻需要十幾 B 的參數就能做到,去年可能需要一百多 B。所以我覺得覺得整個行業先做大或者做小,是這樣的普遍規律。
Q:現在 AI 圈子會不會被 Scaling Law 這件事限制住了?
楊植麟:我比較樂觀一點。核心就在于原來你用靜态數據集,靜态數據集其實是比較簡單粗暴的使用方式,現在用強化學習的方式很多情況下是有人在參與這個過程的。
比如,你标 100 條數據,你就能産生非常大的作用,剩下的都是模型在自己思考,我覺得以後更多的會用這種方式解決。
從做法上來看,(強化學習路線)确定性是比較高的,很多時候的問題在于怎麽真正把(模型)調出來,我覺得上限是很高的。
Q:你去年說長文本是登月的第一步,你覺得數學模型和深度推理是第幾步?楊植麟:就是第二步。
Q:預訓練的 Scale 現在都覺得遇到瓶頸了,美國遇到瓶頸以後你覺得對中美大模型的格局的影響是什麽?你覺得差距是變大還是變小?
楊植麟:我一直覺得,這個差距相對是一個常數,對我們來說它有可能是一個好事。
假設你一直 pretrain,你的預算今年 1B、明年 10B 或者 100B,它不一定可持續。
當然你做 Post-train(後訓練)也要 Scaling,隻是說你 Scaling 的起點很低。可能很長一段時間,你的算力就不會是瓶頸,這個時候創新能力是更重要的。在這種情況下,我覺得對我們反而是一個優勢。
Q:之前發的深度推理,還有包括你今天說的數學模型,它離普通用戶是比較遠的功能嗎?你怎麽看這個功能和用戶的關系?
楊植麟:其實也不遠。
我覺得是兩個方面的價值,第一個方面,數學模型今天在教育産品上其實有非常大的價值,在我們整體的流量裏,也起到很重要的作用。
第二個,我覺得它是技術上的叠代和驗證。以及我們可以把這個技術去放在更多的場景裏,比如我們剛剛說的探索版去做很多的搜索,我覺得它會有兩層這樣的含義。
保持單一産品形态,保持卡和人比例最高
Q:現在都在讨論 AI 應用的問題,Super App 還沒有出現,一大批的 AI 應用又非常同質化,你怎麽看?
楊植麟:我覺得 Super App 已經出現了,ChatGPT 已經有超過 5 億的月活,它是不是超級應用?至少半個吧,這個問題已經很大程度上被驗證了。
哪怕像 CharacterAI 這種産品,一開始用戶量也蠻多,但後面很難破圈。在這個過程裏,我們也會根據美國市場的情況,去判斷哪個業務最後做得最大、做成的概率更高。
我們還是會聚焦在我們認爲上限最高的事情,而且跟我們 AIG 的 misson 也最相關。
Q:現在整個行業都有出現 AI 創業公司被收購,以及人才出走、回流大廠的現象,你怎麽看待?
楊植麟:這個問題我們沒有遇到,但可能有一些别的公司遇到。我覺得倒也正常,因爲行業發展進入了一個新的階段,它從一開始有很多公司在做,變成了現在少一點的公司在做。
接下來大家做的東西會逐漸不一樣,我覺得這是必然的規律。有一些公司做不下去了,就會産生這些問題,我覺得這個是行業發展的規律。
Q:你們很少談到模型訓練上的情況,現在你們預訓練的情況是怎麽樣的?
楊植麟:我先說第一個問題,我覺得預訓練還有空間,大概半代到一代的模型,這個空間會在明年釋放出來。明年,我覺得領先的模型會把預訓練做到一個比較極緻的階段。
但是我們判斷,接下來最重點的東西會在強化學習上,就是範式上會産生一些變化。本質上,它還是 Scaling,并不是不用 Scale,隻是說你會通過不同的方式去 Scale,這是我們的判斷。
談未來、競争、出海
Q:Sora 馬上就要發産品了,你們什麽時候發多模态産品?怎麽看多模态這件事?
楊植麟:我們也做,我們幾個多模态的能力在内測。
關于多模态,我覺得 AI 接下來最重要的是思考和交互這兩個能力,思考的重要性遠大于交互。
不是說交互不重要,而是思考會決定上限。交互是一個必要條件,比如說 Vision(視覺)的,如果沒有 Vision 的能力,那就沒法做交互。
但思考是這樣的——你就看要做的這個任務,标注任務的難度有多大,你到底需要一個博士去标?還是每個人都可以标?哪個東西更難找到這樣的人?那這個東西就是 AI 的上限。
Q:怎麽看和豆包等一系列 AI 應用的競争?
楊植麟::我們還是更希望關注在怎麽能給用戶真正價值上,而不是過多去關注競争本身,因爲競争本身并不産生價值。
怎麽提升模型的思考推理能力,這是我們現在最核心的問題。通過這個東西給用戶帶來更大的價值,就是做正确的事情,而不專門去做不一樣的事情。我覺得隻要能有人實現 AGI,它都是非常好的結果。
Q:什麽時候決定隻做 Kimi 這一個産品?
楊植麟:大概今年二、三月份吧,或者三四月份,大概那個區間。一個是基于美國市場的判斷,二是基于我們自己的觀察,主要是這兩點,确實得做減法,不是瘋狂的做加法。
Q:爲什麽?
楊植麟:這兩年,我們主動的選擇做了業務的減法。我覺得這個還是很重要的,也是我們過去一年比較大的 lesson(教訓)。
我們一開始确實也嘗試過比如說幾個産品一塊做,這個在一定的時期内有可能是有效的,到後來發現還是要聚焦,把它做到極緻,是最重要的。
砍業務本質上也是在控制人數。這幾個大模型創業公司裏,我們始終保持人數最少,始終保持卡和人的比例最高,我覺得這個是非常關鍵的。
我們不希望把團隊擴那麽大,擴那麽大,對創新的影響是有緻命性的傷害的。三個業務一起做,我就活生生把自己變成大廠,我就沒有任何優勢。
Q:現在,你們最核心的任務是什麽?
楊植麟:最核心的任務就是提升留存,或者把留存作爲一個重要的衡量指标。
我覺得,用戶留存,和模型的成熟度、技術水平,也是一個正相關的過程。
包括思考能力還不夠強,交互不夠豐富,所以它今天能做的交互還比較有限。無論是跟用戶的交互,還是跟本身客觀世界的交互,還有很大的提升空間。
如果我們衡量離 AGI 目标的距離,我覺得現在還是初級階段。當然,每年都有比較大的進步,如果我們用去年的産品,你會發現可能根本沒法忍受。
Q:現在怎麽考慮出海問題?
楊植麟:我覺得先聚焦,然後全球化,需要更耐心一點。
Q:最近大家都在談大模型的投流問題,你們怎麽實現良性的商業化?
楊植麟:我覺得肯定有,但是對我們來說現在最關鍵的還是留存,我覺得這個還是需要看的再長遠一點,至少 ROI 需要爲正吧,這跟技術的進展是高度正相關的。
對我們來講最核心的是把留存和 Organic growth(自然增長)做好。适當的投放是需要的,但是你需要平衡好這幾個東西之間的關系。