Kimi向Open AI發起沖擊

作者 | 劉寶丹

編輯 | 周智宇

5 天前，炙手可熱的 AI 獨角獸公司創始人楊植麟陷入一場仲裁糾紛，他堅定選擇了依法抗辯。AI 大模型正處于技術追趕的關鍵階段，他要把重心放在技術和産品上。

一年前的今天，Kimi 正式面向全社會開放服務。一年後，Kimi 迎來重磅技術叠代。

11 月 16 日，楊植麟在媒體溝通會上表示，Scaling 範式已經發生變化，公司接下來的重點是基于強化學習去 "Scale"。Scaling 是支撐 AI 技術在過去幾年發展的根本原因，但并不是把模型做得更大就好，核心是找到 Scaling 的有效方法。

楊植麟表示，簡單去預測下一個 token，其實有一定的局限性，我們希望 AI 能夠去探索，接下來很重要的一個東西就是讓 AI 具備思考的能力。

會上，月之暗面發布了最新的數學模型 k0 — math，該模型主要通過數學場景去培養和訓練 AI 深度思考的能力。這是 Kimi 推出的首款推理能力強化模型。

Kimi 将苗頭對準 OpenAI 的最新技術。在多項基準能力測試中，k0-math 的數學能力可對标 OpenAI 的 o1 系列。比如，在中考、高考、考研以及包含入門競賽題的 MATH 等 4 個數學基準測試中，k0-math 初代模型成績超過 o1-mini 和 o1-preview 模型。

不過，追趕 OpenAI 并沒有那麽容易。在兩個難度更大的競賽級别的數學題庫 OMNI-MATH 和 AIME 基準測試中，k0-math 初代模型的表現分别達到了 o1-mini 最高成績的 90% 和 83%。

目前，月之暗面已經開始在 k0-math 上做産品化，公司将強化學習用到 Kimi 探索版，讓它做更複雜的搜索。據楊植麟介紹，Kimi 探索版在搜索意圖、信源分析、鏈式思考方面表現顯著。

同時，數學本身有更廣泛的應用場景，月之暗面計劃把 k0 — math 應用到教育場景，包括 K12、大學甚至是競賽。

過去一年多，月之暗面經曆了飛速發展，無論是産品技術還是估值，都成爲最受矚目的 AI 獨角獸公司。

2023 年 3 月，月之暗面成立；11 月，Kimi 智能助手宣布全面開放，今年初，該産品因 " 長文本 " 出圈，誕生 Kimi 概念股，受到廣泛關注。截至目前，月之暗面已完成四次融資，阿裏、騰訊紛紛入股，公司估值超過 200 億元。

楊植麟在會上透露，Kimi 在 10 月月活超過 3600 萬，而且還在持續更快的增長。業内人士分析，Kimi 是僅次于豆包的 AI 應用，目前處于第一梯隊，不過，相對國外幾億量級的用戶而言，Kimi 還有很長一段路需要追趕。

公司已将 Scaling 範式切換到強化學習，華爾街見聞獲悉，公司的多模态産品已經處于内測當中，預計很快會對外公布，這些動作無疑将帶來更多用戶。

在這場全球 AI 競賽中，楊植麟要帶領月之暗面在一個裹挾着巨大希望和時刻被質疑的行業裏，闖出一條通往 AGI 的路，這場戰役才剛剛開始。

以下爲交流會實錄（經編輯）：

問：數據會不會成爲比較大的挑戰，怎麽判斷哪些數據可以用，哪些有價值？

楊植麟：這個問題對于強化學習來講是一個核心問題，如果是像以前做 Next — Token prediction，它是一個靜态數據，相對來說，這些技術會更成熟一些。但是對強化學習來講，所有的學習數據可能都是自己生成的，就會對獎勵模型效果提出挑戰。

對于這個問題，核心是怎麽更好地訓練獎勵模型，設置獎勵的機制，如果做得足夠好話，一定程度上是可以被解決的。有點像以前的（pretraining）你還要做很多的對齊工作，我覺得其實對強化學習來說也是一樣的。

問：對于強化學習，怎麽平衡數據、算力、算法？

楊植麟：我覺得 AI 的發展就是一個蕩秋千的過程，你會在兩種狀态之間來回切換，一種狀态就是算法數據是非常 ready，但是你的算力不夠。所以你要做更多的工程，把 infra 做得更好，它就能夠持續地提升。我覺得其實從 transformer 誕生到 GPT4，其實更多的矛盾就是我怎麽能夠 Scale，但是你可能在算法和數據上可能沒有本質的問題。

今天，當你 Scale 差不多的時候，你會發現我再加更多的算力，并不一定能直接解決這個問題，核心是，因爲你沒有高質量的數據，小幾十 G 的 token 是人類互聯網積累了 20 多年的上限。這個時候要做的事情，就是通過算法的改變，讓這個東西不會成爲瓶頸。所有的好算法就是跟 Scaling 做朋友，如果你的算法能夠釋放 Scaling 的潛力，它就會持續變得更好。

我們從很早就開始做強化學習相關的東西，我覺得這個也是接下來很重要的一個趨勢，通過這種方式去改變你的目标函數，改變你的學習的方式，讓它能持續的 Scale。

問：這個産品如果一至兩周之後放到 Kimi 探索版裏，用戶可以選擇用這個東西，還是你們會根據用戶的提問來分配模型？怎麽去平衡成本問題？

楊植麟：這個問題特别好，接下來的版本大概率會讓用戶自己去選擇。早期通過這種方式可以更好地分配或者更好地滿足用戶的預期。

這裏面最終可能還是一個技術問題，兩個點，一個點是能夠動态地給它分配最優的算力。如果模型足夠聰明的話，簡單的問題它的思考時間會更短。但是它可能還不是到最優的點，我覺得它還有更優，這是我們通過算法叠代去做的。

長期來講，第二個點是成本也是不斷下降的過程。比如說，今年如果達到去年 GPT4 模型的水平，可能隻需要十幾 B 的參數就能做到。所以我覺得整個行業先做大或者做小，是這樣的普遍普世的規律。

問：怎麽看待 AI 創業公司被收購，人才回流大的現象？

楊植麟：這個問題我們沒有遇到，但可能有一些别的公司遇到。

我覺得倒也正常，行業發展進入了一個新的階段，它從一開始有很多公司在做。變成了現在少一點的公司在做，接下來大家做的東西會逐漸不一樣，我覺得這是必然的規律。

我們主動選擇做了業務的減法，你應該聚焦一些重要的事情，把一個産品做好，做到極緻是最重要的。在幾個大模型創業公司裏，我們始終保持人數最少，保持卡和人的比例是最高的，我覺得這個是非常關鍵的。我們不希望把團隊擴那麽大，太大對創新有緻命性傷害。如果想把團隊保持在一定的規模，最好的方式是業務上做一些減法。

另外一點，我們也根據美國市場的情況去判斷，哪個業務最後做大的概率更高，我們聚焦在上限最高的事情，而且跟我們 AGI 的 misson 也最相關。

問：多模态我們一直不做的原因是什麽？

楊植麟：我們幾個多模态的能力在内測。

我覺得 AI 接下來最重要的是思考和交互這兩個能力，思考的重要性遠大于交互，不是說交互不重要，我覺得思考會決定上限，交互我覺得是一個必要條件，比如說 vision 的能力，如果沒有 vision 的能力沒法做交互。

我覺得他們兩個不太一樣，多模态肯定是必要的，但是我覺得是思考決定它的上限。

問：怎麽看自己跟豆包的競争？

楊植麟：我們還是更希望關注怎麽能給用戶帶來真正的價值，不希望過多去關注競争本身，因爲競争本身并不産生價值。deliver 更好的技術和産品，給用戶創造更大的價值，這是我們現在最核心的問題。

我們會更聚焦在，怎麽提升模型的思考推理能力，通過這個東西給用戶帶來更大的價值。我覺得，隻要有人實現 AGI，它都是非常好的結果。

問：Kimi 用是你們自己的基礎模型，還是開源？

楊植麟：我們自己在做。

提問：出海怎麽想？

楊植麟：我覺得先聚焦，然後全球化，需要更耐心一點。

問：大模型的投流的問題确實受關注，Kimi 投了上百萬的廣告，統計的金額四五億，我們在投流這塊是什麽策略？

楊植麟：第一數據不完全準确。第二，對我們來講最核心的是把留存和 getting growth 做好。适當的投放是需要的，但是需要平衡好這幾個東西之間的關系。

問：留存到多少會滿意？

楊植麟：永無止境。

問：至少 RIO 需要爲正吧？

楊植麟：看怎麽衡量吧，這個東西肯定需要去算，我們也會持續地提升。我們的好處是，跟技術的進展高度正相關。

問：投流成本很高？Kimi 怎麽能把成本收回來，怎麽做良性的商業化？

楊植麟：對我們來說，現在最關鍵的還是留存，我覺得這個還是需要看得再長遠一些。

問：美國預訓練的 Scale 遇到瓶頸，對于中國公司來說是好事還是壞事？能不能對未來做一些預測？

楊植麟：對我們來說它有可能是一個好事。假設你一直 Pre-Training（預訓練），你的預算今年 1B、明年 10B 或者 100B，它不一定可持續。

當然做強化學習也要 Scaling，隻是說 Scaling 的起點很低，可能在一段時間内你的算力就不會是瓶頸，這個時候創新能力是更重要的，在這種情況下，我覺得對我們反而是一個優勢。