Kimi的數學模型來了，這次甚至能挑戰高考。

消停了一陣子之後，國内又有大模型公司打榜 OpenAI 了。

這不， Kimi 最近推了個數學模型 k0-math ，号稱數學能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ，中高考、考研還有入門競賽題都能跟 o1 過過招。

該說不說， AI 模型開始 " 炒作 " 起數學能力，這事兒還挺稀奇，畢竟 AI 的數學能力拉胯也不是一天兩天了，連 strawberry 裏有幾個 r 都一直數不清。。。

就連 OpenAI 的 o1 發布時，也沒有直說自己的數學多麽多麽厲害，隻是點了一下推理能力罷了。

所以原本以長文本出圈兒的 Kimi ，這回突然卷起了數學，世超确實很好奇，好奇這個 k0-math 到底啥水平啊？

而世超在哥們兒的幫助下，也提前體驗了一陣子，今天就借着 Kimi 數學版（基于 k0-math 模型）全量開放了，帶着大家瞧瞧這個數學模型有多少斤兩。

目前， Kimi 數學版隻能在網頁版上用，入口倒是跟之前的普通版和探索版沒啥區别，但有一點，Kimi 數學版隻支持一輪對話。

像世超一上來，就直戳 Kimi 痛處翻了波舊賬，問它 "13.11% 和 13.8% ，哪個更大？ " 。（之前 Kimi 在這上面翻過車，說 13.11 的整數部分和小數部分都大于 13.8 。。）

這次倒是學機靈了，而且很簡單的比數值大小， Kimi 數學版都用上了 " 爲了進一步确認 "" 爲了确保萬無一失 "" 經過多種方法的驗證 " 這些話術， kuku 輸出了二三十行。

隻不過當世超想再次追問的時候，出來的就不是 k0-math 模型了。

當然，這隻是個小插曲，既然官方都已經把 k0-math 的實力挑明，那咱也不客氣了。

直接上今年高考新課标 1 卷的數學題：已知 cos ( a+ β ) =m ， tanatan β =2 ，則 cos ( a- β ) = ？

雖說解題過程有些波折，但總算是沒把最後 -3m 的答案弄錯。

這個問題我同時也問了智譜清言和 ChatGPT ，答案倒是沒出入，但區别于一個步驟一個步驟列出來， Kimi 數學版給我一種，它真的在模仿人類思考的過程。

模型在推導的過程中，懷疑過自己的思路可能是錯誤的，并且對此進行了驗證。

但下面這道概率題， Kimi 數學版就沒那麽好運了。

标準答案是 1/2 ，隻有 ChatGPT 答對了。

世超看了眼 Kimi 數學版的推導過程， 24 種可能發生的情況它都列舉出來了，而且每一種情況誰輸誰赢也盤得清清楚楚，甚至最後還檢查了一遍。

但最大的問題出在，它把甲的總得分≥ 2 的次數，漏數了一個。。。實屬可惜。

咱再找一道 AMC 數學競賽的題目，給 Kimi 數學版試試。

一個集合由 6 個（不是不同的）正整數組成：1 、 7 、 5 、 2 、 5 和 X 。6 個數字的平均值（算術平均值）等于集合中的一個值。X 的所有可能值之和是多少？

這次世超還把豆包也加進來了，同一道題，四個模型隻有智譜清言的算錯了。（正确答案是 36）

還有個小插曲，本來世超想再給 Kimi 試一道競賽題，結果它直接反過來質疑我。。試了好幾次都是這麽個回答，不知道是系統的 bug ，還是它壓根就不會兒這題，幹脆裝死。

有一說一，好幾道數學題試下來， Kimi 數學版确實給了我不少驚喜，特别是解題過程中展現出來的思考、推理的能力，又刷新了一波咱對 AI 模型數學能力的認知。

隻可惜幾何題一如既往的菜，隻是一道初中級别的幾何選擇題，給 Kimi 數學版的 CPU 都快幹燒了，結果還是錯的答案。

至于爲啥 Kimi 的 k0-math 模型能有這麽大的突破，前段時間世超參加了一場月之暗面的媒體會，月之暗面的創始人楊植麟就告訴世超， k0-math 的成功很大概率要歸功于一個叫做 COT （ Chain of Thought ）思維鏈的技術。

太專業的術語咱也不在這拽了，大夥兒可以把這個 COT 理解爲， AI 模型模仿人類的大腦進行邏輯推理，把複雜的任務拆解之後，再一步步地解決。把這個技術運用到模型裏，模型就能夠通過 " 思考 " 來完成任務并提高正确率。

而爲啥先把這東西用在了一個數學模型上，楊植麟直接引用了伽利略的名言 " 宇宙是由數學這門語言書寫而成的 " 。

總之，就是希望先從數學問題入手，再将數學的思維泛化，從而去理解整個世界。

當然，并不是說模型一旦用上了思維鏈就能得到正确的答案，但這個方式，目前确實可以提高模型對複雜任務的推理能力。

再舉個例子，咱讓 Kimi 數學版統計 " chaping debug the world " 裏，有幾個字母 "e" 。

先分别把 " chaping "" debug "" the "" world " 單獨拎出來，再挨個字母一個個查，方法雖然笨，但至少不會出錯。

就這麽說吧，這道簡單的數數題，世超試了一下，隻有 Claude 和 Kimi 數學版數對了。

包括在 " 我有一塊 1 米長的面包，每天吃一半，需要幾天才能把這塊面包吃完 ? " 的問題中，在大部分 AI 給出永遠吃不完的答案時， Kimi 數學版覺得 " 是有物理極限的 " ，認爲分到了一納米就不能分了。。。

這種對任務拆解的能力，誇張到什麽程度，即使你問它 1+1 等于多少， Kimi 數學版都能給你唠半天，截圖根本截不完。

另外，在思維鏈的作用下，對糾正 AI 模型犯蠢、不會抓重點的老毛病也有一定效果。

像前段時間蘋果就發了篇論文，大概意思是說模型壓根就不會推理，随便加幾個無關痛癢的幹擾條件，模型的準确率就會下降。

但世超這次分别拿 Kimi 數學版和豆包試了試，題目是：超市裏，每袋大米售價 50 元，每瓶醬油售價 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油，并且送給鄰居 1 袋大米和 2 瓶醬油，那麽鮮蝦包購買大米比醬油多花了多少錢？

這道題，還特地加了 " 送給鄰居 1 袋大米和 2 瓶醬油 " 的陷阱。

豆包多少就有點不懂人情世故了，還把自個兒留存的大米和醬油單獨拎出來算。

反觀 Kimi 數學版，深知送出去的禮物潑出去的水。

反正測試下來， k0-math 的解題準确率不能說百分百，但調用了思維鏈之後的邏輯推理過程，很大程度上提高了 Kimi 這個做題家的數學水平。

而且世超也發現，除了 k0-math 外，國内的幻方 DeepSeek 前兩天也搞了個推理模型 DeepSeek-R1-Lite ，同樣也是紙上水平媲美 o1 。

又是 o1 系列，又是 k0-math 、 DeepSeek-R1-Lite ，可能有差友也好奇，之前不是還在長文本嗎，這怎麽突然就卷起了推理能力了？

其實，傳統的拼算力、拼數據在大模型領域，已經遇到了一定的瓶頸，而靠着強化學習，提高大模型的推理能力，已經成了大夥們卷的新方向。

這強化學習說白了，就是在訓練時讓 AI 自己試錯，最後摸索出正确答案。

像 Claude Sonnet 3.5 就是基于強化學習，實現了代碼能力的提升。包括 Kimi 創始人楊植麟在前陣子的媒體分享會上，也無數次 cue 到了強化學習，還說他們接下來會越來越關注基于強化學習的方法去繼續叠代。

最後，借用楊植麟的 " 登月論 " ，如果說，先前的長文本是通往 AGI 的第一步，那麽現在讓 AI 學會思考，則是正式開啓了第二階段。

撰文：西西