消停了一陣子之後,國内又有大模型公司打榜 OpenAI 了。
這不, Kimi 最近推了個數學模型 k0-math ,号稱數學能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ,中高考、考研還有入門競賽題都能跟 o1 過過招。
該說不說, AI 模型開始 " 炒作 " 起數學能力,這事兒還挺稀奇,畢竟 AI 的數學能力拉胯也不是一天兩天了,連 strawberry 裏有幾個 r 都一直數不清。。。
就連 OpenAI 的 o1 發布時,也沒有直說自己的數學多麽多麽厲害,隻是點了一下推理能力罷了。
所以原本以長文本出圈兒的 Kimi ,這回突然卷起了數學,世超确實很好奇,好奇這個 k0-math 到底啥水平啊?
而世超在哥們兒的幫助下,也提前體驗了一陣子,今天就借着 Kimi 數學版( 基于 k0-math 模型 )全量開放了,帶着大家瞧瞧這個數學模型有多少斤兩。
目前, Kimi 數學版隻能在網頁版上用,入口倒是跟之前的普通版和探索版沒啥區别,但有一點,Kimi 數學版隻支持一輪對話。
像世超一上來,就直戳 Kimi 痛處翻了波舊賬,問它 "13.11% 和 13.8% ,哪個更大? " 。(之前 Kimi 在這上面翻過車,說 13.11 的整數部分和小數部分都大于 13.8 。。 )
這次倒是學機靈了,而且很簡單的比數值大小, Kimi 數學版都用上了 " 爲了進一步确認 "" 爲了确保萬無一失 "" 經過多種方法的驗證 " 這些話術, kuku 輸出了二三十行。
隻不過當世超想再次追問的時候,出來的就不是 k0-math 模型了。
當然,這隻是個小插曲,既然官方都已經把 k0-math 的實力挑明,那咱也不客氣了。
直接上今年高考新課标 1 卷的數學題:已知 cos ( a+ β ) =m , tanatan β =2 ,則 cos ( a- β ) = ?
雖說解題過程有些波折,但總算是沒把最後 -3m 的答案弄錯。
這個問題我同時也問了智譜清言和 ChatGPT ,答案倒是沒出入,但區别于一個步驟一個步驟列出來, Kimi 數學版給我一種,它真的在模仿人類思考的過程。
模型在推導的過程中,懷疑過自己的思路可能是錯誤的,并且對此進行了驗證。
但下面這道概率題, Kimi 數學版就沒那麽好運了。
标準答案是 1/2 ,隻有 ChatGPT 答對了。
世超看了眼 Kimi 數學版的推導過程, 24 種可能發生的情況它都列舉出來了,而且每一種情況誰輸誰赢也盤得清清楚楚,甚至最後還檢查了一遍。
但最大的問題出在,它把甲的總得分≥ 2 的次數,漏數了一個。。。實屬可惜。
咱再找一道 AMC 數學競賽的題目,給 Kimi 數學版試試。
一個集合由 6 個( 不是不同的 )正整數組成:1 、 7 、 5 、 2 、 5 和 X 。6 個數字的平均值( 算術平均值 )等于集合中的一個值。X 的所有可能值之和是多少?
這次世超還把豆包也加進來了,同一道題,四個模型隻有智譜清言的算錯了。(正确答案是 36)
還有個小插曲,本來世超想再給 Kimi 試一道競賽題,結果它直接反過來質疑我。。試了好幾次都是這麽個回答,不知道是系統的 bug ,還是它壓根就不會兒這題,幹脆裝死。
有一說一,好幾道數學題試下來, Kimi 數學版确實給了我不少驚喜,特别是解題過程中展現出來的思考、推理的能力,又刷新了一波咱對 AI 模型數學能力的認知。
隻可惜幾何題一如既往的菜,隻是一道初中級别的幾何選擇題,給 Kimi 數學版的 CPU 都快幹燒了,結果還是錯的答案。
至于爲啥 Kimi 的 k0-math 模型能有這麽大的突破,前段時間世超參加了一場月之暗面的媒體會,月之暗面的創始人楊植麟就告訴世超, k0-math 的成功很大概率要歸功于一個叫做 COT ( Chain of Thought )思維鏈的技術。
太專業的術語咱也不在這拽了,大夥兒可以把這個 COT 理解爲, AI 模型模仿人類的大腦進行邏輯推理,把複雜的任務拆解之後,再一步步地解決。把這個技術運用到模型裏,模型就能夠通過 " 思考 " 來完成任務并提高正确率。
而爲啥先把這東西用在了一個數學模型上,楊植麟直接引用了伽利略的名言 " 宇宙是由數學這門語言書寫而成的 " 。
總之,就是希望先從數學問題入手,再将數學的思維泛化,從而去理解整個世界。
當然,并不是說模型一旦用上了思維鏈就能得到正确的答案,但這個方式,目前确實可以提高模型對複雜任務的推理能力。
再舉個例子,咱讓 Kimi 數學版統計 " chaping debug the world " 裏,有幾個字母 "e" 。
先分别把 " chaping "" debug "" the "" world " 單獨拎出來,再挨個字母一個個查,方法雖然笨,但至少不會出錯。
就這麽說吧,這道簡單的數數題,世超試了一下,隻有 Claude 和 Kimi 數學版數對了。
包括在 " 我有一塊 1 米長的面包,每天吃一半,需要幾天才能把這塊面包吃完 ? " 的問題中,在大部分 AI 給出永遠吃不完的答案時, Kimi 數學版覺得 " 是有物理極限的 " ,認爲分到了一納米就不能分了。。。
這種對任務拆解的能力,誇張到什麽程度,即使你問它 1+1 等于多少, Kimi 數學版都能給你唠半天,截圖根本截不完。
另外,在思維鏈的作用下,對糾正 AI 模型犯蠢、不會抓重點的老毛病也有一定效果。
像前段時間蘋果就發了篇論文,大概意思是說模型壓根就不會推理,随便加幾個無關痛癢的幹擾條件,模型的準确率就會下降。
但世超這次分别拿 Kimi 數學版和豆包試了試,題目是:超市裏,每袋大米售價 50 元,每瓶醬油售價 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,并且送給鄰居 1 袋大米和 2 瓶醬油,那麽鮮蝦包購買大米比醬油多花了多少錢?
這道題,還特地加了 " 送給鄰居 1 袋大米和 2 瓶醬油 " 的陷阱。
豆包多少就有點不懂人情世故了,還把自個兒留存的大米和醬油單獨拎出來算。
反觀 Kimi 數學版,深知送出去的禮物潑出去的水。
反正測試下來, k0-math 的解題準确率不能說百分百,但調用了思維鏈之後的邏輯推理過程,很大程度上提高了 Kimi 這個做題家的數學水平。
而且世超也發現,除了 k0-math 外,國内的幻方 DeepSeek 前兩天也搞了個推理模型 DeepSeek-R1-Lite ,同樣也是紙上水平媲美 o1 。
又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是還在長文本嗎,這怎麽突然就卷起了推理能力了?
其實,傳統的拼算力、拼數據在大模型領域,已經遇到了一定的瓶頸,而靠着強化學習,提高大模型的推理能力,已經成了大夥們卷的新方向。
這強化學習說白了,就是在訓練時讓 AI 自己試錯,最後摸索出正确答案。
像 Claude Sonnet 3.5 就是基于強化學習,實現了代碼能力的提升。包括 Kimi 創始人楊植麟在前陣子的媒體分享會上,也無數次 cue 到了強化學習,還說他們接下來會越來越關注基于強化學習的方法去繼續叠代。
最後,借用楊植麟的 " 登月論 " ,如果說,先前的長文本是通往 AGI 的第一步,那麽現在讓 AI 學會思考,則是正式開啓了第二階段。
撰文:西西