Kimi 數學模型剛發布沒幾天,全新視覺思考模型就來了,且發布即上線可用。
模型代号k1,據官方介紹,基于強化學習,k1 原生支持端到端圖像理解和思維鏈技術。
因此," 解鎖了包括幾何圖形題在内更加全面的數學能力 "。

△圖片源自 " 月之暗面 Kimi" 公衆号
并且 k1 的思考能力不僅僅局限于數學領域,正所謂 " 學好數理化,走遍天下都不怕 "。
在官方曬出的數理化基準測試中,Kimi k1-preview 表現全面超越 OpenAI o1、GPT-4o、Claude 3.5 Sonnect。
△圖片源自 " 月之暗面 Kimi" 公衆号
這次 Kimi 新模型的發布還是直接上線可玩的那種,APP 或是網頁版找到 "Kimi 視覺思考版 " 即可點擊使用。

既然如此,這就趕緊來實測一波~
先來一道考研數學真題小試牛刀,這道題目涉及的知識點包括曲面積分、高斯定理等:

之前在量子位的實測中,這道題難住了 GPT-4o。
而 Kimi 視覺思考版經過一步步詳細推理,第一次就給出了正确答案。

它自己也表示進行了檢查沒有錯誤,"對這個答案非常有信心"。

再來一道曾經測試過 o1 的數學概論題。

Kimi 視覺思考版也一次就做對了:

接着是一道高考幾何真題:

面對這道題,Kimi 視覺思考版解答過程并不順暢,進行兩次嘗試後,還是沒能給出正确答案√ 3/4。


此外值得一提的是,大模型目前的數學能力還是沒有達到FrontierMath數學基準的及格線。
當然,FrontierMath 基準也确确實實是有點難爲 AI 了,畢竟它出自陶哲軒在内的 60 多位頂尖數學家之手,一衆頂流大模型正确率通通不到 2%。
如下面這道素域連續擴展問題,難度還隻是基準中的 " 中等 "。


出于好奇,我們讓 Kimi 視覺思考版嘗試了一下(萬一能做對呢)。
Kimi 視覺思考版逐步拆解了一通,也終究沒能解答正确。

數學能力看完後,再來小試一下物理題。
下面這道題是大學物理中的光學題:

Kimi 視覺思考版回答對了第一小題,但第二小題沒做對:

再來看下面這道高考物理題:

Kimi 視覺思考版同樣隻答對了一問,第二小問做對了,第一小問答錯:

不過,o1 也犯了同樣的錯誤,隻答對了一題。

最後再來看看做 " 化學題 " 怎麽樣(doge):
Candy, Happy, Bacon, Scary, Brain, House
Which is the odd one?
Hint: Chemistry
Kimi 視覺思考版的解釋雖然有理有據:


但 " 标準 " 答案是:


此外值得一提的是,除數理化視覺推理能力,官方還表示 Kimi 視覺思考版在" 噪聲 " 場景,即拍攝圖片模糊、手寫字迹潦草等情況下,性能損失幅度較小。
你覺得 Kimi 新模型的表現如何?感興趣的童鞋不妨親自上手考考它~
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>