Kimi 數學模型剛發布沒幾天,全新視覺思考模型就來了,且發布即上線可用。
模型代号k1,據官方介紹,基于強化學習,k1 原生支持端到端圖像理解和思維鏈技術。
因此," 解鎖了包括幾何圖形題在内更加全面的數學能力 "。
△圖片源自 " 月之暗面 Kimi" 公衆号
并且 k1 的思考能力不僅僅局限于數學領域,正所謂 " 學好數理化,走遍天下都不怕 "。
在官方曬出的數理化基準測試中,Kimi k1-preview 表現全面超越 OpenAI o1、GPT-4o、Claude 3.5 Sonnect。
△圖片源自 " 月之暗面 Kimi" 公衆号
這次 Kimi 新模型的發布還是直接上線可玩的那種,APP 或是網頁版找到 "Kimi 視覺思考版 " 即可點擊使用。
既然如此,這就趕緊來實測一波~
先來一道考研數學真題小試牛刀,這道題目涉及的知識點包括曲面積分、高斯定理等:
之前在量子位的實測中,這道題難住了 GPT-4o。
而 Kimi 視覺思考版經過一步步詳細推理,第一次就給出了正确答案。
它自己也表示進行了檢查沒有錯誤,"對這個答案非常有信心"。
再來一道曾經測試過 o1 的數學概論題。
Kimi 視覺思考版也一次就做對了:
接着是一道高考幾何真題:
面對這道題,Kimi 視覺思考版解答過程并不順暢,進行兩次嘗試後,還是沒能給出正确答案√ 3/4。
此外值得一提的是,大模型目前的數學能力還是沒有達到FrontierMath數學基準的及格線。
當然,FrontierMath 基準也确确實實是有點難爲 AI 了,畢竟它出自陶哲軒在内的 60 多位頂尖數學家之手,一衆頂流大模型正确率通通不到 2%。
如下面這道素域連續擴展問題,難度還隻是基準中的 " 中等 "。
出于好奇,我們讓 Kimi 視覺思考版嘗試了一下(萬一能做對呢)。
Kimi 視覺思考版逐步拆解了一通,也終究沒能解答正确。
數學能力看完後,再來小試一下物理題。
下面這道題是大學物理中的光學題:
Kimi 視覺思考版回答對了第一小題,但第二小題沒做對:
再來看下面這道高考物理題:
Kimi 視覺思考版同樣隻答對了一問,第二小問做對了,第一小問答錯:
不過,o1 也犯了同樣的錯誤,隻答對了一題。
最後再來看看做 " 化學題 " 怎麽樣(doge):
Candy, Happy, Bacon, Scary, Brain, House
Which is the odd one?
Hint: Chemistry
Kimi 視覺思考版的解釋雖然有理有據:
但 " 标準 " 答案是:
此外值得一提的是,除數理化視覺推理能力,官方還表示 Kimi 視覺思考版在" 噪聲 " 場景,即拍攝圖片模糊、手寫字迹潦草等情況下,性能損失幅度較小。
你覺得 Kimi 新模型的表現如何?感興趣的童鞋不妨親自上手考考它~
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>