「雷峰網消息」今天,月之暗面官方宣布:繼 11 月 16 日發布數學模型 k0-math 後,他們又推出了新的視覺思考模型 k1,且「數理化」的能力又上了一個新台階,實測結果絲毫不輸 OpenAI o1!
最直接的實測例子是:當我們把楊振甯、伽利略等世界知名科學家的研究手稿拍照、上傳後,k1 居然能識别圖片中的文字,生動解讀背後的物理、天文學等科學知識,從而回答用戶的提問并給出清晰完整的推理思考過程。
例如,當我們上傳楊振甯的手稿并向 k1 提問,k1 給出了超乎小編知識範疇所能辨真僞的答案:
這是楊振甯的手稿圖片——
這是我們的詢問:這是物理學家楊振甯的手稿照片,請你一步一步分析,楊振甯在計算什麽,他可能在想什麽,當時可能是什麽背景?
這是 k1 的回答:
上下滑動查看長圖
雖然小編既不懂電磁場、也不懂粒子動力學,但看完 k1 的答案着實大吃一驚!
并忍不住發出靈魂叩問:圖靈測試面對大模型還有效嗎?人類讀者面對這樣的問題怎麽區分 k1 與爾等用戶的區别?當 AI 大模型不斷進化,假以時日圖靈測試的标準答卷是否會變成:同一個問題的兩個不同答案,答案更高明的永遠盲選「機器」、答案更普通的永遠盲選「人類」……
更重要的是:從數學模型 k0 到視覺思考模型 k1,月之暗面(Kimi)僅用了一個月!
據了解,k1 是基于 k0 的模型升級。k0-math 模型數學能力出衆,但由于僅支持 LaTeX 等格式的文本輸入,依賴圖形理解能力的部分幾何圖形題無法解決。而新的 k1 視覺思考模型借助端到端的圖像理解能力,解鎖了包括幾何題在内更加全面的數學能力。
當多模态智能不斷進化,視覺模型的推理能力從文本拓展到「數理化」,我們可以大膽猜想:Kimi 大模型不僅能輕松解決傳統的文本與圖像信息對齊問題,連謝爾頓怎麽教佩妮學物理的難題都能解決了!
1
中國首個視覺思考模型
自 2021 年 1 月 OpenAI 發布 DALL · E 及圖文對齊架構 CLIP 以來,事實上業内針對圖像 - 文本任務的雙模态信息對齊與處理提出了多樣化的解決思路,并發表了大量工作。
但過去三年來,這些模型的特征局限在文本數據上:
首先,以生成爲主,如文生圖任務,強調圖文對齊、而非推理。例如,國内有大批廠商早在今年上半年就已推出看圖說話功能,主要應用在旅遊景點介紹、拍照生成搭配詩詞歌賦等,缺少較強的常識認知與邏輯推理等能力。
其次,不具備一步一步拆解分析數理化問題的思維鏈能力,沒有将基礎大模型的語義理解與數理化問題的深度思考需求結合起來。
此外,撇開底層基礎模型的能力差異不說,由于推理模型的産品體驗不如純文生圖或圖生視頻等來得直觀,模型的思考能力需要結合模型的文本輸出能力來獲得一手觀感。而其中,長文本是展示模型推理的最佳方式之一。
而 Kimi 今天發布的視覺思考模型 k1 ,基于強大的基礎模型,就從答案輸出的長文本能力體現了其在多模态推理上的躍升。
值得注意的是,這也是國内首個視覺思考模型!
不同于以往國内外發布的推理模型,k1 的推理能力有兩大優勢:一是數理化能力傑出,二是視覺識别與邏輯推理能力強強結合。
首先,根據官方數據披露,在 k0-math 數學模型的基礎上,k1 的能力不僅擴大到了數學領域中的幾何圖形方向,還增加了物理、化學等基礎科學能力。
在基礎教育各階段的幾何和圖形題專項基準能力測試中,k1-preview 成績打平或超過了 OpenAI 的 o1 模型:
結合端到端圖像理解和深度思維鏈推理技術,在數學、物理、化學等基礎教育學科的基準能力測試中,初代 k1 模型表現接近或超過 OpenAl o1、GPT-4o 以及 Claude 3.5 Sonnet 等領先視覺模型,達到了全球一流水平:
此外,k1 還具備超強的視覺識别能力,并将視覺識别能力與語言推理能力強強結合!
k1 可以準确識别強噪聲幹擾下拍攝的圖片信息,包括但不限于灰暗燈光下拍攝、拍攝有陰影、拍攝書本彎折起伏、拍攝模糊或虛化、有手寫字迹幹擾等等傳統視覺識别也難以解決的場景:
在推理模型的實際應用中,除了文本識别,涉及到公式與圖形的理工類圖文信息識别往往是用戶直接拍照輸入解答。
傳統基于文本的推理模型,或者不支持圖像信息輸入,或者需要借助外部 OCR/ 視覺模型進行轉換,效果有明顯損失。而 k1 的視覺部分針對這一問題進行了顯著改善。
據 AI 科技評論了解,學生群體一直是 Kimi 用戶數最廣的群體之一,更是 Kimi 崛起的重要幕後推手之一。本次 k1 的視覺思考能力,精準捕捉了學生拍照識題并深度解讀的需求,将成爲掃描王等産品的強有力競争對手!
基準測試數據顯示,在複雜拍攝條件下,例如照片圖像不清晰、多題一起拍、手寫字迹幹擾,甚至純手寫的題目等場景,k1 模型相比 OpenAI 和 Anthropic 的視覺思考模型,有更顯著的領先優勢:
2
k1 掀起科學家手稿識别風
相較 k0 的數學能力,k1 解鎖數理化并結合視覺識别與推理的能力,顯然擁有更廣闊的應用場景。其中,最震撼的是 k1 居然能解讀諾貝爾獎級别的科學家研究手稿或筆記!
除了開頭的楊振甯手稿,k1 的發布還掀起了一批對伽利略、錢學森等科學家的手稿識别風:
先看伽利略的天文學研究。輸入一張伽利略的意大利語筆記圖片:
詢問 k1:請一步步推測一下這個筆記的作者是誰,筆記内容在講什麽?
k1 的回答如下:
答案簡直逆天有木有!
k1 視覺模型的體驗入口已經放在 Kimi 首頁,爲此小編也抓緊去體驗了一下來自科學家的大腦暴擊!
接着我又去網上找了幾張科學家的手稿照片,這是錢學森的:
我心想圖片這麽模糊、字迹這麽别具一格,k1 總該難倒了吧,結果,k1 不僅精确識别!還邏輯清晰!振振有詞!
對于爾等文科生來說,這就好像能帶計算機進考場考數學一樣,以後行走江湖豈不是輕輕松松縱橫四海?(狗頭護身)
看到 k1 這麽輕松就能解答複雜的數理化研究筆記,小編又忍不住思考:k1 能解答科學家手稿,那能解答抽象的現代美術展館的藝術展品嗎?讓我來試試。
輸入莫奈的《睡蓮》,k1 解讀依然完美:
不過,當我輸入莫奈另一幅由于戰亂輾轉導緻殘缺的《睡蓮》畫作與今年香港巴塞爾藝術展上頗受關注的油彩筆所畫真人畫作時,k1 的表現則沒有解讀科學家筆記時那麽深刻、嚴謹,原因或許是因爲訓練數據不足。
但在對未知或不那麽熟悉的知識領域,k1 也能以拟人、優美的文字表達,展示一步一步思考問題的能力:
輸入莫奈殘缺版睡蓮:
k1 的解讀如下:
在處理包含複雜信息的圖像上,k1 的能力無疑是當前國産模型的先鋒,尤其在包含複雜公式與幾何圖形的數理化問題上。相比藝術作品,後者更能體現底層模型的邏輯推理能力。
而從用戶的體驗角度評價,由于 k1 結合了思維鏈與長文本技術,無論面對理科還是文科問題時都能給出一份展示完整思考過程的答案,在人機交互的産品創新上依然能給我們帶來新意。
3
月之暗面的 AGI 進階之路
大模型沖刺 AGI 的下一步趨勢,主要有三塊:多模态、推理與 AI 的自我學習。
這三塊中的每一塊難題攻關,都是挑戰重重;而 k1 的發布,至少體現了月之暗面攻克 AGI 的兩個重大命題,即多模态與推理,更是難上加難,尤其 k1 将兩者結合,無論是技術還是産品上都體現出了月之暗面團隊持續的創新能力。
今年下半年起,月之暗面在 Kimi 産品上頻頻推出新功能:
10 月,Kimi 探索版革新「AI 搜索」,強調 AI 的自助搜索能力,瞄準傳統搜索引擎的弊端,解決了大量 AI 搜索不痛不癢「拼湊大量信息」問題,重新定義了「AI 搜索」。
11 月,上個月的今天月之暗面發布了數學模型 k0-math,其數學能力對标 OpenAI o1 系列。
12 月,今天月之暗面在 k0-math 模型的基礎上再推出視覺思考模型 k1,數理化能力再上一個台階。
可以看到,這家大模型公司正在以月爲單位的速度推出新技術、更新 Kimi 産品細節。
一年前,月之暗面發布了支持輸入 20 萬漢字的智能助手産品 Kimi,創造了 C 端 AI 所支持的上下文輸入長度的新紀錄,以「長文本」策略一舉打響了 C 端 AI 産品市場,赢得一大批用戶,也給其他大模型公司帶來不小壓力。
之後,Kimi 的産品能力和技術實力萬衆期待,整個業界都在期待 Kimi 的下一個動作會是什麽,但在之後的整整十一個月裏,Kimi 都沒有任何新的技術發布。
而在這段時間裏,Sora、GPT-4o、GPT-o1 等現象級産品一次次點燃大衆的熱情,整個大模型領域都在跟進,每天誰家又做出來「類 Sora」 産品、誰家又超過 GPT-4o…… 好不熱鬧。
在 GPT-o1 發布後,其推理能力驚豔,主要體現在數學與編程上。這不僅涉及到思維鏈的 scale-up,模型推理能力的數據來源、以及背後的訓練方法也十分關鍵。
早在今年 4 月底清華人工智能學院的成立大會上,多模态方向領先研究者、京東技術副總裁何曉冬就預測過,下一代大模型的訓練大概率是通過模型生成的數據和标注、以及模型互相對抗這條 " 類強化學習 " 技術路線來推進。
k0-math 發布時,楊植麟也提出,基于強化學習的 scale-up 比簡單預測下一個 token 更能提升 AI 模型的思考能力,他認爲多模态最重要的也是思考與交互,但思考的重要性遠大于交互,思考決定了上限。
基幹強化學習技術,AI 模型具備像人一樣思考的潛力:在遇到問題時,首先分析問題,并提出不同的解法,然後根據不同的解法進行不斷試驗、反思并改進。
自 AlphaGo 開始,深度強化學習一直被視爲實現 AGI 的關鍵路徑之一。但在過去,由于深度強化學習有兩大缺陷:一是樣本效率與計算效率低,二是算法安全性與魯棒性低,其不适用于解決現實世界中交通、醫療、金融等關鍵領域的智能決策問題,因爲這些領域的容錯率低、一旦出錯則風,險極高。
但大模型時代到來後,結合大模型的語義理解與 2022 年出現的思維鏈技術後,強化學習有了新的生命。通過在大模型産品交互中引入強化學習的過程獎勵機制,對模型的推理過程進行逐步激勵與懲罰,激勵模型生成更詳細、質是更高的推理過程。
Kimi 将基于強化學習技術的新一代模型,稱爲 " 思考模型 "。
這是月之暗面創始人楊植麟技術路線思考的直觀體現。
而在明确強化學習與 AI 思考能力放下之前,月之暗面也經曆過戰略調整,但最終決定要聚焦,聚焦 Kimi。楊植麟稱,這是他們主動做了業務減法的結果,聚焦去做離 AGI 上限最高的事情,然後做好。
從 k0 到 k1,月之暗面都給國内的大模型發展帶來了驚喜,k1 之後,k2、k3、k4… 會如何叠代呢?作爲技術的領跑者,Kimi 正在定義屬于自己的 AGI 路線。