大模型競賽,又殺出一匹黑馬——
Inflection-2.5,由 DeepMind 聯創 Mustafa Suleyman 的大模型初創公司打造。
隻用 40% 的計算資源訓練,表現就超過了 GPT-4 的九成,尤其擅長代碼和數學。
而早期的 Inflection 模型,訓練時隻消耗了 4% 的計算資源,就達到了 GPT-4 表現的 72%。
以 Inflection 模型爲基礎,該公司還推出了網頁端對話機器人 Pi,主打 " 高情商 " 和 " 個性化 ",還支持中文。
自誕生以來,Pi 的最高日活達到了 100 萬,累計産生了 40 億條消息,平均對話時長來到了 33 分鍾。
而随着這次基礎模型的升級,Pi 也迎來了它的新版本。
那麽,Inflection,或者說 Pi,表現到底有沒有那麽強,量子位進行了一番實測。
無需登錄即可使用
打開 Pi 的頁面,映入眼簾的是這樣一個極簡界面,而且還可以不用登錄,直接點擊 Next。
連續 Next 幾次後,輸入希望 Pi 稱呼我們的方式。
之後是選擇聲音和推薦話題,直接跳過就可以了,然後就進入正式的聊天界面了。
簡單測試發現,Pi 支持中文對話,既然如此那就先把弱智吧 Benchmark 給安排上。
第一題,老鼠生病了可以吃老鼠藥治好嗎,Pi 成功解答。
再來一道 " 陷阱 " 題,這次依舊沒有上當。
兩道問題過後,雖然沒有出現什麽戲劇性效果,但看起來對中文也是有一定的理解了。
接下來就重點看看官方宣稱 " 尤其擅長 " 的數學和代碼能力。
首先是一道涉及動态規劃的編程題目。
Pi 給出的代碼成功解決了這個問題,并且配有清晰的解釋。
接下來再提升一下難度看看,讓其分析一個數字的階乘中末尾有多少個 0。
Pi 給出的代碼不僅正确,而且簡潔高效,運行速度超過了 LeetCode 上 73.8% 的用戶。
最後再來增加一下難度,以一道 47.5% 通過率的題目結束代碼部分的測試。
看完代碼,再來測測 Pi 的數學能力怎麽樣,讓它做做關于導數的題目:
求出函數 f ( x ) =x ³ +2x ² -1 的極值點
解答完全正确,而是十分詳細。
當然要想數學好,邏輯思維是必不可少的,所以我們在常規的數學題之外,又用一道經典的題目考驗了一下的 Pi 邏輯思維,結果還不錯。
通過 Pi 的表現,可以看出其背後的 Inflection-2.5 模型的确可圈可點。
而從官方自己公布的測試數據來看,無論是綜合能力還是各個子項,Inflection-2.5 的表現都緊随 GPT-4。
以數學和代碼爲例,Inflection-2.5 在 MATH、HumanEval 等測試中都比 1.0 版本都有大幅飛躍。
在這些常規的數據集之外,Inflection 還挑戰了匈牙利高考數學試題和 GRE 物理測試,結果幾乎與 GPT-4 打成平手。
更 " 刁鑽 " 的,還有人專門用大模型難以理解的問題構建了一個 BIG-Bench 數據集,而 Inflection-2.5 挑戰了其中的 Hard 子集,結果和 GPT-4 的差距不到一分。
那麽,Inflection-2.5 的背後,是怎樣的一家公司呢?
DeepMind 聯創大模型創業
這家公司名叫Inflection AI,由 DeepMind 聯創 Mustafa Suleyman 等人于 2022 年創立,目前共有 70 餘人。
同樣來自 DeepMind 的,還有資深研究員 Karen Simonyan,現擔任 Inflection AI 的首席科學家。
此外,LinkedIn 聯創 Reid Hoffman 也參與了 Inflection AI 的創立。
創立以來,Inflection AI 已經獲得了來自英偉達、微軟、比爾蓋茨等巨頭的共計 15 億美元的融資。
目前,基于 Inflection 的 Pi 還是免費的,但 CEO Suleyman 也表示,一直用愛發電不現實,長久地看以後還是要收費。
想要體驗的朋友,可能要抓緊時間了 ~
傳送門:
https://pi.ai
參考鏈接:
[ 1 ] https://inflection.ai/inflection-2-5
[ 2 ] https://www.axios.com/2024/03/07/inflection-ai-chatgpt-openai-comparison