OpenAI" 雙 12" 剛進行到第二天,就把大模型圈攪得好不熱鬧!
一邊是 Meta 沒預告就發布了Llama 3.3,70B 版本就能實現以前 405B 的性能。
另一邊谷歌的Gemini也上線了新的實驗版模型,再一次登上大模型競技場榜首。
有網友感歎,o1、Llama 3.3 和新版 Gemini 接連發布,馬斯克的 Grok3 也要來,還有 GPT-4.5 初露端倪……這簡直是最棒的一個聖誕季。
Llama 3.3:70B 實現 405B 效果
Llama 3.3 目前隻有 70B 一個型号。
但在指令遵循(IFEval)、數學(MATH)、推理(GPQA Diamond)等領域,水平都超過了七月份發布的 Llama 3.1 405B。
在語言(MMLU)、代碼(HumanEval)、長文本和多語種能力上,成績也和 Llama 3.1 405B 比較接近。
而在工具使用(BFCL)上,和 405B 的差距則顯得稍大一些。
不過,Llama 3.3 的使用成本要比 Llama 3.1 405B 低得多。
雖然 Llama 本身是免費的,但是各個大模型平台的服務價格也可以作爲衡量成本的一個參考。
在 Meta 合作的平台當中,Llama 3.3 最便宜的價格是 0.1/0.4 美元每百萬輸入 / 輸出 Token。
而 Llama 3.1 405B,則是 1 美元每百萬輸入 token,是 Llama 3.3 的 10 倍,輸出 token 爲 1.8 美元,是 Llama 3.3 的 4.5 倍。
Meta 生成式 AI 團隊領導者 Ahmad Al-Dahle 表示,Llama 3.3 能用 70B 實現 405B 的效果,主要是 " 運用了後訓練技術的最新進展",并點名其中包括在線偏好優化(online preference optimization)。
Meta AI 官方賬号也提到,Llama 3.3 的進步歸功于新的對齊過程和在線強化學習技術的進步。
Gemini 迎來周歲生日
Gemini 1206 上線的這天,剛好是 Gemini 的一周歲生日。
不過,從節奏和以日期命名的方式來看,Gemini 更像是一次例行更新(上一個版本是 1121)。
當然成績還是很不錯的,直接登上了 lmsys 大模型競技場的榜首。
而且不隻是總成績奪冠,困難提示詞、代碼、數學、創意寫作等各個單項排名也都是第一。
實際上,Gemini 此前有個 1114 版本,也當了一周的 " 榜一大哥 ",後來被更新的 GPT-4o 給比了下去。
現在的最新版本,又讓 Gemini 重新回到了榜單上的王座。
此外,谷歌 AI Studio 産品負責人(原 OpenAI 開發者社區主管)Logan 介紹,Gemini 1206 擁有 2 百萬 token 的上下文窗口,目前可通過谷歌 AI Studio 和 Gemini API 免費使用。
谷歌首席科學家Jeff Dean表示,取得這樣的成績是對 Gemini 生日最好的慶祝方式。
不過也有網友給谷歌潑了盆冷水,表示 o1 還沒出現在這個榜單上,而且 GPT-4.5 就要來了,谷歌第一的位置恐怕很快又會被 OpenAI 奪走。
One More Thing
除了谷歌和 Meta,馬斯克 xAI 也被盛傳即将發布 Grok 3。
有網友發現,正在測試的 Grok 2 mini 消失了,認爲這是要發 Grok 3 的征兆。
除了對 Grok 3 的猜測,還有一條更确定的消息——此前要充會員才能用的 Grok,現在可以免費用了。
不過免費用戶用量比較有限,每兩小時隻能處理 10 條消息,而圖片分析一天隻能處理三張。
有意思的是,我們試了試詢問 Grok 自己,它也表示 Grok 3 計劃在這個月上線。
但抓馬的是,點進後面引用的消息源,發現這名博主也是問 Grok 之後發的帖子……
那麽,在這個發布密集的十二月,你最鍾意或者最期待哪一款産品呢?
參考鏈接:
[ 1 ] https://x.com/AIatMeta/status/1865079067390956006
[ 2 ] https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
[ 3 ] https://x.com/lmarena_ai/status/1865080944455225547