天下苦 OpenAI 擠牙膏久矣。
環顧宇内,能夠與 OpenAI 抗衡的對手屈指可數,Anthropic 旗下的 Claude 模型至少算是一個靠譜的勁敵。
盼星星,盼月亮,沒有等到「超大杯」Opus 的亮相,但好在也等來了全新升級的大杯 Claude 3.5 Sonnet。
簡單總結這次更新的亮點:
拳打 GPT-4o,腳踢 Gemini 1.5 Pro,新版 Claude 3.5 Sonnet 表現遙遙領先
Claude 3.5 Haiku 響應速度最快,性能媲美 GPT-4o mini
構建 API,教 Claude 怎麽玩電腦
這次更新的重頭戲其實不是新模型,而是怎麽教 AI 玩電腦。
Anthropic 推出了一個公開測試的革命性功能「computer use」:通過 API 教 Claude 像個人一樣操作電腦,能看屏幕、動光标、點按鈕、打字……
簡單說就是,Claude 現在能用人類設計的标準工具和軟件了。而開發者可以借此解放一些枯燥的重複性流程任務,甚至進行開放式任務,如研究。
爲了讓 Claude 具備這種技能,Anthropic 通過一個 API 來讓 Claude 能夠感知并與計算機界面交互。
具體來說,開發者在交互過程中集成這一 API,讓 Claude 将指令(比如:「用我電腦上的數據,結合網上信息填個表」)翻譯成計算機指令(比如:檢查個表格,動動鼠标打開個浏覽器,導航到相關網頁,然後用網上的數據把表格填滿)。
OSWorld 是一個用于測試多模态智能體在真實計算機環境中執行開放式任務的能力的基準測試平台,通常用來評估 AI 模型是否具備像人類一樣使用計算機的能力。
Claude 3.5 Sonnet 在僅用截圖的測試類别中得分 14.9%,遠超第二名的 7.8%。在允許使用更多步驟時,Claude 的得分爲 22.0%。
一些公司的産品已經提前用上了這一功能。
例如,Replit 正在利用 Claude 3.5 Sonnet 的計算機操作與界面導航能力,爲其 Replit 智能體産品開發一項關鍵功能,用于評估正在構建中的應用程序。
當然,這種做法其實并不新鮮。
因爲在此之前,Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經開始探索這些可能性,執行需要幾十甚至上百步的任務。
不過,理想很豐滿,現實很骨感。
官方也坦誠,當前這一功能仍處于實驗階段,在操作計算機時速度較慢,并且經常會出現錯誤。一些簡單的操作——比如滾動、拖動、縮放,看似人類一揮手就能搞定的事兒,對 Claude 來說依然是個不小的挑戰。
在錄制這些演示的過程中,我們遇到了一些有趣的插曲。有一次,Claude 不小心終止了一個正在進行的長時間屏幕錄制,結果所有的錄像素材都丢失了。
之後,Claude 在我們的編碼演示間隙休息了一下,開始欣賞黃石國家公園的照片。
此外,Claude 通過截取屏幕的靜态圖像,然後将這些圖像組合起來,以理解屏幕上發生的事情,但也正因此,它可能無法捕捉到屏幕上的短暫動作或通知,比如彈出窗口或快速變化的圖标。
官方也說了,之所以提前發布一個實驗品,是爲了獲取開發者的反饋,預計這功能随着時間會逐漸有所改進。
Anthropic 開發者關系主管 Alex Albert 還分享了一個有趣的經曆。
在開發「computer use 」功能時,他們組織了一次工程故障排查會,目的是找出 API 中所有潛在的問題。
幾位工程師聚在一個房間裏工作幾個小時,但很快就餓了,所以其中一位工程師的第一個「computer use 」請求是讓 Claude 導航到外賣平台 DoorDash 并訂購足夠的食物來喂飽大家。
Claude 思考了大約一分鍾後, 最後給工程師們訂了幾份披薩。
網友也很快挖出了 computer use 功能拒絕做的清單:
在社交媒體或其他平台上創建賬戶
發送電子郵件或消息
在社交媒體上發布評論
進行購買
訪問私人信息
完成驗證碼(CAPTCHA)
生成、編輯或修改圖片
打電話
訪問受限内容
執行需要個人身份驗證的操作
真 · 推理模型之王,新模型編碼遙遙領先
再來看看 Claude 3.5 Sonnet 交出的成績單。
盡管現在大模型榜單的公信力已不如往日,但基于同一套考題的邏輯下,我們仍然能對新發布的模型有個初步了解。
拳打 GPT-4o,腳踢 Gemini 1.5 Pro,Claude 3.5 Sonnet 在 GPQA、MMLU Pro、HumanEVal 等一系列基準測試中表現亮眼,可謂是遙遙領先。
特别是在編碼領域,Claude 3.5 Sonnet 更是進一步拉大了領先優勢。或許你會好奇,爲什麽基準測試裏沒有出現與 OpenAI o1 模型的對比。
别急,Anthropic 預判了你的預判,官方給出的解釋是:
我們的評估表格中之所以沒有包含 OpenAI 的 o1 模型系列,是因爲它們在響應前需要大量的計算時間,這與大多數模型不同。這種本質上的區别使得進行性能比較變得複雜。
翻譯一下就是,我們想比但也不好比。
不過,在 SWE-bench Verified 的編碼測試中,Claude 3.5 Sonnet 的表現從 33.4% 提升到 49.0%,超過了所有公開可用的模型——包括 OpenAI o1-preview 等推理模型,以及各種智能體編碼系統。
Claude 3.5 Sonnet 真 · 推理模型之王。
此外,在 TAU-bench 智能體工具測試中,Claude 3.5 Sonnet 也表現不俗。
TAU-bench 主要提供一個更接近真實世界應用場景的評估環境。
面對零售領域問題,Claude 3.5 Sonnet 得分從 62.6% 提高至 69.2%,而面對航空方面的問題,其成績也從 36.0% 上升至 46.0%。
更重要的是,這些改進并未提高價格或降低速度,Claude 3.5 Sonnet 仍保持了與前代相同的性價比。
官方博客中提到,編碼能力的改進是 Claude 3.5 Sonnet 的最大亮點。
GitLab 測試發現其推理能力提升了 10%,無額外延遲,非常适合多步驟的軟件開發流程。The Browser Company 也指出,Claude 3.5 Sonnet 在自動化網頁工作流程方面的表現超越了他們之前測試的所有模型。
作爲追求極高安全系數的模型公司,Anthropic 自然也對 Claude 3.5 Sonnet 進行了災難性風險評估,結果符合 ASL-2 标準。。
ASL-2 指的是顯示出危險能力早期迹象的系統(例如能夠給出如何制造生物武器的指令),但這些信息由于可靠性不足或無法超越搜索引擎能提供的信息而沒有太多用處。
簡言之,Claude 3.5 Sonnet 再強,也還沒有到威脅人類的地步。
聊完性能最強的模型,接下來登場的是,響應速度最快的全新升級模型—— Claude 3.5 Haiku。
光看紙面參數,中杯 Claude 3.5 Haiku 幾乎不遜色于 GPT-4o mini,甚至可以說,它已經可以小赢一把,整體表現也與前代 Claude 3 Opus 表現持平。
但價格沒變,響應速度也沒減,有種「加量不加價」的錯位體驗。
類似地,Claude 3.5 Haiku 在在編碼任務的表現也尤爲突出。例如,它在 SWE-bench Verified 上的得分爲 40.6%,超過了很多所謂的最先進智能體,包括它的 Claude 3.5 Sonnet(原版)和 GPT-4o。
低延遲、改進的指令執行能力以及更精準的工具使用能力,這些特性都讓 Claude 3.5 Haiku 尤其适用于需要個性化服務的場景中。
比如根據你以前買東西的習慣來推薦商品,或者幫你決定商品的價格,甚至是幫你管理倉庫裏的存貨。
最後,升級版的 Claude 3.5 Sonnet 現已面向所有用戶開放。而 Claude 3.5 Haiku 将于本月晚些時候發布,初期隻支持文本輸入,圖像輸入功能随後推出。
如果你最近關注 AI 圈,你會發現行業裏的幾位重要人物都玩起了「未蔔先知」。
Demis Hassabis、Yann LeCun、Sam Altman 和 Anthropic 的 Dario Amodei,都宣稱 AGI 将在未來幾年内實現,時間範圍從 2025 年到 2030 年不等。
他們畫了一張又一張堪比烏托邦的 AGI 藍圖,如治愈大多數疾病、解決氣候問題、消除貧困等,如果彙總幾篇長文的核心思想,AI 幾乎成了包治百病的神藥。
但話說回來,信心還得是靠真刀真槍的産品來證明。
在沒有可靠、可持續的商業模式下,這個行業隻能靠對 AGI 的「盲信」來維持高昂的投資和支出,就好像挂在驢前面的那根晃蕩的蘿蔔。
換言之,今天發布的 Claude 模型等一系列産品功能也是在讓我們重拾信心,而按照以往的産品發布節奏,OpenAI 預計也快要出手了。
不同之處在于,OpenAI 的武器庫顯然更豐富。或許下一個亮相的會是 OpenAI o1 的正式版,又或者是「期貨」Sora。
接下來,我們就拭目以待,看 OpenAI 如何「亮劍」了。