出品|虎嗅科技組
作者|餘楊
編輯|苗正卿
頭圖|視覺中國
10 月 22 日,由 Anthropic 開發的 Claude 3.5 迎來重磅升級,發布了 Claude 3.5 Haiku 和 Claude 3.5 Sonnet 。
Claude 模型也被稱爲 " 十四行詩 "(Sonnet),Anthropic 公司在爲其模型命名時,借鑒了文學藝術作品中的術語,其中包括 " 俳句 "(Haiku)、" 十四行詩 "(Sonnet)和 " 傑作 "(Opus),這些名稱不僅代表了模型的不同版本,也反映了它們在功能和性能上的特點。
Claude 3.5 Sonnet 有着更強的編程能力,全新功能的 computer use(計算機使用),支持像人類一樣操作計算機,可以遵循用戶的命令在計算機屏幕上移動光标,點擊相關位置,并通過虛拟鍵盤輸入信息,模拟人們與自己計算機的交互方式。
目前,Claude 3.5 Sonnet 已投入使用。
Claude 系列大語言模型,一直被廣泛認爲是 OpenAI 的 ChatGPT 和谷歌的 Gemini 的主要競争對手。Anthropic 在 X 中發布了模型基準測試結果,與 GPT 和 Gemini 在多個領域進行橫向對比。
這些領域包括研究生水平的推理能力(GPQA Diamond)、本科生水平的知識掌握(MMLUPro)、代碼編寫能力(Code HumanEval)、數學問題解決能力(MATH)、視覺問答能力(MMMU)以及代理編碼(SWE-bench Verified)和代理工具使用(TAU-bench)。
在研究生水平推理測試(GPQA Diamond)中,Claude 3.5 Sonnet 以 65.0% 的準确率拔得頭籌,Claude 3.5 Haiku 則以 41.6% 的準确率則稍顯遜色。而 Gemini 1.5 Pro 的準确率爲 59.1%,居于第二。在本科生水平知識測試(MMLUPro)中,Claude 3.5 Sonnet 再次以 78.0% 的準确率領先,而 Gemini 1.5 Pro 則以 75.8% 的準确率緊随其後。
在此次主打的代碼編寫能力測試(Code HumanEval)中,Claude 3.5 Sonnet 以 93.7% 的準确率取得了最佳成績,GPT-4o 系列模型在這一測試中也展現了不錯的性能,準确率爲 90.2% 和 87.2%。
雖然在數學問題解決測試(MATH)中,Claude 3.5 系列稍顯遜色,Gemini 1.5 Pro 仍然碾壓全場,但對于視覺問答測試(MMMU)和代理編碼測試(SWE-bench Verified),Claude 3.5 Sonnet 和 Claude 3.5 Haiku 仍有着不俗的表現。
而 TO B 的代理工具使用測試(TAU-bench),則直接關系到大模型的應用能力,此次主要測試了零售和航空領域。Claude 3.5 Sonnet 在零售和航空領域的準确率分别爲 69.2% 和 46.0%,而 Claude 3.5 Haiku 在零售和航空領域的準确率分别爲 51.0% 和 22.8%。
需要注意的是,OpenAI 的 o1 模型家族由于其依賴于廣泛的預響應計算時間,與典型模型存在根本差異,這使得性能比較變得困難,因此在本次評估中被排除在外。
這可能不夠具像化。
Anthropic 提供了一個演示,在 2 分鍾的視頻中,研究員給 Claude 提出了一個指令:
我的朋友要來舊金山,我想明天早上和他一起在金門大橋看日出。我們将從太平洋高地出發。你能幫我們找到一個絕佳的觀賞地點,查看一下開車時間和日出時間,然後安排一個日曆活動,讓我們有足夠的時間到達那裏嗎?
Claude 的回應首先是," 讓我搜索谷歌尋找最佳日出觀賞地點 ",并自行打開了 Google 開始搜索。
Claude 以用戶的居住地爲出發點,在地圖中 check 了駕駛時間,随後,Claude 不僅打開了一個新的網頁确認明天的日出時間,還在日曆中設置了行程提醒,并附上了 Notes,URL 和附件。
開發者展示出 Claude 如何操控了自己的筆記本電腦,絲滑地完成了一個任務。
Anthropic 表示," 我們并沒有制作特定工具來幫助 Claude 完成單個任務,而是教它通用的計算機技能——允許它使用爲人類設計的各種标準工具和軟件程序。我們構建了一個 API,使 Claude 能夠感知計算機界面并與之交互。該 API 使 Claude 能夠将提示翻譯成計算機命令。開發人員可以使用它來自動執行重複性任務、進行測試和 QA 以及進行開放式研究 "。
在其他的 demo 中,開發者還讓 Claude 填寫了一份來自螞蟻設備公司的供應商請求表,需要填寫的數據散布在電腦的各個角落,Claude 跨應用進行了搜索,切換到 CRM 系統中,滾動頁面,查找填表所需的所有信息,然後提交了表格。
AI 操作電腦的能力代表了一種全新的人工智能開發方法,國内開發者也顯示出在該領域深入的努力。
10 月 23 日,在榮耀 MagicOS 9.0 發布會上,新升級的 YOYO 智能體也展現出 AI 手機端操作能力的類似特質,不僅幫演示者提交了咖啡訂單,還填寫了博物館場館預約信息。
一部分關注者對此滿懷期待,認爲這意味着工作中許多不得不做的繁瑣事項,都可以交由 AI 代勞了。
不過,雖然 Claude 已經取得了一些成績,但我們日常使用電腦時的許多操作,如拖拽、縮放等,Claude 都還無法做到。
并且,它的操作仍然相對緩慢,且像人類一樣會出錯。在一次演示中,Claude 不小心點擊停止了一個長時間運行的屏幕錄制,導緻所有錄像都付諸東流。而在另一次編碼演示中,Claude 則突然 " 走神 ",開始饒有興趣地浏覽起黃石國家公園的照片。
但瑕不掩瑜,這并不妨礙我們像莎士比亞一樣,将 Claude 的新技術比作 " 夏日 "。