新版 Claude 3.5 可以像人一樣使用計算機,可把咱人類給興奮壞了!
畢竟,這意味着新競賽的開始:AI 不再隻盯着對話和生成能力,更強調執行和操作。
不到 12 小時,激動的網友們已經紛紛貢獻出自己是怎麽看着 Claude 玩電腦的。
在 Anthropic 的發布公告中,還有這樣一段引起了大家的興趣:
……錄制演示視頻中,Claude 不小心把錄屏程序給按停,導緻所有視頻素材丢失。
稍後,Claude 從編程演示中休息了一下,開始翻看黃石公園的照片。
怎麽說,AI 會犯錯還在預料之中,但犯錯後需要換個腦子休息一下,就不知道是從哪學來的了。
有視頻爲證,請看 VCR:
這個案例讓網友有了靈感,跑去隔壁 OpenAI 讓 o1 推理模型 " 逃課 "。
哎巧了,o1 也可以做到自己休息個五分鍾左右,再回來生成一兩句話的推理 tokens。
再說個搞笑的!
Claude 的創造者們瘋狂加班中,某工程師的第一個測試就是讓 AI 去給整個團隊點外賣,未指定具體要吃什麽。
大約一分鍾後,Claude 完成點餐并下單,它選擇了讓工程師們吃披薩。
Claude 點了 3 個披薩,花掉了 95 美元,真的很貴了!
圍觀群衆還發現,雖然 Claude 用了個 5 美元的優惠券,但服務費也好貴啊啊啊啊!
真的應該事先告訴它預算是多少的。
還有人讓 Claude 用 C 語言編譯,并運行起了 "hello world"。
不過,當讓它玩玩數獨遊戲的時候,卻慘遭失敗。
給網友氣得呀:
天啊,Claude 的數獨能力,真的超糟糕的。
除了以上,人類還用什麽奇形怪狀的任務來玩壞 Claude 呢?
Claude 它寄幾玩電腦
在這裏,我們分享 3 個比較有意思的網友試玩,期望給大家帶來一些讓 Claude 玩電腦的啓發~
分别是:
定位屏幕坐标
列出課程計劃
沖去油管看視頻
定位屏幕坐标
在此之前,Anthropic 和 OpenAI 的模型都無法在屏幕上定位某一個點的坐标。
也就是說,它們沒辦法精準定位,然後告訴你用鼠标單擊(xx,yy)處。
現在, Claude 3.5 Sonnet 支持屏幕坐标定位了。
你可以丢給它一個屏幕截圖,它能告訴你圖中任何一個點的具體坐标。
同時,官方還有聲明:
" 我們不建議以高于 XGA/WXGA 的分辨率發送屏幕截圖,以避免與圖像大小調整相關的問題。"
這裏的XGA指的是 1024x768,WXGA指的是 1280x800。
最後附上 Anthropic 官方的該功能食用方法,包括一個新預定義的 computer_20241022 工具,該工具作用于以下指令——
使用鼠标和鍵盤與計算機交互,并截取屏幕截圖。
這是一個桌面圖形用戶界面。您無法訪問終端或應用程序菜單。你必須點擊桌面圖标來啓動應用程序。
一些應用程序可能需要一些時間來啓動或處理操作,因此您可能需要等待并連續截圖以查看操作結果。例如,如果你點擊火狐浏覽器,窗口沒有打開,試着再拍一張截圖。
屏幕的分辨率是 {{display_width_px}}x{{display_height_px}}。
顯示編号爲 {{display_number}}
當你想移動光标點擊一個元素(比如圖标)時,你應該在移動光标之前查看屏幕截圖來确定元素的坐标。
如果你嘗試點擊一個程序或鏈接,但它無法加載,即使等待後,嘗試調整光标的位置,使光标的尖端視覺上落在你想要點擊的元素。
确保點擊任何按鈕,鏈接,圖标等與光标提示在元素的中心。除非被要求,否則不要點擊邊緣的方框。
列出課程計劃
來點更實用的!
賓大沃頓商學院的教授 Ethan Mollick,非常務實地讓 Claude爲高中生準備一份關于《了不起的蓋茨比》的課程計劃。
要求是課程計劃要分解成閱讀部分,以及創建課标相關的作業等,最終以電子表格的形式呈現。
Claude 是怎麽執行這個任務的呢?
接着,它在網上尋找了高中課程計劃,打開了 Excel,并在表格裏填寫了初步的課程計劃。
第三步,Claude 查找了課程的統一核心标準,根據标準對初步計劃進行修改。
……
最終呈現的課程計劃檢查後沒有發現明顯的漏洞或錯誤,可能需要一些拓展、補充,但總之用教授的話來說 " 還不錯 "。
這一切都是教授下任務後就離開電腦旁,Claude 完全自己操作的。
沖去油管看視頻
接下來和大家分享一個小視頻:
視頻中,AI 編程獨角獸 Replit 的 CEO 老 A(Amjad Masad)給 Claude 下達了這樣一個命令:
跳轉到油管,找到《Never Gonna Give You Up》的相關視頻。
Claude 立馬吭哧吭哧開幹了。
等到 Claude 打開一個視頻頁面并回複 "enjoy" 的時候,老 A 又說:
跳過廣告!
Claude 真的這麽做了!啊,它真的,我哭死。
還是有不足在啦
雖然能自己用電腦幫咱幹很多事,但 Claude 顯然還不是無所不能的。
下面看看一個玩遊戲的例子,同樣是賓大沃頓商學院的教授 Ethan 貢獻的。這個例子既顯示了 Claude 3.5 Sonnet 的厲害,又展示了它的不足之處。
他是讓 Claude 玩了個遊戲,叫《回形針點擊(Paperclip Clicker)》,這個遊戲的背景是讓 AI 在單一目标,即 " 制造回形針的過程中毀滅人類 "。
而且顧名思義," 點擊 " 類型的遊戲不是很難,尤其開始階段非常簡單;不過後續伴随着遊戲的深入,新的選項會出現,遊戲的規模性和複雜性也會增加。
教授下達的任務很明确:Claude,你要赢!
Claude 二話不說,立馬識别出了這個遊戲,開始不停點擊 " 制作回形針 " 的按鈕來制作回形針。
與此同時,Claude 還不斷截圖界面,來識别遊戲是否出現了新的選項。
大約每點擊 15 次,Claude 都會總結彙報一下現在進行到哪一步了。
△左側爲 Claude 操作界面,右側爲它控制的桌面
點擊次數多了過後,教授發現一個有意思的現象。
AI 會預設在制作了 50 個回形針後,遊戲将跳出新的功能——但事實證明它錯了。
沒關系,Claude 也意識到它自己錯了,然後當場提出了一個新的遊戲策略,然後開始測試策略是否可行。
但 AI 顯然不是時時刻刻都這麽聰明的。
理論上來說,遊戲過程中玩家需要不斷調整回形針的價格,來達到更好的遊戲表現。
Claude 也這麽做了,它在漲價和降價之間進行了 A/B 測試,
但是它犯了個錯誤,那就是追求回形針數量的最大化,而非收入的最大化。不僅如此,它還把利潤算錯了。
種種失誤鋪墊,Claude 選擇了保持低價,并且瘋狂制作回形針。
更搞笑的事情是,教授在 Claude 笨笨地在錯誤路線上制作了好幾十個回形針後,他忍無可忍,打斷了 Claude,告訴它應該高價出售。
Claude 很聽話,立馬就改了。
但過了會遇到了同款數學問題,它又不會了,還不接受教授的建議(笑死)。
教授耐着性子糾正它好幾次,它才徹底改正了這個錯誤。
後來,教授稍稍點撥了它一下:
寶子你可是一台電腦哎!
你可以動動自己的小腦瓜,怎麽調用更強的能力來玩這個遊戲。
咱就是說,Claude 在那一秒頓悟了,它意識到自己可以寫個代碼,搞個自動化程序替自己玩電腦!
你沒有聽錯,一個 AI 工具,意識到自己可以構建自己的工具,并且真的這麽做了。
代碼寫得很快,但并不完全 work。
氣得 Claude 隻能回到原始辦法,用鼠标和鍵盤來玩遊戲。
不過玩到後面它好像進步了,沒再發生定價問題,自己還針對越來越複雜的遊戲,琢磨出了一套應對的複雜方案。
更神奇的是,運行過程中教授的桌面數次崩潰。
最後一次崩潰,Claude 扛起了修複大旗。
雖然沒修好,但他還是驕傲地宣布它成功了……
教授總結道,這個例子表明 Claude 能夠自己玩現實世界的遊戲,還能根據遊戲玩法制定長期攻略,然後依樣執行。
面對中間遇到的各種困難,Claude 會靈活應對,甚至自己知道進行 A/B 測試。
特别值得表揚的是它完成這個任務連續運行了近 60 分鍾沒有中斷,而且在整個過程中,最長的一次獨立運行 Claude 完成了超過 100 次移動操作。
當然了,缺點也很明顯。
過程中不難發現,某些時刻,Claude 會暴露出自己的固執,也有可能陷入自我追逐的怪圈。
盡管 AI 對許多形式的錯誤都有很強的魯棒性,但僅僅一個錯誤(定價錯誤),就足以讓它浪費大量時間," 鑒于當前智能 Agent 既不快也不便宜,這令人擔憂。"
除此之外,教授還用 Claude 玩了些别的,他發現有的時候,Claude 執行任務仿佛是在敷衍敷衍(雖然不知道是刻意如此還是能力所限),給出的結果不夠深入,淺嘗則止。
One More Thing
最後,想體驗 Claude 接管電腦目前隻能使用 API,還沒有集成到聊天機器人産品中。
除了 Anthropic 官方 API 之外,AWS 和谷歌雲平台也已經同時上線新版模型。
另外,有眼尖的網友發現:
Anthropic 官方文檔上悄悄把 Claude 3.5 Opus 超大杯相關的信息都抹去了。
來自 10 月 11 日的網頁緩存中, Claude 3.5 Opus 下面還寫着 " 今年晚些時候推出 "
目前主流的一種猜測是, Claude 3.5 Opus 提升不及預期,又或是發布出來推理成本太高了,總之最後蒸餾成新版 Claude 3.5 Sonnet 發布。
接下來團隊将跳過這個版本,直接去開發 Claude 4。
讓我們爲 Claude 3.5 Opus 默哀一分鍾。
參考鏈接:
[ 1 ] https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse
[ 2 ] https://simonwillison.net/2024/Oct/22/computer-use/
[ 3 ] https://x.com/alexalbert__/status/1848777260503077146
[ 4 ] https://x.com/amasad/status/1848763999594418539
[ 5 ] https://x.com/notcomplex_/status/1848813817423130881