用 GPT-4 打造的 AI 程序員,結果輕松追平 Devin!
普林斯頓打造的開源 SWE-agent,直接開箱即用——修複 GitHub 存儲庫中真實 bug。
在 25% 的 SWE-bench 測試集上,它實現了與 Devin 相似的準确度—— 解決了 12.29% 的問題。
GitHub 上線首日即斬獲 1.6K 星。不少網友感歎,隻需對 GPT-4 命令行工具進行簡單設計,就可以讓 GPT-4 部分能力大幅提升。
這恰好也印證了前幾天吳恩達在演講中的觀點:
我認爲 AI Agent 将在今年推動人工智能巨大進步,甚至可能超過下一代基礎模型。
因爲在吳恩達的研究中,GPT-3.5 的 Agent 比 GPT-4 的表現還要好。
如今開源版 Devin 現世,已經有人開始 RIP Devin 了。
這就來看看這個開源版 Devin 長什麽樣。
開源版 Devin 來了
簡單來說,SWE-agent 是将語言模型(比如 GPT-4)轉變爲軟件工程 agent,來 Debug GitHub 存儲庫中的一些問題。
他們設計了以 LM 爲中心的命令和反饋格式來實現這些結果,使語言模型更容易浏覽存儲庫、查看、編輯和執行代碼文件。
用他們的說法,這叫做代理計算機接口(ACI),并構建 SWE-agent 存儲庫,以便輕松叠代 ACI 設計。
在 SWE-agent 上,團隊主要設計了這些功能。
創建文件查看和編輯器,可以打開、滾動和編輯文件。
結果發現每輪隻顯示 100 行時效果最佳。
通過自動語法檢查編輯特定行。
如果代碼語法不正确,就不讓編輯命令通過。當命令輸出爲空時會返回一條信息:" 您的命令運行成功,但未産生任何輸出 "。
編寫和執行測試。
目前使用 SWE-agent 主要有兩個步驟。
首先,推理。SWE-agent 接收一個輸入的 GitHub 問題,并返回一個試圖修複該問題的拉取請求。
第二步是評估拉取請求,以驗證它是否确實修複了問題。*(目前僅适用于 SWE-bench 基準中的問題)。
英偉達科學家 Jim Fan 爲其工作點贊:Great Work!揭開了炒作背後的簡單本質。
隻需對 GPT-4 命令行工具進行更好的手動設計,就能在 SWEBenche 上獲得 12.3 的成績。沒有什麽神奇之處,沒有什麽模型突破,也沒有什麽理由要極力炒作。
當 GPT-5 到來時,這些 " 提示工程 2.0 " 都将不再重要。
這不免讓人想到前段時間 Devin 橫空出世,如今也很少見人讨論它了。
不過也有人問爲什麽不用 Claude 3 來做 Agent,主創團隊表示:嘗試了,但結果不太好。
在 SWE-bench Lite(測試集的 10% 子集)上,它的成績比 GPT-4 少了近 6%。而且它也慢得多。(GPT-4 的響應時間是 93 秒)
除此之外,他還表示團隊在 logo 設計上費了很大心思——
花了幾個小時用 DALL-3 來設計。(Doge)
普林斯頓造
這是來自普林斯頓 NLP 小組打造的軟件工程 Agent。
據了解,John Yang 和 Carlos E. Jimenez 是共同一作。
除此之外還有姚順雨,目前是普林斯頓在讀博士生,2015 年畢業清華姚班。
他們的共同導師是 Karthik Narasimhan,目前是普林斯頓 NLP 聯合主任,跟陳丹琦是同事。
團隊表示,他們将在 4 月 10 号發布論文。
雖然但是,最後還有一個靈魂拷問:
呃但 GPT-4 不是開源的……
好了,你覺得這個開源的 AI 程序員怎麽樣呢?
參考鏈接:
[ 1 ] https://swe-agent.com/
[ 2 ] https://twitter.com/DrJimFan/status/1775173542470111475
— 完 —
【 火熱報名中】中國 AIGC 産業峰會
定檔 4 月 17 日
峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓,共論生成式 AI 産業最新變革趨勢。
最新确認嘉賓包括:商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等,。
峰會将全程線上下同步直播,歡迎預約直播 ⬇️
點這裏關注我,記得标星噢
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~