首個 AI 程序員Devin,現身明星創業公司内部群。
爲解決一個技術問題,Devin 借用了其創造者的賬号,與客戶公司的 CTO 交流,并根據回複調整了代碼方案。
對話之專業,圍觀者看了直呼這個世界太瘋狂。
事情發生在辦公軟件 Slack,截圖中的 akshat 是 AI 基礎設施創業公司Modal Labs的CTO Akshat Bubna。
Modal Labs 也是 Devin 開發商 Cognition 的首批客戶之一。
此時 Devin 正披着他的創造者之一、IOI 金牌得主Steven Hao的馬甲。
對話的開始,AI 程序員 Devin 正在詢問有關 Modal Lab 平台的密鑰的生命周期問題,特别是密鑰更新後傳播到正在運行的應用程序所需的時間。
Devin 表示自己已經查閱了文檔,包括密鑰和環境變量指南、CLI 命令參考、API 參考以及容器生命周期鈎子和參數,但依舊沒有找到關于密鑰傳播時間的明确信息。
Devin 詢問了更新的密鑰通常需要多長時間才能被運行中的應用程序使用,因爲這對于他們的運營至關重要,了解這一點将有助于管理他們的部署流程。
人類 CTO 解釋說,當密鑰更新時,他們不會使已經運行的 Modal 容器失效,但是新啓動的容器将會讀取更新後的值。
Devin 對此表示感謝,并決定暫時采用手動方法來管理 Modal 中的密鑰,即在需要時調用 modal deploy 命令來觸發相關應用程序容器的重啓。
看完整個過程後,同樣是 AI 創業者的 Raunak Chowdhuri 評價到:
發現問題、創建工單、調整代碼,最好的人類開發者就是這麽工作的。
Devin 更多實測結果
拿到 Devin 早期測試資格的人和公司并不多,不過還是陸陸續續有人曬出實測結果。
熱衷 AI 的沃頓商學院教授Ethan Molick試過後,認爲其新穎的實時交互方式是最值得關注的。
您可以随時與它 " 交談 ",就像與人交談一樣,它會在後台不斷地執行和調試您的想法。
在測試中,Ethan Mollick 要求 Devin 開發一個解釋 " 創業公司融資中的股權稀釋 " 的網站。
不過他透露,AI 還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。
要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人着迷的開始。
另一位曬出測試過程的創業者Mckay Wrigley更激動一些。
在他曬出的 27 分鍾測試中,隻發了一個 GitHub 連接,讓 Devin 部署來自開源項目的代碼。
Devin自主把任務拆解成一系列子步驟,并一步步開始執行。
執行過程中,Devin 在安裝 Supabase 數據庫時遇到了障礙,自己打開了對應的 Github 倉庫開始查閱文檔……
從後續終端反饋中可以看出,Devin 查到了運行 Supabase 所需的各種端口和密匙都應該填什麽。
(裝過的都知道,雀食挺麻煩……)
與此同時,Devin 還在根據實際情況不斷修改自己的後續計劃。
一段時間過後,一個本地的聊天機器人程序就跑起來了。
測試一段時間後 Mckay Wrigley 認爲,Devin 已經可以算 Agent 的 ChatGPT 時刻。
複現 Devin 計劃 ing
Devin 這邊大夥還在接連測試,另一邊開源 " 複現 " 方案也在進行中……
這不,GitHub 三萬 Star 項目MetaGPT就上新了。
名爲數據解釋器(Data Interpreter):
同 Devin 一樣,Data Interpreter 也能實現自主編程,能叠代式觀察數據,預測分析病情進展、機器運行狀态;還能構建機器學習模型、進行數學推理、自動回複電子郵件、仿寫網站……
比如從英偉達股價數據中分析收盤價格趨勢:
分析數據預測葡萄酒質量:
除此以外,阿裏 Qwen 成員 Binyan Hui 等人開啓了OpenDevin項目,剛剛起步已獲得 1.2k Star。
Binyan Hui 發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間内就完成了前端原型。
同時項目團隊也在招新成員:
另外,還一個名爲 Maisa AI 的團隊推出了Maisa KPU(Knowledge Processing Unit),被網友認爲與 Devin 有一些競争。
目前 Maisa KPU 處于測試階段,它可以解決複雜問題和推理,團隊發布的基準測試結果如下:
根據 demo 展示,KPU 可以成爲 " 智能客服 ",在客戶沒有正确寫好訂單号的情況下,幫助客戶解決訂單未送達的問題:
Devin 基準測試技術報告發布
最近,Devin 創始團隊 Cognition 還發布關于 SWE-bench 測試的技術報告。
除了之前已公布的測試結果之外,團隊還透露了一些新消息。
比如,Cognition 的目标之一是讓 Devin 這個專門從事軟件開發的 AI 智能體能夠成功地爲大型、複雜的代碼庫貢獻代碼。
選擇在 SWE-bench 上端到端運行智能體,也是考慮了它更接近現實世界的軟件開發。
此外,研發團隊還透露,爲了防止 Devin 在測試中作弊,比如查找外部的 pull requests 信息,測試已做相關設置,确保 Devin 無法訪問相關信息,并且在此過程中也已人工手動檢查了 Devin 運行情況。
最後團隊強調 Devin 仍處于起步階段,還有很大改進空間:
更多細節感興趣的家人們可查看報告詳情。
Devin 發布不到一周,網友們的讨論已十分熱烈。
比如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。
以後 Stack Overflow 上都是各種 Devin 在提問,人,就隻能被擠出去(Stack Overflow 危!!!):
有網友回應(手動狗頭):
它們可以互相回答問題。
還有網友發現 Devin 背後團隊 Cognition 正在招全職軟件工程師,于是緩緩打出一個問号:
Devin 不是應該填補這些職位空缺來爲他們省錢嗎?
最後,若 Devin 公開你會想用它幹點啥?
參考鏈接:
[ 1 ] https://www.cognition-labs.com/post/swe-bench-technical-report
[ 2 ] https://x.com/raunakdoesdev/status/1769066769786757375
[ 3 ] https://twitter.com/emollick/status/1768742585122558063
[ 4 ] https://x.com/mckaywrigley/status/1767985840448516343
[ 5 ] https://x.com/maisaAI_/status/1768657114669429103?s=20