AI程序員Devin卧底工作群修bug！和CTO聊技術，網友：頂級碼農水平 - 青年圖摘

首個 AI 程序員Devin，現身明星創業公司内部群。

爲解決一個技術問題，Devin 借用了其創造者的賬号，與客戶公司的 CTO 交流，并根據回複調整了代碼方案。

對話之專業，圍觀者看了直呼這個世界太瘋狂。

事情發生在辦公軟件 Slack，截圖中的 akshat 是 AI 基礎設施創業公司Modal Labs的CTO Akshat Bubna。

Modal Labs 也是 Devin 開發商 Cognition 的首批客戶之一。

此時 Devin 正披着他的創造者之一、IOI 金牌得主Steven Hao的馬甲。

對話的開始，AI 程序員 Devin 正在詢問有關 Modal Lab 平台的密鑰的生命周期問題，特别是密鑰更新後傳播到正在運行的應用程序所需的時間。

Devin 表示自己已經查閱了文檔，包括密鑰和環境變量指南、CLI 命令參考、API 參考以及容器生命周期鈎子和參數，但依舊沒有找到關于密鑰傳播時間的明确信息。

Devin 詢問了更新的密鑰通常需要多長時間才能被運行中的應用程序使用，因爲這對于他們的運營至關重要，了解這一點将有助于管理他們的部署流程。

人類 CTO 解釋說，當密鑰更新時，他們不會使已經運行的 Modal 容器失效，但是新啓動的容器将會讀取更新後的值。

Devin 對此表示感謝，并決定暫時采用手動方法來管理 Modal 中的密鑰，即在需要時調用 modal deploy 命令來觸發相關應用程序容器的重啓。

看完整個過程後，同樣是 AI 創業者的 Raunak Chowdhuri 評價到：

發現問題、創建工單、調整代碼，最好的人類開發者就是這麽工作的。

Devin 更多實測結果

拿到 Devin 早期測試資格的人和公司并不多，不過還是陸陸續續有人曬出實測結果。

熱衷 AI 的沃頓商學院教授Ethan Molick試過後，認爲其新穎的實時交互方式是最值得關注的。

您可以随時與它 " 交談 "，就像與人交談一樣，它會在後台不斷地執行和調試您的想法。

在測試中，Ethan Mollick 要求 Devin 開發一個解釋 " 創業公司融資中的股權稀釋 " 的網站。

不過他透露，AI 還無法在沒有任何幫助的情況下，自主且無差錯地完成這項工作。

要想把一個重大項目交給人工智能來完成，還有很長的路要走，但這仍然是一個令人着迷的開始。

另一位曬出測試過程的創業者Mckay Wrigley更激動一些。

在他曬出的 27 分鍾測試中，隻發了一個 GitHub 連接，讓 Devin 部署來自開源項目的代碼。

Devin自主把任務拆解成一系列子步驟，并一步步開始執行。

執行過程中，Devin 在安裝 Supabase 數據庫時遇到了障礙，自己打開了對應的 Github 倉庫開始查閱文檔……

從後續終端反饋中可以看出，Devin 查到了運行 Supabase 所需的各種端口和密匙都應該填什麽。

（裝過的都知道，雀食挺麻煩……）

與此同時，Devin 還在根據實際情況不斷修改自己的後續計劃。

一段時間過後，一個本地的聊天機器人程序就跑起來了。

測試一段時間後 Mckay Wrigley 認爲，Devin 已經可以算 Agent 的 ChatGPT 時刻。

複現 Devin 計劃 ing

Devin 這邊大夥還在接連測試，另一邊開源 " 複現 " 方案也在進行中……

這不，GitHub 三萬 Star 項目MetaGPT就上新了。

名爲數據解釋器（Data Interpreter）：

同 Devin 一樣，Data Interpreter 也能實現自主編程，能叠代式觀察數據，預測分析病情進展、機器運行狀态；還能構建機器學習模型、進行數學推理、自動回複電子郵件、仿寫網站……

比如從英偉達股價數據中分析收盤價格趨勢：

分析數據預測葡萄酒質量：

除此以外，阿裏 Qwen 成員 Binyan Hui 等人開啓了OpenDevin項目，剛剛起步已獲得 1.2k Star。

Binyan Hui 發推文表示，已有一個初步的路線圖和一群優秀的人在努力工作，在很短的時間内就完成了前端原型。

同時項目團隊也在招新成員：

另外，還一個名爲 Maisa AI 的團隊推出了Maisa KPU（Knowledge Processing Unit），被網友認爲與 Devin 有一些競争。

目前 Maisa KPU 處于測試階段，它可以解決複雜問題和推理，團隊發布的基準測試結果如下：

根據 demo 展示，KPU 可以成爲 " 智能客服 "，在客戶沒有正确寫好訂單号的情況下，幫助客戶解決訂單未送達的問題：

Devin 基準測試技術報告發布

最近，Devin 創始團隊 Cognition 還發布關于 SWE-bench 測試的技術報告。

除了之前已公布的測試結果之外，團隊還透露了一些新消息。

比如，Cognition 的目标之一是讓 Devin 這個專門從事軟件開發的 AI 智能體能夠成功地爲大型、複雜的代碼庫貢獻代碼。

選擇在 SWE-bench 上端到端運行智能體，也是考慮了它更接近現實世界的軟件開發。

此外，研發團隊還透露，爲了防止 Devin 在測試中作弊，比如查找外部的 pull requests 信息，測試已做相關設置，确保 Devin 無法訪問相關信息，并且在此過程中也已人工手動檢查了 Devin 運行情況。

最後團隊強調 Devin 仍處于起步階段，還有很大改進空間：

更多細節感興趣的家人們可查看報告詳情。

Devin 發布不到一周，網友們的讨論已十分熱烈。

比如，這位大兄弟表示自己一年前擔心的事兒終究還是發生了。

以後 Stack Overflow 上都是各種 Devin 在提問，人，就隻能被擠出去（Stack Overflow 危！！！）：

有網友回應（手動狗頭）：

它們可以互相回答問題。

還有網友發現 Devin 背後團隊 Cognition 正在招全職軟件工程師，于是緩緩打出一個問号：

Devin 不是應該填補這些職位空缺來爲他們省錢嗎？

最後，若 Devin 公開你會想用它幹點啥？

參考鏈接：

[ 1 ] https://www.cognition-labs.com/post/swe-bench-technical-report

[ 2 ] https://x.com/raunakdoesdev/status/1769066769786757375

[ 3 ] https://twitter.com/emollick/status/1768742585122558063

[ 4 ] https://x.com/mckaywrigley/status/1767985840448516343

[ 5 ] https://x.com/maisaAI_/status/1768657114669429103?s=20