下崗？程序員暫時安全

出品｜虎嗅科技組

作者｜齊健

編輯｜王一鵬

頭圖｜DALL-E 3

在 ChatGPT 出現之前，"AI 替代人類 " 的想法一直被認爲是 AI 公司們的 " 科幻 " 噱頭。然而，看到了大語言模型湧現出的超強能力後，人們真的開始有點擔心自己的 " 飯碗 " 了，尤其是程序員。

2024 年 3 月，初創公司 Cognition 展示了該公司的一款 AI 編程工具 Devin。Cognition 将 Devin 描繪爲 " 世上首位完全自主的 AI 軟件工程師 "。

Cognition 的演示視頻中，Devin 在隻接受自然語言指令的情況下，就能從零開始構建應用程序。Devin 還在衆包平台 Upwork 上完成了一個實際的任務訂單，不僅完成了計算機視覺模型的代碼編寫和調試工作，還在任務結束時編制報告。

Cognition 甚至在社交媒體平台發文稱：Devin 已通過一家領先 AI 公司的工程師面試。

至此，" 開發 AI 的人，最先被 AI 取代 " 的言論在網絡快速升溫。

然而，就在幾天前，一位自稱有 35 年開發經驗的美國工程師 Carl 在自己的 YouTube 賬号 Internet of Bugs 上發布視頻，稱 Devin 的演示可能存在造假。

自稱有 35 年開發經驗的美國工程師 Carl 在 YouTube 發布視頻，稱 Devin 的演示可能存在造假

Devin 可能隻是在 " 演 " 程序員？

目前，Devin 還沒有開放使用，隻能通過郵箱提交申請，所以外界對 Devin 的認知，基本都來自官方給出的演示視頻，以及少數第三方開發和産品人員的評價。

第三方評價中，熱度較高的就包括彭 * 博社在 3 月 12 日發布的一篇對 Cognition AI 公司，及其中幾位華人創始人的報道。這篇報道中提到，記者使用 Devin 在 5-10 分鍾内從頭開始構建了一個網站。報道還引用了一名試用過 Devin 的計算機科學家 Silas Alberti 對 Devin 的較高評價。

雖然質疑 Devin 造價的博主 Carl 并未對 Devin 進行實際測試。但他通過對 Cognition AI 發布的 Devin 實操視頻進行分析，提出了演示中的多處疑似造假内容，包括：

1. 演示視頻中，Devin 的很多操作其實并未實際上理解或正确完成任務。Devin 生成的報告沒有包含客戶實際所需的信息。

2. 在修複錯誤代碼的時候，Devin 還出現了" 沒有可能制造困難也要上 "的問題。Carl 指出，Devin 修複的一些代碼，是 " 人類永遠不會犯 " 的錯誤。因此這些錯誤很可能并非來自客戶的代碼庫，而是 Devin 自己造成的。

3. 在技術上，Devin 的表現也不是很好。有時會采用過時的方法處理文件，在 Python 環境中執行不适當的操作，甚至編寫自己的低級文件讀取循環而不是正确使用标準庫。

4. 視頻看起來 Devin 很快就完成了任務，視頻創建者能夠在大約 30 分鍾内完成所請求的任務，但聊天中的時間戳顯示，該任務持續了多個小時，甚至持續到第二天。

雖然 Carl 認爲 Cognition 在 Devin 的演示和實際操作中存在誇大的情況，但他也表示 Devin 在某些技術操作上表現出了令人印象深刻的能力。例如：Devin 能夠自動更新和配置文件，以匹配所需的庫版本。他認爲随着技術的進步，AI 工具像 Devin 這樣的 AI 工具一點能做到完全理解和執行更複雜編程任務。

人類仍是 AI 編程的關鍵？

目前 Devin 還未上線，其能力是否真如 Demo 一樣強，其實真假難辨。

不過可以肯定的是，雖然 AI 的确能幫助人類編程，但主流觀點仍不認爲 AI 可以替代人類。

"AI 遠沒有外界傳聞的那麽聰明，要理解業務邏輯都需要大量反複地溝通，别說幹活了。" 一位關注 AI 編程的開發者告訴虎嗅，目前很多程序員都在使用 Copilot 類的工具，但擔心被快速替代的人并不多。

事實上，目前大型語言模型在工作中仍存在兩個比較難解決的問題，一方面輸入的信息不一定可以正确理解底層邏輯，可能需要與 AI 進行反複溝通。另一方面，AI 輸出的内容都很難避免錯誤和幻覺，在需要更嚴謹認真的工作中，沒有人類的檢查和監督，則會面臨很大的風險。

"人類程序員寫程序的時候，結果基本是一定的，要麽好，要麽差。但大模型來了以後，就不好說了。" 支付寶 CTO 陳亮表示，AI 寫程序的結果存在很大不确定性，" 他可以寫得比你好，也可能比你差。" 這就需要人類程序員想辦法去控制它或者去影響它。

陳亮認爲，雖然不能像以前寫程序一樣确定輸出結果，但可以通過翻譯、語料、數據等去影響他，讓 AI 有更大概率提供好的結果。

在 Cognition 剛剛發布 Devin 演示視頻時，前特斯拉 AI 技術總監、OpenAI 聯創 Andrej Karpathy，曾在 X 上發文評價表示：

" 在我看來，自動化軟件工程看起來與自動駕駛類似。自動駕駛的發展是：

1. 首先人類手動執行所有駕駛動作

2. 然後 AI 幫助保持車道

3. 看到前車能減速

4. 它也會變道

5. 它也會在标志 / 紅綠燈處停下并輪流通過

6. 最終你會得到一個功能完整的解決方案，并不斷提高質量，直到實現完全自動駕駛。

在軟件工程中，進展的情況類似。都是人工智能做得更多，人類做得更少，但仍然需要監督：

1. 首先人類手動編寫代碼

2. 然後 GitHub Copilot 自動完成幾行

3. ChatGPT 寫入代碼塊

4. 轉向越來越大的代碼差異（例如 Cursor copilot++ 風格）

5....

Andrej Karpathy 認爲，Devin 是一個令人印象深刻的演示，可能會推動編碼工具的進步，包括終端、浏覽器、代碼編輯器等，以及人類監督。

程序員的 AI 危機是什麽？

雖然 Devin 可能代替不了人類，但很多人類崗位确實已經在被 AI 威脅了。

"AI 不一定取代人，但會用 AI 的人一定取代不會用 AI 的人。"

2023 年以來，AI 工具對工作的重要性上升到了新高度。

陳亮介紹說，目前 60% 的螞蟻程序員在寫代碼時都用上了 Codefuse 全站使用 Codefuse 的螞蟻程序員寫的代碼中，約 12% 的代碼是由 Codefuse 生成的。

宜創科技的創始人宜博則講述了一個更生動的例子。

"2023 年初，我要求公司所有程序員必須會用 ChatGPT 寫代碼，一個月時間學習并考核，考核後平均效率提升了 3-5 倍。我們最強的一個架構師的編程效率基本上是原來的 5 到 10 倍。"

宜博說，使用 Copilot 類工具以前，架構師要先把客戶需求拿過來梳理清楚，然後再安排 5 到 10 個人幫他幹活，他要告訴這些人：前端這個框架你來做。後端這個接口你來寫。

" 現在不需要這樣了，架構師現在想清楚之後，文檔裏寫清楚，直接可以用 ChatGPT 把它弄出來。" 一個 10 個人的團隊把一件事情講清楚，再做好，檢查清楚，可能要一個禮拜。現在這個時間可能不到一天，甚至就幾個小時就完成了。

Devin 無辜，罪在炒作

Devin 将他的創作者 Cognition 推到了風口浪尖。這家成立于 2023 年底的公司，目前已經收到了來自知名機構 Founders Fund 等約 2100 萬美元的投資。該公司種子輪估值約 3.5 億美元，如今估值已達 20 億美元。

如今，随着 Devin 的 " 世界首個 AI 軟件工程師 " 稱号被 Carl 質疑是不實宣傳，Cognition 恐怕要面臨一場公關危機了。

對于 " 虛假宣傳 "，Carl 批評 AI 産品的宣傳往往缺乏透明度，不如實展示産品的實際能力和限制，從而誤導了公衆和專業人士。

在過去一年中，爆火 AI 的 " 虛假宣傳 " 案例确實數見不鮮。

其中最有名的就是 "Google 發布 Gemini 的演示視頻 "。 Google 在其最新 AI 大模型 Gemini 發布的演示視頻中，展示了經驗的多模态能力。但後來該公司承認視頻實際上是經過剪輯的，使用了靜态圖像和文字提示，而非實時動态處理。視頻中減少了延遲，簡化了 Gemini 的輸出。

就在不久前，亞馬遜推出的一項 " 無需結賬 " 技術（Just Walk Out），亦被指出是人工 " 僞裝 " 的人工智能。有報道指出這項技術并非完全依賴先進的 AI 和計算機視覺，而是由超過 1000 名印度工作人員在手動審核顧客的購物行爲，确保結賬的準确性。不過，目前亞馬遜已否認了這種說法，并聲稱這些工作人員主要是在訓練模型，幫助改進技術。

更早的案例中，也曾有國内某知名 AI 公司，被指在某大會現場把人類同傳翻譯的内容僞裝成 AI 翻譯内容，打上公司産品 Logo 展示。

在指證 Devin 造假的視頻中，Carl 呼籲制造商、媒體和使用者都應對 AI 技術持有懷疑态度，并進行必要的核實。Carl 認爲，這種誇大其詞的做法不僅誤導了公衆，還爲 AI 技術設置了不切實際的期望。

一些網友也對 Carl 的觀點表示支持。

rayhere7925 認爲：許多這樣的科技初創企業隻有一個目标：賺錢。他們如何獲得資金？通過投資者和 / 或炒作。我敢肯定，這種誇張的演示以及随之而來的所有文章和影響者視頻，一定說服了某些地方的投資者向這家公司注資——這正是這家公司的目标。如果這意味着可以賺更多的錢，公司會撒謊（如果他們能僥幸成功的話）。這家公司爲了炒作和吸引投資者而撒謊也就不足爲奇了。

Apexphp 則認爲：現代新聞業的問題在于，過去撰寫技術文章的人通常對該領域有一定的了解，他們知道專業術語的含義，能夠閱讀自己寫作領域的科學論文，并理解其中的大部分内容。但現在，我們隻有一群按篇酬付費的人，他們在互聯網上找到有趣的标題，然後簡單寫幾句話，因爲他們所在的公司支付的費用與他們爲一篇撰寫精良、經過深入研究的文章支付的費用相同，所以他們也就沒必要多費心了。