出品|虎嗅科技組
作者|齊健
編輯|王一鵬
頭圖|DALL-E 3
在 ChatGPT 出現之前,"AI 替代人類 " 的想法一直被認爲是 AI 公司們的 " 科幻 " 噱頭。然而,看到了大語言模型湧現出的超強能力後,人們真的開始有點擔心自己的 " 飯碗 " 了,尤其是程序員。
2024 年 3 月,初創公司 Cognition 展示了該公司的一款 AI 編程工具 Devin。Cognition 将 Devin 描繪爲 " 世上首位完全自主的 AI 軟件工程師 "。
Cognition 的演示視頻中,Devin 在隻接受自然語言指令的情況下,就能從零開始構建應用程序。Devin 還在衆包平台 Upwork 上完成了一個實際的任務訂單,不僅完成了計算機視覺模型的代碼編寫和調試工作,還在任務結束時編制報告。
Cognition 甚至在社交媒體平台發文稱:Devin 已通過一家領先 AI 公司的工程師面試。
至此," 開發 AI 的人,最先被 AI 取代 " 的言論在網絡快速升溫。
然而,就在幾天前,一位自稱有 35 年開發經驗的美國工程師 Carl 在自己的 YouTube 賬号 Internet of Bugs 上發布視頻,稱 Devin 的演示可能存在造假。
自稱有 35 年開發經驗的美國工程師 Carl 在 YouTube 發布視頻,稱 Devin 的演示可能存在造假
Devin 可能隻是在 " 演 " 程序員?
目前,Devin 還沒有開放使用,隻能通過郵箱提交申請,所以外界對 Devin 的認知,基本都來自官方給出的演示視頻,以及少數第三方開發和産品人員的評價。
第三方評價中,熱度較高的就包括彭 * 博社在 3 月 12 日發布的一篇對 Cognition AI 公司,及其中幾位華人創始人的報道。這篇報道中提到,記者使用 Devin 在 5-10 分鍾内從頭開始構建了一個網站。報道還引用了一名試用過 Devin 的計算機科學家 Silas Alberti 對 Devin 的較高評價。
雖然質疑 Devin 造價的博主 Carl 并未對 Devin 進行實際測試。但他通過對 Cognition AI 發布的 Devin 實操視頻進行分析,提出了演示中的多處疑似造假内容,包括:
1. 演示視頻中,Devin 的很多操作其實并未實際上理解或正确完成任務。Devin 生成的報告沒有包含客戶實際所需的信息。
2. 在修複錯誤代碼的時候,Devin 還出現了" 沒有可能制造困難也要上 "的問題。Carl 指出,Devin 修複的一些代碼,是 " 人類永遠不會犯 " 的錯誤。因此這些錯誤很可能并非來自客戶的代碼庫,而是 Devin 自己造成的。
3. 在技術上,Devin 的表現也不是很好。有時會采用過時的方法處理文件,在 Python 環境中執行不适當的操作,甚至編寫自己的低級文件讀取循環而不是正确使用标準庫。
4. 視頻看起來 Devin 很快就完成了任務,視頻創建者能夠在大約 30 分鍾内完成所請求的任務,但聊天中的時間戳顯示,該任務持續了多個小時,甚至持續到第二天。
雖然 Carl 認爲 Cognition 在 Devin 的演示和實際操作中存在誇大的情況,但他也表示 Devin 在某些技術操作上表現出了令人印象深刻的能力。例如:Devin 能夠自動更新和配置文件,以匹配所需的庫版本。他認爲随着技術的進步,AI 工具像 Devin 這樣的 AI 工具一點能做到完全理解和執行更複雜編程任務。
人類仍是 AI 編程的關鍵?
目前 Devin 還未上線,其能力是否真如 Demo 一樣強,其實真假難辨。
不過可以肯定的是,雖然 AI 的确能幫助人類編程,但主流觀點仍不認爲 AI 可以替代人類。
"AI 遠沒有外界傳聞的那麽聰明,要理解業務邏輯都需要大量反複地溝通,别說幹活了。" 一位關注 AI 編程的開發者告訴虎嗅,目前很多程序員都在使用 Copilot 類的工具,但擔心被快速替代的人并不多。
事實上,目前大型語言模型在工作中仍存在兩個比較難解決的問題,一方面輸入的信息不一定可以正确理解底層邏輯,可能需要與 AI 進行反複溝通。另一方面,AI 輸出的内容都很難避免錯誤和幻覺,在需要更嚴謹認真的工作中,沒有人類的檢查和監督,則會面臨很大的風險。
"人類程序員寫程序的時候,結果基本是一定的,要麽好,要麽差。但大模型來了以後,就不好說了。" 支付寶 CTO 陳亮表示,AI 寫程序的結果存在很大不确定性," 他可以寫得比你好,也可能比你差。" 這就需要人類程序員想辦法去控制它或者去影響它。
陳亮認爲,雖然不能像以前寫程序一樣确定輸出結果,但可以通過翻譯、語料、數據等去影響他,讓 AI 有更大概率提供好的結果。
在 Cognition 剛剛發布 Devin 演示視頻時,前特斯拉 AI 技術總監、OpenAI 聯創 Andrej Karpathy,曾在 X 上發文評價表示:
" 在我看來,自動化軟件工程看起來與自動駕駛類似。自動駕駛的發展是:
1. 首先人類手動執行所有駕駛動作
2. 然後 AI 幫助保持車道
3. 看到前車能減速
4. 它也會變道
5. 它也會在标志 / 紅綠燈處停下并輪流通過
6. 最終你會得到一個功能完整的解決方案,并不斷提高質量,直到實現完全自動駕駛。
在軟件工程中,進展的情況類似。都是人工智能做得更多,人類做得更少,但仍然需要監督:
1. 首先人類手動編寫代碼
2. 然後 GitHub Copilot 自動完成幾行
3. ChatGPT 寫入代碼塊
4. 轉向越來越大的代碼差異(例如 Cursor copilot++ 風格)
5....
Andrej Karpathy 認爲,Devin 是一個令人印象深刻的演示,可能會推動編碼工具的進步,包括終端、浏覽器、代碼編輯器等,以及人類監督。
程序員的 AI 危機是什麽?
雖然 Devin 可能代替不了人類,但很多人類崗位确實已經在被 AI 威脅了。
"AI 不一定取代人,但會用 AI 的人一定取代不會用 AI 的人。"
2023 年以來,AI 工具對工作的重要性上升到了新高度。
陳亮介紹說,目前 60% 的螞蟻程序員在寫代碼時都用上了 Codefuse 全站使用 Codefuse 的螞蟻程序員寫的代碼中,約 12% 的代碼是由 Codefuse 生成的。
宜創科技的創始人宜博則講述了一個更生動的例子。
"2023 年初,我要求公司所有程序員必須會用 ChatGPT 寫代碼,一個月時間學習并考核,考核後平均效率提升了 3-5 倍。我們最強的一個架構師的編程效率基本上是原來的 5 到 10 倍。"
宜博說,使用 Copilot 類工具以前,架構師要先把客戶需求拿過來梳理清楚,然後再安排 5 到 10 個人幫他幹活,他要告訴這些人:前端這個框架你來做。後端這個接口你來寫。
" 現在不需要這樣了,架構師現在想清楚之後,文檔裏寫清楚,直接可以用 ChatGPT 把它弄出來。" 一個 10 個人的團隊把一件事情講清楚,再做好,檢查清楚,可能要一個禮拜。現在這個時間可能不到一天,甚至就幾個小時就完成了。
Devin 無辜,罪在炒作
Devin 将他的創作者 Cognition 推到了風口浪尖。這家成立于 2023 年底的公司,目前已經收到了來自知名機構 Founders Fund 等約 2100 萬美元的投資。該公司種子輪估值約 3.5 億美元,如今估值已達 20 億美元。
如今,随着 Devin 的 " 世界首個 AI 軟件工程師 " 稱号被 Carl 質疑是不實宣傳,Cognition 恐怕要面臨一場公關危機了。
對于 " 虛假宣傳 ",Carl 批評 AI 産品的宣傳往往缺乏透明度,不如實展示産品的實際能力和限制,從而誤導了公衆和專業人士。
在過去一年中,爆火 AI 的 " 虛假宣傳 " 案例确實數見不鮮。
其中最有名的就是 "Google 發布 Gemini 的演示視頻 "。 Google 在其最新 AI 大模型 Gemini 發布的演示視頻中,展示了經驗的多模态能力。但後來該公司承認視頻實際上是經過剪輯的,使用了靜态圖像和文字提示,而非實時動态處理。視頻中減少了延遲,簡化了 Gemini 的輸出。
就在不久前,亞馬遜推出的一項 " 無需結賬 " 技術(Just Walk Out),亦被指出是人工 " 僞裝 " 的人工智能。有報道指出這項技術并非完全依賴先進的 AI 和計算機視覺,而是由超過 1000 名印度工作人員在手動審核顧客的購物行爲,确保結賬的準确性。不過,目前亞馬遜已否認了這種說法,并聲稱這些工作人員主要是在訓練模型,幫助改進技術。
更早的案例中,也曾有國内某知名 AI 公司,被指在某大會現場把人類同傳翻譯的内容僞裝成 AI 翻譯内容,打上公司産品 Logo 展示。
在指證 Devin 造假的視頻中,Carl 呼籲制造商、媒體和使用者都應對 AI 技術持有懷疑态度,并進行必要的核實。Carl 認爲,這種誇大其詞的做法不僅誤導了公衆,還爲 AI 技術設置了不切實際的期望。
一些網友也對 Carl 的觀點表示支持。
rayhere7925 認爲:許多這樣的科技初創企業隻有一個目标:賺錢。他們如何獲得資金?通過投資者和 / 或炒作。我敢肯定,這種誇張的演示以及随之而來的所有文章和影響者視頻,一定說服了某些地方的投資者向這家公司注資——這正是這家公司的目标。如果這意味着可以賺更多的錢,公司會撒謊(如果他們能僥幸成功的話)。這家公司爲了炒作和吸引投資者而撒謊也就不足爲奇了。
Apexphp 則認爲:現代新聞業的問題在于,過去撰寫技術文章的人通常對該領域有一定的了解,他們知道專業術語的含義,能夠閱讀自己寫作領域的科學論文,并理解其中的大部分内容。但現在,我們隻有一群按篇酬付費的人,他們在互聯網上找到有趣的标題,然後簡單寫幾句話,因爲他們所在的公司支付的費用與他們爲一篇撰寫精良、經過深入研究的文章支付的費用相同,所以他們也就沒必要多費心了。