超 70% 代碼問題,單純靠基座大模型是解決不了的;
未來 3-5 年,人類 50% 編程工作可以被替代,有些環節甚至完全自動化。
螞蟻集團代碼大模型 CodeFuse 負責人李建國說道。
當下,AI 代碼生成領域正在野蠻式生長,巨頭湧入,AI 員工頻頻上線企業;首個 AI 程序員 Devin 被曝造假…… 面對風起雲湧的代碼生成變革,李建國給出了這樣一個明确論斷。
李建國是誰?
清華大學博士,機器學習、深度學習深耕十餘年,論文被引萬餘次。在他的帶領下,螞蟻内部正全面推行 AI 編程。每周已有超五成程序員使用 CodeFuse,目前CodeFuse 生成代碼整體采納率爲 30%,已經屬于整個 AI 編程工具中能力第一梯隊,最強 Copilot 代碼整體采納率差不多在 35%。
因此不管是學術的權威性,還是産業落地的代表性,李建國博士極具話語權。于是在代碼生成模型和産品爆發式發展的當下,量子位同李建國博士展開了進一步交流。
核心觀點如下:
編寫代碼在整個企業研發過程中所占的比重可能連 1/5,甚至 1/10 都不到;
要實現項目級的需求實現,從原子級需求端到端漸進發展的模式是切實可行的;
AI 程序員成爲企業運營中的新常态已經是勢不可擋的趨勢;
目前自然語言編程處于 L2.5 階段,按照萬物摩爾定律的發展趨勢,未來 3-4 年達到 L3,甚至接近 L4 的水平是有可能的。
相較于前、後端的軟件工程師,AI 全棧工程師需求更大。
當前代碼生成變革所面對的挑戰包括:端到端代碼生成能力、Agent 推理能力、複雜需求拆解、跨模态橫向交互、安全可信可靠。
編寫代碼隻占整個研發生命周期 1/5 不到
首先,程序員這個行業曆史并不算長,從 20 世紀 50 年代至今,大約有七八十年的曆史。随着技術的進步,編程工具不斷更新叠代(打孔 - VI 編輯器 - 集成開發環境 - 輔助編程工具),程序員的工作效率得到了顯著提升。
來到大模型時代,相關模型和産品演化叠代十分迅速,可以說十分的 " 卷 "。
對個人開發者而言,AI 編程工具隻需完成從需求到代碼實現的閉環過程就夠了,就像 Copilot 這樣的工具。他們更傾向于關注如何高效地實現需求。
但從企業維度則更關注整個研發流程的效率提升,除了關注代碼生成的安全可靠可信,測試構建、發布運維以及數據洞察等方面也是至關重要的。
我們期望能夠有一個研發智能體,甚至是一個智能總線(bus),它能夠與各個 Agent 進行交互,并将任務分發下去——從架構設計到前端實現,再到後端開發,以及安全測試和功能測試,最後是效能方面的持續集成 / 持續部署(CICD)和運維自動化。
△測試 - 自然語言生成終端用例
整個系統上線後,還能夠自動進行運維布控,并分析産品的用戶訪問量(UV)、頁面浏覽量(PV)等數據。
△運維 - 監控解讀
編寫代碼在整個過程中所占的比重可能連五分之一或十分之一都不到。但如果這樣的 Agent 能将所有環節高效連接起來,從而真正提升整個流程的效率。
再加上當前程序員實際所面臨的痛點在于,市面上一些産品大多是原子級能力的實現——通過單體大模型隻能解決 30% 的代碼補全,無法解決更多的代碼問題,比如跨庫的函數調用。
基于這樣的行業思考,去年 9 月份開始,我們開源了CodeFuse,并明确提出要構建全生命周期的代碼大模型。
下一步,我們計劃進行項目級的需求實現,這相當于去實現一個全新的系統。這對基礎模型提出更高的要求——
自然語言理解的能力至少達到 GPT-4 或 GPT-4.5 的水平。但從目前的情況來看,我們更傾向于采取一種漸進的模式。
我們首個 MileStone 是解決倉庫内及跨倉庫的需求實現問題,包括 API 調用、服務調用,以及涉及到的外部中間件版本更新問題。
如果我們能夠妥善處理這些問題,就能解決剛才提到的 70% 問題中很大一部分(比如 20% 的問題),這将顯著提高代碼采納率,并讓用戶感到滿意。
最終要實現項目級别的需求任重而道遠。我認爲,代碼基礎模型和 Agent 技術需要同步快速發展,才能達到我們的目标。
我們的思路相對保守,因爲就基礎模型的要求而言,我認爲短期内國内要達到 GPT 水平還存在一定差距。
大模型對軟件開發的範式改變
AI 程序員成爲企業運營中的新常态已經成爲勢不可擋的趨勢。不管是像 Devin 這種 AI 程序員,還是我們提到的全生命周期研發智能體,大模型對整個軟件研發範式都是非常大的提效。
過去遇到不懂的問題,人們可能首先會去 Google 或百度上搜索,而現在,他們可以直接在代碼中提問,随即獲得一個相對精确的結果,采納後即可使用。
我認爲這是一個巨大的效率提升,它代表着進步。人們可以将更多的精力釋放出來,投入到更具創造性的工作中去。
前段時間,CodeFuse 發布了圖生代碼的功能,它可以通過在界面上簡單畫一個框,就能自動生成相應的代碼。
以往可能需要編寫數百行代碼的工作,現在隻需一次點擊和畫框操作就能實現。
而要從産品設計的角度來看,我認爲實現無縫接入和無感體驗是至關重要的。
這意味着産品應能平滑地融入現有的工作模式中,用戶在使用過程中幾乎不會意識到它的存在,從而極大地提升用戶體驗,并推動整個研發流程的創新和進步。
例如,我們内部每周有超過一萬人的智能代碼生成活躍用戶,很多人都沒意識到自己在使用 CodeFuse,在日常使用 IDE 插件、浏覽器的過程中,用戶已經不知不覺地使用了我們的産品。
我們的目标是服務于整個研發的全生命周期。如果能夠實現這一點,那将是一個革命性的成功。
現在 AI 寫代碼相當于 L2.5
目前整個代碼生成領域,可能處于一個類似于自動駕駛技術中的 L2.5 級别,許多公司都處于這一水平。
比如自動駕駛 L2.5 級别的功能,如車道線輔助、前方碰撞檢測等,這些都是作爲整體存在的一部分。在大模型領域,也看到了類似的補充功能,包括解釋、注釋、簡化優化和單元測試等。
我們接下來的目标是在某些特定場景下實現 L3 級别的完全自動化,這是有可能實現的。例如,在效能領域中的持續集成(CICD)場景,就有可能通過大模型的驅動來自動完成,包括觸發檢查、提交,甚至創建拉取請求(PR)等操作。
然而,要實現全場景、全鏈路的自動化,前端可能還需要一段時間才能發展起來,複雜的項目級的需求拆解特别是特定領域的拆解,也面臨較大挑戰。我認爲可能還需要 3-5 年的時間,在萬物摩爾定律的推動下,整個社區,包括我們自己的不斷努力和發展。
到那時候,我們可以期待從當前的狀态發展到一個新的階段——
例如,從 Copilot 到 co-worker,現在可能有 20% 到 30% 的編程工作可以被替代,未來這個比例可能會提高到 50%,甚至有些環節可以完全被自動化取代,釋放人去做更有創意的工作。
甚至成爲一個 full agent。雖然可能無法完全替代人類,但在未來 3-5 年内,達到 L3 甚至接近 L4 的水平是有可能的。
正如自動駕駛技術一樣,雖然已經提出很多年,許多人聲稱已經達到 L4 級别,但實際上許多場景仍然處于 L2.5 到 L3 級别。要實現全場景的自動化,人類仍然需要在其中扮演一個重要的角色。
這樣一來,軟件工程人員的定位其實也在發生變化。以前大家可能專注于前端或後端的開發工作。而現在,AI 全棧工程師的需求更大。
過去所謂的全棧工程師意味着前端、後端和數據都懂,但現在可能還需要理解算法。随着大模型發展,前端和後端的工作可能會逐漸由大模型輔助,即作爲協作者(Co-worker)來分擔部分功能,從而釋放出開發者的時間。這樣開發者就可以将更多時間投入到提升新的技能上,比如對産品的深入理解,對用戶體驗的關注,對算法創新等。
基于對整個領域進行了深入的探索,我發現要進一步去實現還有不少挑戰,主要有五個方面:
端到端代碼生成能力
基礎模型層面,目前主要是實現代碼補全的功能,但在實際應用中隻有大約 30% 問題可以通過這種方式解決,剩餘的 70% 則需要端到端代碼生成能力,需要跨文件、跨代碼庫,甚至跨代碼庫和文檔庫的理解和交互。
所謂的端到端,對于一個代碼庫而言,一個典型的例子,我們需要能夠直接調用庫中的 API,修複問題(issue),甚至能夠複用跨庫的中間件能力。
然而,僅憑基礎模型是無法實現這些的,我們還需要探索更多的能力。
Agent 推理能力
盡管最近 Devin 被曝出演示視頻存在造假,備受關注,但我認爲它還是代表了一種趨勢、一種技術流派——
如何将定制工具調用與大型模型相結合,實現整個工作流程的自動化。這個問題,尤其是擴展到全生命周期,實際上相當困難,尤其是面向雲後端的研發環境,工具種類繁多。
比如面向前端應用可能隻有天氣預報、查詢火車票、預定酒店等十幾個工具,但在雲後端,則可能會有數百個甚至上千個工具,每個工具都包含數十個參數。
除此之外,還有需求拆解、跨模态橫向交互、安全可信可靠的挑戰。
尤其代碼的安全可信可靠,像螞蟻這樣的企業級用戶,需要應對面向金融級别的高可用性和安全性的要求,也充滿了挑戰。
不過也正因爲在金融級垂直場景的深耕,包括資源配置和曆史經驗積累,螞蟻也構成了屬于自己的場景優勢。
首先,我們擁有涵蓋整個生命周期各個環節全方位的團隊,尤其在雙十一等大型促銷活動期間的高可用性方面經驗豐富,這有助于推進全生命周期的代碼大模型,這是我們與外部的主要區别之一。
其次,我們在特定領域,如金融領域,以及前端領域,都有一定經驗積累,尤其是在支付系統等對安全性要求極高的場景中。這些積累使我們在安全性、可靠性和可信度方面具有差異化優勢。
雖然挑戰不少、道阻且長,但我認爲,螞蟻将攜手開源社區一起努力,在萬物摩爾定律的牽引下,未來兩三年可以一定程度解決好這個問題。
One More Thing
最後,面對當下大模型發展,李建國博士忍不住感歎:
我以前做深度學習,那時候非常卷,可能 2019 年之前,我發現這個領域已經卷不動了,跳出來做 NLP,發現這個領域也還是更加的卷。
但不得不承認,大模型再次點燃了 NLP、視覺處理、代碼生成等各個領域的熱度,煥發新的活力。
對于接下來的發展,李建國點名最看好具身智能的發展,這将是未來 5 到 10 年的研究熱點。
它将成爲數字世界與物理世界之間的橋梁,能夠感知并執行操作。這可能會帶來類似 Matrix(黑客帝國)這樣的場景的巨大進步,甚至可能像電影《終結者》中展示的那樣,成爲真正的巨大飛躍。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~