大模型的開源與閉源之争至今仍是熱議話題,畢竟讨論核心觸及技術發展路徑、産業生态構建,以及對未來創新動力的影響。
螞蟻集團開源技術委員會副主席王旭立下斷言:
具備數據生成式能力的模型正在取代數據庫在傳統應用的核心的位置。
王旭目前負責螞蟻開源技術增長和容器基礎設施。
在 MEET 大會現場,他以開源爲題,以數據爲證,給我們揭示了不同視角下大模型技術架構、基礎設施以及創新應用到底該往何處去。
他進一步表示,在 AI 時代,新一代 LAMP 正在形成,并且模型相比于數據庫更加具有可遷移性,相應的數據傳輸鏈路、數據安全性需求也在崛起。
MEET 2025 智能未來大會是由量子位主辦的行業峰會,20 餘位産業代表與會讨論。線下參會觀衆 1000+,線上直播觀衆 320 萬 +,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
在過去一年半,尤其是近一年裏,AI 技術滲透進各種各樣的應用。雖然除了直接和模型交互來生成圖文之外,并沒有太多的 " 新業務 " 出現,然而,單單是直接的數量提升和加速就已經可以引發非常顯著的變革了。
AI Agent 框架項目數量在 Llama2 開源模型發布之後爆發式增長,但沒有哪個項目如今已經 " 一覽衆山小 "。
我們程序員這一群體從害怕 AI,理解 AI 到擁抱 AI;而我們日常的生産力應用都在逐漸變得智能化,從 " 錄入工具 " 轉向 " 有靈魂的協作夥伴 "
GenAI 時代,基礎設施變了,但是也沒有完全變。
具備數據生成式能力的模型正在取代數據庫在傳統應用的核心的位置。在 AI 時代,新一代 LAMP 正在形成,并且模型相比于數據庫更加具有可遷移性,相應的數據傳輸鏈路、數據安全性需求也在崛起。
(在不改變原意的基礎上,量子位做了如下梳理)
從錄入工具到 " 有靈魂的協作夥伴 "
謝謝主持人,感謝大家參會。首先簡單自我介紹一下,我叫王旭,負責螞蟻集團的開源工作,同時負責了一個容器基礎設施團隊。五年半以前,我一直在做容器領域的開源創業,現在在螞蟻,也是基礎設施域的架構師。
分享這些經曆是爲了向大家說明,與剛才發言的幾位嘉賓不同,首先我的背景是做基礎設施和系統的,不是做智能的,另外一方面我是做工程的,不是做研究的。盡管我也擁有博士學位,但研究領域是電路專業。今天告訴大家這些背景,是希望可以給大家帶來一個不同角度的思考。
螞蟻集團的開源技術增長團隊是隸屬于架構部的,其中一個工作目标就是利用對開源社區的洞察來爲螞蟻的架構和技術的演進提供指引。
對于規模較大的公司而言通常會有内部延續性技術演進、也需要對外部技術新方向做探索。在這個過程中,我們會從社區中獲取更中立、多方參與的數據信息,通過這些信息形成對整個技術平台、架構和技術演進的全面看法。
這次我們帶來了一些社區數據,這些數據未必是全面的,也未必完全公正客觀,但可以反應一個沒有某一公司立場的外部的視角,我把這些數據帶到這裏來跟大家做一個簡單的分享,希望可以提供一些有趣的洞察。
在過去一年半,尤其是近一年裏,AI 技術滲透進各種各樣的應用。
雖然除了直接和模型交互來生成圖文之外,并沒有太多的 " 新業務 " 出現,然而,單單是直接的數量提升和加速就已經可以引發非常顯著的變革了——
以螞蟻這樣一家與金融相關的科技公司爲例,有些業務涉及到财報研讀,傳統的分析非常耗費有經驗的人力。有了大模型之後,可以及時并全量地高效分析财報。雖然目前的大模型的工作還沒有人做得精緻且有靈魂,但是單單 " 量大 "、提高效率就是過去無法企及的了。
構建這類應用需要一些基礎設施,螞蟻也在前一段開源了支撐這一工作的多智能體框架agentUniverse。
當然,這樣的智能體框架遠不止一個。
我們調取了近兩年的整體開源社區的部分數據,進行聚類之後提取出來一些用于構建 AI 應用的框架、智能體框架以及其他構建 AI 快速應用開發的工具。
在 ChatGPT 之後,尤其是 Llama2 開源大模型發布之後,各種開源 AI 應用框架、智能體框架層出不窮,數量增長非常迅猛,配合快速增加的應用場景,這些框架廣泛應用在各種專業領域。
上圖的曲線顯示了在過去兩年的時間裏項目的熱門程度或者活躍程度。
其數據依據并不是簡單地基于 GitHub Star,在這個程序員的社交網絡中也有很多其他方式的互動方式可以用作評估因素,比如項目的參與人數,參與者來自的公司與組織分布,不同組織的參與者之間的互動等等都是我們考察的因素。
目前開源社區有很多 AI Agent 框架項目,他們的數量大概在 Llama2 開源模型發布之後爆發式增長,沒有哪個項目如今已經 " 一覽衆山小 "。
我們可以從上圖看出各個項目有明顯變化的趨勢,有的高開低走,有的不斷攀升。雖然評價一個項目有很多因素,這個趨勢并不完全代表項目運營狀況,但是可以用于參考社區發展情況。
以上大部分項目都使用 Python 來開發,并非傳統大廠 Java 應用。很多用戶用 Python,甚至低代碼的方式填一下表單就可以"30 分鍾開發你自己的 AI 應用 ",低代碼交互式生成方式的熱度遙遙領先。AI 框架正在不斷貼近應用場景,給我們帶來很多變化。
如果剛才說的是以 AI 能力爲中心設計的所謂 " 原生 AI" 應用,那麽傳統應用領域的應用和開發工具也在越來越多受到 AI 的影響。
以程序員自己爲例,我們程序員是一個挺有意思的群體,一邊每天在擔心自己可能被 AI 取代,一邊又在開發 AI 取代自己。當 AI 開始有能力提供生産力的時候,他們又立刻開始用 AI 改造自己的工具。
所謂" 害怕 AI,理解 AI,擁抱 AI。"
上圖是隐藏 VSCode 後過去兩年内的 IDE 開發工具的社區活躍度(如果 VSCode 在的話是在屏幕上面的位置)。
藍色的曲線是最近蹿紅最快的開發工具項目 cursor,現在這個領域裏面帶上 AI 相關标簽協作式開發已經非常火爆了。
這反映一個趨勢,各種我們日常的生産力應用都在逐漸變得智能化——從 " 錄入工具 " 轉向 " 有靈魂的協作夥伴 ",一個人也可以和 AI 來協作。
對于一些有數據安全顧慮的公司,肯定不能随便使用外部大模型,比如螞蟻内部,我們也有自己的 IDE 框架 CodeFuse 來通過 AI 方式輔助大家編程。
GenAI 時代基礎設施變了,但沒完全變
那麽在這樣的背景下,基礎設施到底是否發生了變化呢?
變了,但是也沒有完全變。
在 GenAI 時代背景下,算力規模迅速增大,比如說馬斯克的十萬卡的集群,這時的基礎設施團隊爲 AI 不論訓練還是推理準備的資源,大家首先想到的是以 GPU 和高性能網絡爲核心的智算硬件。
那麽從硬件的角度來說确實變化巨大,然而我們看到最底層軟件基礎設施沒有太大變化,隻是在技術方向上做了不同的取舍。
即使是訓練,也是在同一套分布式系統的框架之内,利用分層次的各種手段,對性能、穩定、成本和安全做不同的取舍。
" 不同的取舍 " 所帶來的基礎設施的最大變化,是來自于應用範式本身的變化而非硬件的不同。
從支持應用需求的方面,很多新的元素在爲 AI 打造基礎設施過程中誕生了。架構上可能看起來變化不大,但是生成式 AI 誕生的需求變化産生了更多、更深遠的影響。
當傳統的應用 " 非原生 AI 應用 " 都在向 AI 方向演進,開始基于模型構建,這樣演進帶來什麽變化?
新一代 LAMP 正在形成
我們可以用觀察到的數據得到一些簡單結論——具備數據生成式能力的模型正在取代數據庫在傳統應用的核心的位置。
剛剛徐立老師說下斷言經常被打臉,但是作爲一個架構師總是要敢于下斷言,我先下斷言,以後再說打臉的事——
在 AI 時代,新一代 LAMP 正在形成,并且模型相比于數據庫更加具有可遷移性,相應的數據傳輸鏈路、數據安全性需求也在崛起。
所謂 LAMP 是在 2000 年左右形成的 Web2.0 應用開發基本的範式,傳統數據庫是整個架構的核心。對大型公司來說,數據庫承擔非常大的海量數據存儲,基礎設施是圍繞數據庫來打造的。
我們觀察到 AI 時代的不同——現在基礎設施開始圍繞模型展開了。從模型的生産到服務,如何保證模型尺寸不大的同時又能進行大規模傳輸,對基礎設施的每一個環節都在産生深遠的影響。
在新範式的影響下,做基礎設施的人或者相關參與者應該把精力投到哪裏去,應該開發什麽,是去寫新的框架還是改進基礎設施,抑或是準備數據等等,這是我們希望大家可以從裏面獲得的有價值的信息。
這個時代對我們做基礎設施或者軟件行業的人來說,有沒有變化的地方,也有變化很大的地方。這些變化來自于整個時代應用變化的需求,可以幫助我們調整軟件架構和向前演進我們的基礎設施。
以上就是我今天的分享,我們希望從開源角度給大家帶來一些啓示,謝謝大家!
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>