" 據我了解,國内多個一線大模型機構,都已經突破了兆級的長文本能力。"
以上,是 "2024 全球開發者先鋒大會 " 大模型前沿論壇會間隙,上海人工智能實驗室領軍科學家林達華與量子位的交談剪影。
林達華,深度學習與計算機專家,香港中文大學教授,他是商湯聯合創始人,也是商湯創始人湯曉鷗的學生,是國際上最具影響力的視覺算法開源項目 OpenMMLab 的主導發起人。在大模型時代,他帶領了書生 · 浦語 InternLM 開源大模型體系以及 OpenCompass 司南大模型評測體系的研發工作。
林達華預估,第一季度左右,各家都會對大模型上下文窗口兆級能力 " 亮劍 "。
同時,他表達了與月之暗面同樣的态度,即大海撈針其實沒有那麽難。
難的是海裏不止一根針,應有無數的碎片化信息藏在各個地方,(大模型)把所有東西串接一起,做比較深層次的結論。
就像讀福爾摩斯偵探小說,讀完後綜合判斷兇手是誰——這就不是一個簡單的檢索問題。
近期,各家大模型于長文本賽道上卷生卷死,但是否應把它作爲最主要的方向去打磨,大家有不同的判斷。
林達華點出,應該要評估衡量超長文本能力的計算代價," 無損長上下文窗口,每一次響應都是很昂貴的過程,對應用來說,這個性價比是不是最理想的?我覺得值得探讨。"
長文本相關問題隻是林達華表達自己思考和見解的一小個片段。
在這場大模型前沿論壇上,他以業界躬身入局者的身份,回望過去 " 群模亂舞 " 的一年,總結出大模型賽道的四點現狀:
OpenAI 引領技術潮流,Google 緊緊追趕,Claude 異軍突起;
上下文、推理能力、更高效的模型架構是技術探索的重點方向;
輕量級模型嶄露頭角;
開源模型快速發展,開放生态已成氣候。
林達華還表示,大模型時代,技術演進有兩股主要的驅動力量:
一是對 AGI 的追求,對 Scaling Law 的信仰;
二是對大模型帶來新一次産業變革的憧憬。
除此之外,更詳細的回望和前瞻性觀點,在林達華口中一一道來。
模型架構:從追求參數到追求更高效的 Scale
Transformer 架構對計算資源的消耗巨大。
前幾日的黃仁勳與 Transformer 七子路邊對話中,Transformer 作者 Aidan Gomez 語氣堅定," 世界需要比 Transformer 更好的東西(the world needs something better than Transformers)"。
業界已經開始從追求參數,過渡轉換爲追求更高效的規模。
其中,MoE值得關注,業界同時在探索 Mamba 模型等,以低複雜度的注意力架構更高效地處理上下文。
訓練數據:從追求數量到尋求規模化構造高質量數據的路徑
訓練數據包括三要素:
規模、質量、多樣性。
在規模方面,早在 ChatGPT 之前,DeepMind 等研究報告已指出訓練數據要和模型參數同步增長。
而訓練數據的質量對模型水平影響很大,低質量數據對模型可能産生破壞性影響。增強數據的知識密度,能帶來更高的訓練效率。
此外,好的數據集是非常多樣化的,均衡分布在充分大的語義空間中。
互聯網語料數據的分布極不均勻,存在大量低水平重複的語言模式,可能帶來模型能力的塌縮,"10% 的帶有重複模式的數據注入到訓練集裏,有可能會使得模型降級到原來 1/2 的體量。"
合理的 resampling(重采樣)策略能大幅度降低其負面影響。因此,業界也在從追求訓練數據數量,過渡向到尋求規模化構建高質量數據。
多模态:多模态融合将成爲重要趨勢,技術探索仍在路上
多模态融合将成爲重要技術趨勢,但技術探索仍在路上。
相比語言,多模态模型的訓練多了一個重要維度,即圖像和視頻的分辨率對多模态模型最終的性能表現有重要影響。
如果使用非常高的分辨率進行多模态的訓練和推理,模型能夠得到巨大提升,但高分辨率會帶來高計算成本。
" 如何在高分辨率和合理計算成本之間取得最佳平衡,這爲架構研究帶來了很大的創新空間。"
智能體:大模型應用的重要形态,但需要核心基礎能力的支撐
要讓大模型真正進入到應用的場景和生産的場景的時候,它需要跟系統、跟場景、跟裏面所有的事情互動。因此,需要給大模型裝上手腳,然後就能不斷地發出指令做出反饋,這就是一個智能體,這就是場景應用價值的系統。
智能體并不是一個簡單的流程化過程。
它需要建立在一個非常堅實的基礎模型上,具有很強的指令跟随能力、理解能力、反思能力和執行能力。如果這些能力都不具備,其實串接在一起仍然不然獲得你所理想中的那種智能體的能力。
這裏面是實驗室把智能體具像化,智能體不一定是機器人,它可以是各種軟件系統。
計算環境:雲側還在指數式成長,端側即将迎來黃金增長期
芯片進入到後摩爾定律時代,未來算力會變成體量的拓展,越來越多的芯片連接在一起,建成越來越大的計算中心,支撐對通用人工智能的追求。
最終瓶頸不再是芯片,而是能源。
現在,小規格的大語言模型已具備較強性能水平和實用可能性,優秀的模型越做越小,可以進入到手機直接運行。
林達華表示,随着端側算力快速增長,端側即将迎來黃金增長期,雲端協同将成爲未來重要趨勢,由雲側計算建立天花闆,端側計算将支撐用戶使用大規模放量。
國内外差距:和 GPT-4 真正差距是推理能力
國内前列的模型在主客觀表現上都超過了 GPT-3.5。
但同時需注意,國内大模型與 GPT-4 的真正差距在于推理能力。
林達華稱,特别是随着推理難度的提升,GPT-4 和其他模型,重量級模型和輕量級模型逐漸拉開差距。相比常識推理、演繹推理,歸納推理是差距最大的類型。
在對談中,林達華還表達了對國内大模型落地的看法。
觀國内當下的最大的優勢,是應用場景非常非常多。
如果有套生态,能夠讓大家用大模型去探索在哪些地方能用,哪些地方不能用,在應用上的探索速度和體量可能更快。
不過,他同時表示:
不能因爲我們在應用落地上的繁花似錦,就掩蓋我們去思考另一個問題——歸于最終,還是要提升創新能力和原創水平。
— 聯系作者 —