作者|黃楠
編輯|袁斯來
在大模型技術浪潮中,Scaling Law 被業界遵循爲第一性原理,直至科技媒體 The Information 在獨家報道中指出,OpenAI 下一代旗艦模型 Orion 的訓練效果或遠不及預期:與 GPT-4 相比,性能提升也許微乎其微。這引發了從業者對大模型發展路徑的深度思考:Scaling Law 是否是唯一方向?
長期以來,基于 Scaling Law 的大模型落地存在重大瓶頸,廠商爲提升模型能力,持續擴大預訓練數據、訓練算力并擴大模型參數規模,不僅成本高;同時,算法同質化也會導緻數據規模和訓練算力的同質化,最終造成輸出能力的趨同。另一側,大模型能否有效學習客戶數據并成爲領域專家,也是一大挑戰。
當前,單一依賴 Scaling Law 進行集中式暴力訓練已顯露諸多弊端。大模型的 " 智能 " 并非僅受參數規模決定,大模型如何在實際場景中發揮作用,才是企業客戶關注的焦點。要打破模型到應用落地之間的高牆,硬氪近日接觸到的「傳神物聯網」提出,集中式預訓練模式值得重新審視,實時學習和訓練模式更具探索價值。
「傳神物聯網」董事長何恩培指出,大模型在相同參數下,模型算法和架構更先進,所需訓練算力越小,訓練數據也越少,不僅不影響模型的能力,甚至在部分指标上可超越常規架構大參數的模型。" 相比之下,這種采用高效算法和架構的小參數模型更适合商業落地,而且也可以滿足通用場景的需求。"
傳神創始人何恩培就《基于雙網絡架構數推分離大模型的探索與實踐》發表主題演講
基于這一理念,「傳神物聯網」在其發布的任度大模型,采用了全技術棧自主研發、未使用任何開源代碼和框架的雙網絡架構,将推理網絡與數據學習網絡分離。
其中,客戶數據學習網絡如同人類左腦,專注于數據的動态管理與叠代訓練,持續爲模型注入知識養分;推理網絡則如同人類右腦,作爲經大量數據預訓練的基礎網絡,具備不錯的推理和泛化能力。
這種雙網絡協同工作的設計,可有效降低訓練的算力成本,避免微調導緻的基座模型能力退化和泛化能力減弱等問題。同時,數據學習網絡還可以學習企業的曆史數據,并實時學習業務運營産生的新數據,兩個網絡聯合工作,輸出客戶所需成果。
測試顯示,任度大模型基于數推分離技術,突破了常規大模型技術架構限制,上下文輸入長度不受限,可将億量級用戶數據壓縮至神經網絡中,并進行深度知識理解,極爲接近 " 實時 " 數據學習模式。即使是極少量數據更新,也能快速上傳并完成數據壓縮,叠代爲企業自己的定制化大模型。
任度大模型共有 2.1B 和 9B 兩個版本,在降低算力成本方面,其訓練與推理時的算力成本分别爲同等大模型的 10%-20% 以及 25%-50%。
硬氪了解到,目前「傳神物聯網」已将雙網絡架構的數推分離大模型應用至任度 " 雙腦 " 大模型一體機,即将投放市場。該一體機基于數推分離的雙腦模式,可以解決客戶數據離場訓練、向量效果有限及人才投入高等痛點,實現更新數據的本地實時學習,并快速轉化爲 " 企業知識專家 "。
針對客戶數據安全和私有化問題,任度 " 雙腦 " 大模型一體機可采用本地部署及訓練,無需上傳至公有雲,保障了數據隐私安全。同時,其根原創和高性參比的特性,可在一定程度上解決客戶應用大模型過程中的高硬件投入、高能耗及技術安全和軟件漏洞等痛點。