文 | 王方玉
編輯 | 蘇建勳
目前絕大多數生成式 AI 産品的底層技術都源于 2017 年谷歌提出的 Transformer 模型架構,而國内一家 AI 創業公司——彩雲科技卻獨辟蹊徑,開發出了全新的模型架構 DCFormer,并基于此推出新産品。
11 月 13 日,彩雲科技在北京總部發布了首款基于 DCFormer 架構開發的通用大模型雲錦天章。
據 CEO 袁行遠介紹,雲錦天章可以實現在虛構世界觀的基礎上,賦予小說人物編程、數學等基礎能力,可以高速針對大量文字進行擴寫、縮寫,針對文章風格進行大容量更換,同時兼具其他模型的問答、數學、編程等基礎能力。
除了擅長的應用場景不同,雲錦天章與常規大模型最大的差異還在于底層模型。據介紹,通過改進注意力矩陣,在相同訓練數據下,DCFormer 架構最高可以将算力智能轉化率提升至 Transformer 的 1.7 到 2 倍。
此外,DCFormer 是在 Transformer 的基礎上進行改進,能夠和現有的模型疊加,而不是互斥,因此所有基于 Transformer 架構的大模型都能在 DCFormer 的基礎上降低成本。
彩雲科技關于 DCFormer 架構成果的相關論文已于今年 5 月在第 41 屆國際機器學習大會 ICML 2024 正式發表,該會議是國際機器學習領域的三大頂會之一。此外,DC Former 的模型代碼、權重和訓練數據集,也已經在 Github 全部開源。
爲何選擇另辟蹊徑采取 DCFormer 架構?袁行遠告訴 36 氪,AI 在運行過程中對能源的巨大需求已成爲行業共識,改善模型底層架構以提高效率是應對這一挑戰的最佳策略。模型效率的提升,也可以有效地降低人工智能升級叠代的成本,加速 AI 時代的到來。
雖然 DC Former 架構可以壓縮大模型訓練推理的成本,但彩雲科技在商業化探索方面相對謹慎,關注投入産出比。
目前彩雲科技旗下有彩雲天氣、彩雲小夢、彩雲小譯三款面向 C 端用戶的 AI 産品,在全球市場獲得了超過 1000 萬美元的 ARR(年度經常性收入),是國内爲數不多能夠實現盈利的人工智能公司。其最近一輪融資是由快手前 CEO 宿華個人投資的 B2 輪,投前估值達到 1.2 億美元。
袁行遠告訴 36 氪,彩雲科技對 DCFormer 架構的研究及應用開發,主要服務于自身業務。目前,彩雲小夢基于 V3.5 模型,在保持邏輯通順與描寫細緻的前提下單次可以創作幾百字到一千字的内容,未來有望突破到 2-5 千字的創作,實現更強的智能水平和更高的用戶活躍度目标。