岩芯數智 CEO 劉凡平(來源:钛媒體 App 編輯)
钛媒體 App 獲悉,1 月 24 日下午,國内 AIGC 企業上海岩芯數智人工智能科技有限公司(岩芯數智,RockAI)在上海發布了國内首個自研的非 Transformer Attention 機制的低算力通用自然語言大模型—— Yan 模型,記憶能力提升 3 倍、速度提升 7 倍,推理吞吐量提升 5 倍。
這是國内首個發布的與 ChatGPT 不同機制的通用大模型,參數規模達百億。該公司稱,這是用百億級參數達成千億參數大模型的性能效果。
岩芯數智 CEO 劉凡平表示," 在全球範圍内,一直以來都有不少優秀的研究者試圖從根本上解決對 Transformer 架構的過度依賴,尋求更優的辦法替代 Transformer。曆經超過幾百次的設計、修改、優化、對比、重來後,岩芯數智自主研發出了不再依賴 Transformer 的全新架構——‘ Yan 架構’,同時,基于 Yan 架構的低算力通用大模型應運而生。我們期望 Yan 架構可作爲 AI 領域的基礎設施,并以此建立 AI 領域的開發者生态,最終讓任何人在任何設備上都能使用通用大模型,獲取更加經濟、便捷、安全的 AI 服務。"
據悉,成立于 2023 年 6 月的岩芯數智,是 A 股上市公司岩山科技(002195.SZ)旗下宣布擁抱 AIGC 新浪潮、向數智化轉型并更名後成立的新公司,專注于打造爲百業賦能的一站式 AIGC 數智化服務平台。而岩芯數智的團隊則于 2022 年在内部組建。
Yan 模型是岩芯數智最新自研的百億級參數模型,主要針對 To B 行業領域,目前公司已提供多種場景的解決方案。例如 RockAI 模型大腦可以讓企業擁有私域的知識大模型,實現跨文檔知識整合、實時信息記錄,可用于銀行金融、政務辦公等。
Yan 模型的最大特點,是采用非 Transformer Attention(注意力)機制。據悉,包括火熱的 ChatGPT、BERT 等大模型,普遍采用 Transformer 基礎架構,而 Attention 機制區别于 CNN 技術,是通過參數和大數據利用算力訓練形成的技術體系,則根據應用場景的不同而輸出不同信息,通俗來說是把注意力集中放在重要的點上而忽略其他不重要的因素。Attention 主要分爲空間注意力和時間注意力,前者用于圖像處理,後者用于自然語言處理。
劉凡平此前對钛媒體 App 表示,他們在對 Transformer 模型不斷的調研和改進過程中,意識到了重新設計大模型的必要性:一方面,在 Attention 機制下,現有架構的調整幾乎已經達到瓶頸;另一方面,岩芯數智更期望降低企業對大模型的使用門檻,讓大模型在更少的數據、更低的算力下具備更強的性能,以應用于更廣泛的業務。因此,岩芯數智希望研發非 Transformer 架構模型。
(詳見钛媒體 App 前文:《獨家對話岩芯數智 CEO 劉凡平:" 百模大戰 " 下,AIGC 新玩家如何殺出重圍?》)
據介紹,相比 Transformer 架構的模型,Yan 模型算力消耗縮減 50%、推理效率提升 7 倍、準确率提高 3 倍、推理吞吐量提升 5 倍。針對長序列環境,在單張 4090 24G 顯卡上,當模型輸出 token 的長度超出 2600 時,Yan 模型顯存使用始終穩定在 14G 左右,理論上能夠實現無限長度的推理,而 Transformer 模型會出現顯存不足。
此外,Yan 模型也同時具備私密化、經濟化、精準化和實時性、專業性、通用性等六個商業化落地能力。而且,該團隊首次研發了一種合理的關聯特征函數和記憶算子,可降低模型内部結構的複雜度,發掘決策過程的透明度和可解釋性,從而助力全新架構下的 Yan 模型在醫療、金融、法律等領域的廣泛運用。
劉凡平透露,接下來岩芯數智将打造全模态實時人機交互系統,全面打通感知、認知、決策與行動,構建通用人工智能(AGI)的智能循環體(類似于 Agents),爲通用機器人等具身智能方向的研究提供大模型基礎底座的 " 更多選擇 "。他強調,通過提供基于 Yan 架構的專業生産力工具,實現端側訓練、訓推一體,推動企業數智化發展。
岩芯數智董事長陳代千表示,随着 Yan 模型的進一步落地和應用,未來公司将爲機器人、嵌入式設備、物聯網設備等領域提供所需的智能化能力,爲企業和用戶創造更多的價值。
(本文首發钛媒體 App,作者|林志佳)