中科院自動化所「全模态」大模型亮相，圖文音視頻3D傳感器信号都能理解

大模型搞多模态，做文字、圖像、音視頻這幾樣就夠了？

中科院自動化所說不：

我們還加入了 3D 點雲和更多傳感器信号。

國産大模型新成員，千億參數全模态大模型「紫東太初 2.0」正式亮相。

不光能認知和理解多模态數據，還能在多輪對話中進一步與用戶交互。

AI 離理解現實世界中複雜多樣的信息，又近了一步。

而且不僅如此，多個數據，甚至不同模态數據一起出現也難不倒它。

對于車内視角和車外視角的兩個視頻，可以找出共同特點。

圖書館照片和汽車鳴笛音頻一起出現，也能分析出奇怪之處并給出解釋。

認知、推理之外，紫東太初 2.0 也可以完成多模态生成任務。

圖像、音頻、視頻一起出現，就能結合起來講一個完整的故事。

又或者提取多模态數據中的特征并進行模仿。

AI 如何理解全模态？

爲什麽要做多模态甚至全模态？

團隊介紹到，現實世界中本來就充滿了複雜多樣的異構信息，人類自己也是綜合多模态信息去理解這個世界的。

從模态的種類來說，文本隻是其中非常小的一部分。

但從數據收集的角度來說，文本卻又是數據最豐富的。

AI 最擅長的就是從海量數據中提取出隐藏的規律，所以語言大模型進展最快也就不奇怪了。

其他模态數據本來就少，尤其是做多模态需要的配對數據就更稀缺。

拿大家已經很熟悉的文生圖 AI 繪畫來說，訓練階段需要大量的圖 - 文配對數據，生産成本已經很高。

要想得到充足的文字、圖像、音頻、視頻、3D、信号等模态之間的配對數據，那就想都别想了。

學術界爲這個問題也想出一種解決辦法：

以其中一種模态爲核心，作爲橋梁連接其他模态。

在科研探索中又分化出兩條路線。

國外 Meta 的 ImageBind 選擇了以圖像爲核心，

國内的紫東太初 2.0 團隊則是 " 以語言爲核心 " 路線的代表。

團隊對此的考量是，圖像能表達的語義還是不夠豐富，比如像抽象的概念最後還是得靠語言。

以語言爲核心連接起全模态數據，也爲 AI 大模型打開很多新的應用空間，在發布會現場也做了展示。‍‍

全模态大模型用在哪？

外科手術中除了需要用到視覺，觸覺傳感器數據也同樣重要。

兩種數據跨模态融合，就解決了機器人輔助手術中的國際性難題。

同樣是醫學領域，醫學影像、患者照片、病例等結合起來，還可以輔助罕見病的鑒别診斷。

交通領域，多模态協同推理也能更精準研判違規行爲。

對于網絡謠言常見的視頻畫面與音頻播報内容不一緻的手段，多模态大模型也能加以識别。

企業和組織想要借助這些全模态能力開發應用，也可以直接到紫東太初大模型開放服務平台。

簡單來說，就是 AI 應用開發全生命周期的每一個環節所對應的服務都安排好了。

開放服務平台内置 MindSpore、Pytorch 等主流開源深度學習框架，提供大模型下遊微調、自動學習、可視化拖拽建模、交互式代碼開發等不同建模方式。主打全方位國産可控、快速切入客戶場景，以及簡單易用的人工智能建模和應用。

全模态大模型怎麽煉成的？

說起來，全模态大模型并不是憑空出現。

2020 年 1 月，中科院自動化所就發起集團式攻關，聚焦多模态大模型路線

2021 年 9 月，發布首個千億參數三模态大模型紫東太初 1.0，做到多模态統一表示，相互生成、推理。

在應用實踐過程中又發現數字時代萬物互聯的新需求，融入 3D、視頻、傳感信号等更多模态數據，進一步突破感知、認知和決策的交互屏障。

但全模态也不是終點。

在發布會現場，中科院自動化研究所所長徐波表示，站在更宏觀的視角，全模态大模型屬于信息智能的突破。

未來要通向 AGI，勢必還要與另兩大路線 " 類腦智能 " 和 " 博弈智能 " 再次融合。