大模型搞多模态,做文字、圖像、音視頻這幾樣就夠了?
中科院自動化所說不:
我們還加入了 3D 點雲和更多傳感器信号。
國産大模型新成員,千億參數全模态大模型「紫東太初 2.0」正式亮相。
不光能認知和理解多模态數據,還能在多輪對話中進一步與用戶交互。
AI 離理解現實世界中複雜多樣的信息,又近了一步。
而且不僅如此,多個數據,甚至不同模态數據一起出現也難不倒它。
對于車内視角和車外視角的兩個視頻,可以找出共同特點。
圖書館照片和汽車鳴笛音頻一起出現,也能分析出奇怪之處并給出解釋。
認知、推理之外,紫東太初 2.0 也可以完成多模态生成任務。
圖像、音頻、視頻一起出現,就能結合起來講一個完整的故事。
又或者提取多模态數據中的特征并進行模仿。
AI 如何理解全模态?
爲什麽要做多模态甚至全模态?
團隊介紹到,現實世界中本來就充滿了複雜多樣的異構信息,人類自己也是綜合多模态信息去理解這個世界的。
從模态的種類來說,文本隻是其中非常小的一部分。
但從數據收集的角度來說,文本卻又是數據最豐富的。
AI 最擅長的就是從海量數據中提取出隐藏的規律,所以語言大模型進展最快也就不奇怪了。
其他模态數據本來就少,尤其是做多模态需要的配對數據就更稀缺。
拿大家已經很熟悉的文生圖 AI 繪畫來說,訓練階段需要大量的圖 - 文配對數據,生産成本已經很高。
要想得到充足的文字、圖像、音頻、視頻、3D、信号等模态之間的配對數據,那就想都别想了。
學術界爲這個問題也想出一種解決辦法:
以其中一種模态爲核心,作爲橋梁連接其他模态。
在科研探索中又分化出兩條路線。
國外 Meta 的 ImageBind 選擇了以圖像爲核心,
國内的紫東太初 2.0 團隊則是 " 以語言爲核心 " 路線的代表。
團隊對此的考量是,圖像能表達的語義還是不夠豐富,比如像抽象的概念最後還是得靠語言。
以語言爲核心連接起全模态數據,也爲 AI 大模型打開很多新的應用空間,在發布會現場也做了展示。
全模态大模型用在哪?
外科手術中除了需要用到視覺,觸覺傳感器數據也同樣重要。
兩種數據跨模态融合,就解決了機器人輔助手術中的國際性難題。
同樣是醫學領域,醫學影像、患者照片、病例等結合起來,還可以輔助罕見病的鑒别診斷。
交通領域,多模态協同推理也能更精準研判違規行爲。
對于網絡謠言常見的視頻畫面與音頻播報内容不一緻的手段,多模态大模型也能加以識别。
企業和組織想要借助這些全模态能力開發應用,也可以直接到紫東太初大模型開放服務平台。
簡單來說,就是 AI 應用開發全生命周期的每一個環節所對應的服務都安排好了。
開放服務平台内置 MindSpore、Pytorch 等主流開源深度學習框架,提供大模型下遊微調、自動學習、可視化拖拽建模、交互式代碼開發等不同建模方式。主打全方位國産可控、快速切入客戶場景,以及簡單易用的人工智能建模和應用。
全模态大模型怎麽煉成的?
說起來,全模态大模型并不是憑空出現。
2020 年 1 月,中科院自動化所就發起集團式攻關,聚焦多模态大模型路線
2021 年 9 月,發布首個千億參數三模态大模型紫東太初 1.0, 做到多模态統一表示,相互生成、推理。
在應用實踐過程中又發現數字時代萬物互聯的新需求,融入 3D、視頻、傳感信号等更多模态數據,進一步突破感知、認知和決策的交互屏障。
但全模态也不是終點。
在發布會現場,中科院自動化研究所所長徐波表示,站在更宏觀的視角,全模态大模型屬于信息智能的突破。
未來要通向 AGI,勢必還要與另兩大路線 " 類腦智能 " 和 " 博弈智能 " 再次融合。