哭死啊,全球狂煉大模型,一互聯網的數據不夠用,根本不夠用。
訓練模型搞得跟《饑餓遊戲》似的,全球 AI 研究者,都在苦惱怎麽才能喂飽這群數據大胃王。
尤其在多模态任務中,這一問題尤爲突出。
一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國内把 " 模型生成數據自己喂自己 " 變成了現實。
而且還是理解側和生成側雙管齊下,兩側都能生成高質量、多模态的新數據,對模型本身進行數據反哺。
模型是啥?
中關村論壇上剛剛露面的多模态大模型 Awaker 1.0。
團隊是誰?
智子引擎。由人大高瓴人工智能學院博士生高一钊創立,高瓴人工智能學院盧志武教授擔任顧問。公司成立時還是 2021 年,就早早打入多模态這條 " 無人區 " 賽道。
MOE 架構,解決多模态多任務訓練沖突問題
這不是智子引擎第一次發布模型。
去年 3 月 8 日,潛心研發兩年的團隊對外發布了自研的第一個多模态模型,百億級别參數的 ChatImg 序列模型,并基于此推出世界首個公開評測多模态對話應用 ChatImg(元乘象)。
後來,ChatImg 不斷叠代,新模型 Awaker 的研發也在并行推進。後者還繼承了前代模型的基礎能力。
相較于前代的 ChatImg 序列模型,Awaker 1.0采用了 MoE 模型架構。
要說原因嘛,是想要解決解決多模态多任務訓練存在嚴重沖突的問題。
采用 MoE 模型架構,可以更好地學習多模态通用能力以及各個任務所需的獨特能力,從而讓整個 Awaker 1.0 的能力在多個任務上有進一步提升。
數據勝千言:
鑒于主流多模态評測榜單存在評測數據洩露問題,智子團隊從嚴構建了自有評測集,大部分測試圖片來自個人手機相冊。
表格顯示,團隊讓 Awaker 1.0 和國内外最先進的 3 個多模态大模型進行了評測。
多提一嘴,由于 GPT-4V 和 Intern-VL 并不直接支持檢測任務,它們的檢測結果是通過要求模型使用語言描述物體方位得到的。
可以看到,在視覺問答和業務應用任務上,Awaker 1.0 的基座模型超過了 GPT-4V、Qwen-VL-Max 和 Intern-VL。
在描述、推理和檢測任務上,Awaker 1.0 的基座模型達到了次好效果。
最後來看平均分,Awaker 1.0 處于幾者中的最高值。
因此,上述結果也印證了多任務多模态模型采用 MoE 架構的有效性。
數據集評測結果有了,真實效果還需進一步上手體驗。
這裏主要問了它和對比大模型一些關于中文 OCR(圖片文字識别)和計數問題、詳細描述任務等問題。
這個主要考計數:
Awaker 1.0 能正确地給出答案,而其它三個模型均回答錯誤。
這個主要考中文 OCR:
正确回答的選手是 Qwen-VL-Max 和 Awaker 1.0。
最後這題考圖片内容理解。
GPT-4V 和 Awaker 1.0 不但能夠詳細地描述圖片的内容,而且能夠準确地識别出圖片中的細節,如圖中展示的可口可樂。
不得不提一嘴的是,Awaker 1.0 繼承了一些智子團隊此前廣爲關注的研究成果。
說的就是你—— Awaker 1.0 的生成側。
Awaker 1.0 的生成側,是智子引擎自主研發的類 Sora 視頻生成底座 VDT(Video Diffusion Transformer)。
VDT 的學術論文早于 OpenAI Sora 的發布(去年 5 月),并已被頂會 ICLR 2024 接收。
VDT 與衆不同的創新之處,主要有兩點。
一是在技術架構上采用 Diffusion Transformer,在 OpenAI 之前就展現了 Transformer 在視頻生成領域的巨大潛力。
它的優勢在于其出色的時間依賴性捕獲能力,能夠生成時間上連貫的視頻幀,包括模拟三維對象随時間的物理動态。
二是提出統一的時空掩碼建模機制,使 VDT 能夠處理多種視頻生成任務。
VDT 靈活的條件信息處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模态的信息。
同時,通過與該工作提出的時空掩碼建模機制結合,VDT 成爲了一個通用的視頻擴散工具,在不修改模型結構的情況下可以應用于無條件生成、視頻後續幀預測、插幀、圖生視頻、視頻畫面補全等多種視頻生成任務。
據了解,智子引擎團隊不僅探索了 VDT 對簡單物理規律的模拟,發現它能模拟物理過程:
還在超寫實人像視頻生成任務上進行了深度探索。
因爲肉眼對人臉及人的動态變化非常敏感,所以這個任務對視頻生成質量的要求非常高。不過,智子引擎已經突破超寫實人像視頻生成的大部分關鍵技術,比起 Sora 也沒在怕的。
口說無憑。
這是智子引擎結合 VDT 和可控生成,對人像視頻生成質量提升後的效果:
據悉,智子引擎還将繼續優化人物可控的生成算法,并積極進行商業化探索。
生成源源不斷的新交互數據
更值得關注的是,智子引擎團隊強調:
Awaker 1.0 是世界上首個能自主更新的多模态大模型。
換句話說,Awaker 1.0 是 " 活 " 的,它的參數可以實時持續地更新——這就導緻 Awaker 1.0 區别于所有其它多模态大模型,
Awaker 1.0 的自主更新機制,包含三大關鍵技術,分别是:
數據主動生成
模型反思評估
模型連續更新
這三項技術,讓 Awaker 1.0 具備自主學習、自動反思和自主更新的能力,可以在這個世界自由探索,甚至與人類互動。
基于此,Awaker 1.0 在理解側和生成側都能生成源源不斷的新交互數據。
怎麽做到的?
在理解側,Awaker 1.0 與數字世界和現實世界進行交互。
在執行任務的過程中,Awaker 1.0 将場景行爲數據反哺給模型,以實現持續更新與訓練。
在生成側,Awaker 1.0 可以進行高質量的多模态内容生成,爲理解側模型提供更多的訓練數據。
在理解側和生成側的兩個循環中,Awaker 1.0 實際實現了将視覺理解與視覺生成進行融合。
要知道,Sora 問世後,越來越多聲音表示,要通往 AGI,必須達成 " 理解和生成的大一統 "。
以新知識注入爲例,下面來看個具體跑通的例子。
Awaker 1.0 能夠不斷在互聯網上學習實時新聞信息,同時,它結合新學習到的新聞信息來回答各種複雜問題。
這和目前兩種主流,即 RAG 和傳統長上下文方式還不太一樣,Awaker 1.0 是真的把新知識 " 記憶 " 在自個兒模型的參數上。
可以看到,連續 3 天的自我更新過程中,Awaker 1.0 每天都能學習當天的新聞信息,并在描述中準确地說出對應信息。
而且雖然一直在學,Awaker 1.0 倒沒有顧此失彼,它并不會很快地遺忘學過的知識。
譬如,4 月 16 日學進去的智界 S7 相關知識,在 2 天後仍然被 Awaker 1.0 記住或理解。
So,在這個數據如金的時代,别再哀歎 " 數據不夠用 " 了。
面對數據瓶頸的團隊們,一種可行、可用的新選擇,不就被 Awaker 1.0 送來了?
具身智能 " 活 " 的大腦
話說回來,正是由于實現了視覺理解與視覺生成的融合,當遇到 " 多模态大模型适配具身智能 " 的問題,Awaker 1.0 的驕傲已經顯露無疑。
事情是這樣的:
Awaker 1.0 這類多模态大模型,其具有的視覺理解能力可以天然與具身智能的 " 眼睛 " 相結合。
而且主流聲音也認爲," 多模态大模型 + 具身智能 " 有可能大幅地提升具身智能的适應性和創造性,甚至是實現 AGI 的可行路徑。
理由不外乎兩點。
第一,人們期望具身智能擁有适應性,即智能體能夠通過持續學習來适應不斷變化的應用環境。
這樣一來,具身智能既能在已知多模态任務上越做越好,也能快速适應未知的多模态任務。
第二,人們還期望具身智能具有真正的創造性,希望它通過對環境的自主探索,能夠發現新的策略和解決方案,并探索 AI 的能力邊界。
但是二者的适配,并不是簡簡單單把多模态大模型鏈接個身體,或直接給具身智能裝個腦子那麽簡單。
就拿多模态大模型來說,至少有兩個明顯的問題擺在面前。
一是模型的叠代更新周期長,需要大量的人力投入;
二是模型的訓練數據都源自已有的數據,模型不能持續獲得大量的新知識。雖然通過 RAG 和擴長上下文窗口也可以注入持續出現的新知識,模型記不住,補救方式還會帶來額外的問題。
總之,目前的多模态大模型在實際應用場景中不具備很強的适應性,更不具備創造性,導緻在行業落地時總是出現各種各樣的困難。
妙啊——還記得我們前面提到,Awaker 1.0 不僅可以學新知識,還能記住新知識,并且這種學習是每天的、持續的、及時的。
從這張框架圖可以看出,Awaker 1.0 能夠與各種智能設備結合,通過智能設備觀察世界,産生動作意圖,并自動構建指令控制智能設備完成各種動作。
在完成各種動作後,智能設備會自動産生各種反饋,Awaker 1.0 能夠從這些動作和反饋中獲取有效的訓練數據進行持續的自我更新,不斷強化模型的各種能力。
這就相當于具身智能擁有一個活的大腦了。
誰看了不說一句 how pay(狗頭)~
尤其重要的是,因爲具備自主更新能力,Awaker 1.0不單單是可以和具身智能适配,它還适用于更廣泛的行業場景,能夠解決更複雜的實際任務。
例如,Awaker 1.0 與各種智能設備結合,從而實現雲邊協同。
這時候,Awaker 1.0 就是部署在雲端的 " 大腦 ",觀察、指揮,控制各種邊端智能設備執行各項任務。
而邊端智能設備執行各項任務時獲得的反饋,又會源源不斷地傳回給 Awaker 1.0,讓它持續地獲得訓練數據,不斷進行自我更新。
這可不是紙上談兵,Awaker 1.0 與智能設備的雲邊協同的技術路線,已經應用在電網智能巡檢、智慧城市等應用場景中,并取得了遠好于傳統小模型的識别效果。
多模态大模型能聽、能看、能說,在語音識别、圖像處理、自然語言理解等多個領域展現出了巨大的潛力和應用價值,幾乎無所不能。
但它的煩惱很明顯,如何不斷吸收新知識、适應新變化?
可以說,修煉内功、提升武藝成爲了多模态大模型面臨的一個重要課題。
智子引擎 Awaker 1.0 的問世,爲多模态大模型的自我超越提供了一把鑰匙。
它好像會了那個吸星大法,通過自主更新機制,打破了數據短缺的瓶頸,爲多模态大模型的持續學習和自我進化提供了可能;再就是利用雲邊協同技術,勇闖在具身智能等智能體設備的具體應用場景。
這或許是邁向 AGI 的一小步,但同時也是多模态大模型自我超越之旅的一個開始。
漫長而艱難的旅程,需要智子引擎這樣的團隊,向技術的高峰不斷攀登。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~