超級智能體生命力覺醒！可自我更新的AI來了，媽媽再也不用擔心數據瓶頸難題

哭死啊，全球狂煉大模型，一互聯網的數據不夠用，根本不夠用。

訓練模型搞得跟《饑餓遊戲》似的，全球 AI 研究者，都在苦惱怎麽才能喂飽這群數據大胃王。

尤其在多模态任務中，這一問題尤爲突出。

一籌莫展之際，來自人大系的初創團隊，用自家的新模型，率先在國内把 " 模型生成數據自己喂自己 " 變成了現實。

而且還是理解側和生成側雙管齊下，兩側都能生成高質量、多模态的新數據，對模型本身進行數據反哺。

模型是啥？

中關村論壇上剛剛露面的多模态大模型 Awaker 1.0。

團隊是誰？

智子引擎。由人大高瓴人工智能學院博士生高一钊創立，高瓴人工智能學院盧志武教授擔任顧問。公司成立時還是 2021 年，就早早打入多模态這條 " 無人區 " 賽道。

MOE 架構，解決多模态多任務訓練沖突問題

這不是智子引擎第一次發布模型。

去年 3 月 8 日，潛心研發兩年的團隊對外發布了自研的第一個多模态模型，百億級别參數的 ChatImg 序列模型，并基于此推出世界首個公開評測多模态對話應用 ChatImg（元乘象）。

後來，ChatImg 不斷叠代，新模型 Awaker 的研發也在并行推進。後者還繼承了前代模型的基礎能力。

相較于前代的 ChatImg 序列模型，Awaker 1.0采用了 MoE 模型架構。

要說原因嘛，是想要解決解決多模态多任務訓練存在嚴重沖突的問題。

采用 MoE 模型架構，可以更好地學習多模态通用能力以及各個任務所需的獨特能力，從而讓整個 Awaker 1.0 的能力在多個任務上有進一步提升。

數據勝千言：

鑒于主流多模态評測榜單存在評測數據洩露問題，智子團隊從嚴構建了自有評測集，大部分測試圖片來自個人手機相冊。

表格顯示，團隊讓 Awaker 1.0 和國内外最先進的 3 個多模态大模型進行了評測。

多提一嘴，由于 GPT-4V 和 Intern-VL 并不直接支持檢測任務，它們的檢測結果是通過要求模型使用語言描述物體方位得到的。

可以看到，在視覺問答和業務應用任務上，Awaker 1.0 的基座模型超過了 GPT-4V、Qwen-VL-Max 和 Intern-VL。

在描述、推理和檢測任務上，Awaker 1.0 的基座模型達到了次好效果。

最後來看平均分，Awaker 1.0 處于幾者中的最高值。

因此，上述結果也印證了多任務多模态模型采用 MoE 架構的有效性。

數據集評測結果有了，真實效果還需進一步上手體驗。

這裏主要問了它和對比大模型一些關于中文 OCR（圖片文字識别）和計數問題、詳細描述任務等問題。

這個主要考計數：

Awaker 1.0 能正确地給出答案，而其它三個模型均回答錯誤。

這個主要考中文 OCR：

正确回答的選手是 Qwen-VL-Max 和 Awaker 1.0。

最後這題考圖片内容理解。

GPT-4V 和 Awaker 1.0 不但能夠詳細地描述圖片的内容，而且能夠準确地識别出圖片中的細節，如圖中展示的可口可樂。

不得不提一嘴的是，Awaker 1.0 繼承了一些智子團隊此前廣爲關注的研究成果。

說的就是你—— Awaker 1.0 的生成側。

Awaker 1.0 的生成側，是智子引擎自主研發的類 Sora 視頻生成底座 VDT（Video Diffusion Transformer）。

VDT 的學術論文早于 OpenAI Sora 的發布（去年 5 月），并已被頂會 ICLR 2024 接收。

VDT 與衆不同的創新之處，主要有兩點。

一是在技術架構上采用 Diffusion Transformer，在 OpenAI 之前就展現了 Transformer 在視頻生成領域的巨大潛力。

它的優勢在于其出色的時間依賴性捕獲能力，能夠生成時間上連貫的視頻幀，包括模拟三維對象随時間的物理動态。

二是提出統一的時空掩碼建模機制，使 VDT 能夠處理多種視頻生成任務。

VDT 靈活的條件信息處理方式，如簡單的 token 空間拼接，有效地統一了不同長度和模态的信息。

同時，通過與該工作提出的時空掩碼建模機制結合，VDT 成爲了一個通用的視頻擴散工具，在不修改模型結構的情況下可以應用于無條件生成、視頻後續幀預測、插幀、圖生視頻、視頻畫面補全等多種視頻生成任務。

據了解，智子引擎團隊不僅探索了 VDT 對簡單物理規律的模拟，發現它能模拟物理過程：

還在超寫實人像視頻生成任務上進行了深度探索。

因爲肉眼對人臉及人的動态變化非常敏感，所以這個任務對視頻生成質量的要求非常高。不過，智子引擎已經突破超寫實人像視頻生成的大部分關鍵技術，比起 Sora 也沒在怕的。

口說無憑。

這是智子引擎結合 VDT 和可控生成，對人像視頻生成質量提升後的效果：

據悉，智子引擎還将繼續優化人物可控的生成算法，并積極進行商業化探索。

生成源源不斷的新交互數據

更值得關注的是，智子引擎團隊強調：

Awaker 1.0 是世界上首個能自主更新的多模态大模型。

換句話說，Awaker 1.0 是 " 活 " 的，它的參數可以實時持續地更新——這就導緻 Awaker 1.0 區别于所有其它多模态大模型，

Awaker 1.0 的自主更新機制，包含三大關鍵技術，分别是：

數據主動生成

模型反思評估

模型連續更新

這三項技術，讓 Awaker 1.0 具備自主學習、自動反思和自主更新的能力，可以在這個世界自由探索，甚至與人類互動。

基于此，Awaker 1.0 在理解側和生成側都能生成源源不斷的新交互數據。

怎麽做到的？

在理解側，Awaker 1.0 與數字世界和現實世界進行交互。

在執行任務的過程中，Awaker 1.0 将場景行爲數據反哺給模型，以實現持續更新與訓練。

在生成側，Awaker 1.0 可以進行高質量的多模态内容生成，爲理解側模型提供更多的訓練數據。

在理解側和生成側的兩個循環中，Awaker 1.0 實際實現了将視覺理解與視覺生成進行融合。

要知道，Sora 問世後，越來越多聲音表示，要通往 AGI，必須達成 " 理解和生成的大一統 "。

以新知識注入爲例，下面來看個具體跑通的例子。

Awaker 1.0 能夠不斷在互聯網上學習實時新聞信息，同時，它結合新學習到的新聞信息來回答各種複雜問題。

這和目前兩種主流，即 RAG 和傳統長上下文方式還不太一樣，Awaker 1.0 是真的把新知識 " 記憶 " 在自個兒模型的參數上。

可以看到，連續 3 天的自我更新過程中，Awaker 1.0 每天都能學習當天的新聞信息，并在描述中準确地說出對應信息。

而且雖然一直在學，Awaker 1.0 倒沒有顧此失彼，它并不會很快地遺忘學過的知識。

譬如，4 月 16 日學進去的智界 S7 相關知識，在 2 天後仍然被 Awaker 1.0 記住或理解。

So，在這個數據如金的時代，别再哀歎 " 數據不夠用 " 了。

面對數據瓶頸的團隊們，一種可行、可用的新選擇，不就被 Awaker 1.0 送來了？

具身智能 " 活 " 的大腦

話說回來，正是由于實現了視覺理解與視覺生成的融合，當遇到 " 多模态大模型适配具身智能 " 的問題，Awaker 1.0 的驕傲已經顯露無疑。

事情是這樣的：

Awaker 1.0 這類多模态大模型，其具有的視覺理解能力可以天然與具身智能的 " 眼睛 " 相結合。

而且主流聲音也認爲，" 多模态大模型 + 具身智能 " 有可能大幅地提升具身智能的适應性和創造性，甚至是實現 AGI 的可行路徑。

理由不外乎兩點。

第一，人們期望具身智能擁有适應性，即智能體能夠通過持續學習來适應不斷變化的應用環境。

這樣一來，具身智能既能在已知多模态任務上越做越好，也能快速适應未知的多模态任務。

第二，人們還期望具身智能具有真正的創造性，希望它通過對環境的自主探索，能夠發現新的策略和解決方案，并探索 AI 的能力邊界。

但是二者的适配，并不是簡簡單單把多模态大模型鏈接個身體，或直接給具身智能裝個腦子那麽簡單。

就拿多模态大模型來說，至少有兩個明顯的問題擺在面前。

一是模型的叠代更新周期長，需要大量的人力投入；

二是模型的訓練數據都源自已有的數據，模型不能持續獲得大量的新知識。雖然通過 RAG 和擴長上下文窗口也可以注入持續出現的新知識，模型記不住，補救方式還會帶來額外的問題。

總之，目前的多模态大模型在實際應用場景中不具備很強的适應性，更不具備創造性，導緻在行業落地時總是出現各種各樣的困難。

妙啊——還記得我們前面提到，Awaker 1.0 不僅可以學新知識，還能記住新知識，并且這種學習是每天的、持續的、及時的。

從這張框架圖可以看出，Awaker 1.0 能夠與各種智能設備結合，通過智能設備觀察世界，産生動作意圖，并自動構建指令控制智能設備完成各種動作。

在完成各種動作後，智能設備會自動産生各種反饋，Awaker 1.0 能夠從這些動作和反饋中獲取有效的訓練數據進行持續的自我更新，不斷強化模型的各種能力。

這就相當于具身智能擁有一個活的大腦了。

誰看了不說一句 how pay（狗頭）～

尤其重要的是，因爲具備自主更新能力，Awaker 1.0不單單是可以和具身智能适配，它還适用于更廣泛的行業場景，能夠解決更複雜的實際任務。

例如，Awaker 1.0 與各種智能設備結合，從而實現雲邊協同。

這時候，Awaker 1.0 就是部署在雲端的 " 大腦 "，觀察、指揮，控制各種邊端智能設備執行各項任務。

而邊端智能設備執行各項任務時獲得的反饋，又會源源不斷地傳回給 Awaker 1.0，讓它持續地獲得訓練數據，不斷進行自我更新。

這可不是紙上談兵，Awaker 1.0 與智能設備的雲邊協同的技術路線，已經應用在電網智能巡檢、智慧城市等應用場景中，并取得了遠好于傳統小模型的識别效果。

多模态大模型能聽、能看、能說，在語音識别、圖像處理、自然語言理解等多個領域展現出了巨大的潛力和應用價值，幾乎無所不能。

但它的煩惱很明顯，如何不斷吸收新知識、适應新變化？

可以說，修煉内功、提升武藝成爲了多模态大模型面臨的一個重要課題。

智子引擎 Awaker 1.0 的問世，爲多模态大模型的自我超越提供了一把鑰匙。

它好像會了那個吸星大法，通過自主更新機制，打破了數據短缺的瓶頸，爲多模态大模型的持續學習和自我進化提供了可能；再就是利用雲邊協同技術，勇闖在具身智能等智能體設備的具體應用場景。

這或許是邁向 AGI 的一小步，但同時也是多模态大模型自我超越之旅的一個開始。

漫長而艱難的旅程，需要智子引擎這樣的團隊，向技術的高峰不斷攀登。

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~