今日 GitHub 熱榜榜首,是最新的開源世界模型。
上下文窗口長度達到了 100 萬 token,持平了谷歌同時推出的王炸 Gemini 1.5,伯克利出品。
強大的模型,命名也是簡單粗暴——沒有任何額外點綴,直接就叫 LargeWorldModel(LWM)。
LWM 支持處理多模态信息,能在 100 萬 token 中準确找到目标文本,還能一口氣看完 1 小時的視頻。
網友看了不禁表示,這種大海撈針般的測試,LWM 能完成的如此出色,而且還開源,實在是令人印象深刻。
那麽,LWM 的表現到底有多強呢?
百萬上下文窗口,可看 1 小時視頻
在測試過程中,研究人員用多段一個多小時的視頻檢驗了 LWM 的長序列理解能力,這些視頻由 YouTube 上不同的視頻片段拼接而成。
他們将這些視頻輸入 LWM,然後針對其中的細節進行提問,涉及的片段位于整個視頻的不同位置,同時研究者還将 LWM 與 GPT-4V 等模型做了對比。
結果 GPT-4V 是一問一個不吱聲,閉源強者 Gemini Pro 和開源強者 Video-LLaVA 都給出了錯誤的答案,隻有 LWM 回答對了。
在另一段視頻的測試中,其他模型都說找不到有關信息,隻有 LWM 找到了答案,而且完全正确。
不僅是理解細節,LWM 也能把握視頻的整體内容,做出歸納總結。
在理解的基礎之上,LWM 也可以結合自有知識進行推理,比如分析視頻中不符合常理的地方。
Benchmark 測試結果顯示,LWM 在 MSVD-QA 等三個數據集上的評分僅次于 Video-LLaVA。
LWM 不僅能理解長短視頻,在超長文本任務上的表現同樣優異。
在 1 百萬 token 窗口的 " 插針 " 檢索測試中,LWM 取得了單針檢索全綠的成績。
多針檢索時,表現也同樣優異:
語言任務數據集的測試結果表明,LWM 在 32k 到 1M 的窗口長度上表現不輸甚至超過隻有 4k 窗口的 Llama2-7B。
除了多模态信息理解,LWM 還支持圖像和視頻的生成,至于效果,還是直接上圖感受一下吧。
那麽,研究人員又是怎樣訓練出這樣一款世界模型的呢?
循序漸進,分而治之
LMW 的訓練過程,大緻可分爲兩個階段。
第一階段的目标是建立一個能夠處理長文本序列的語言模型,以理解複雜的文檔和長文本内容。
爲實現這一目的,研究人員采取了漸進式的訓練方式,使用總計 33B Token、由圖書内容組成的 Books3 數據集,從 32k 開始訓練,逐步将窗口擴增至 1M。
而爲了增強 LWM 的長文本處理能力,開發者應用了 RingAttention 機制。
RingAttention 是該團隊去年提出的一種窗口擴增方式,入選了 ICLR 2024。
它運用了 " 分而治之 " 的思想,将長文本分成多個塊,用多個計算設備做序列并行處理,然後再進行疊加,理論上允許模型擴展到無限長的上下文。
在 LWM 中,RingAttention 還與 FlashAttention 結合使用,并通過 Pallas 框架進行優化,從而提高性能。
在文本能力的基礎上,研究人員又用模型生成了部分 QA 數據,針對 LWM 的對話能力進行了優化。
第二階段則是将視覺信息(如圖像和視頻)整合到模型中,以提高對多模态數據的理解能力。
在此階段,研究人員對 LWM-Text 模型進行了架構修改,以支持視覺輸入。
他們使用 VQGAN 将圖像和視頻幀轉換爲 token,并與文本結合進行訓練。
這一階段同樣采用循序漸進的訓練方法, LWM 首先在文本 - 圖像數據集上進行訓練,然後擴展到文本 - 視頻數據集,且視頻幀數逐步增多。
在訓練過程中,模型還會随機交換文本和視覺數據的順序,以學習文本 - 圖像生成、圖像理解、文本 - 視頻生成和視頻理解等多種任務。
性能方面,研究人員在 TPUv4-1024(大緻相對于 450 塊 A100)上訓練,批大小爲 8M、全精度(float32)的條件下,花費的時間如下表所示,其中 1M 窗口版本用了 58 個小時。
目前,LWM 的代碼、模型都已開源,其中多模态模型爲 Jax 版本,純文本模型有 Jax 和 PyTorch 兩個版本,感興趣的話可以到 GitHub 頁面中了解詳情。
論文地址:
https://arxiv.org/abs/2402.08268
GitHub:
https://github.com/LargeWorldModel/LWM
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~