計算、存儲消耗高,機器人使用多模态模型的障礙被解決了!
來自清華大學的研究者們設計了DeeR-VLA 框架,一種适用于 VLA 的 " 動态推理 " 框架,能将 LLM 部分的相關計算、内存開銷平均降低 4-6 倍。
(VLA:視覺 - 語言 - 動作模型,代表一類用于處理多模态輸入的模型)
簡單來說,DeeR-VLA 就像人的決策系統:簡單任務快速思考,複雜任務仔細思考。通過多出口架構,模型在足夠計算後即可提前 " 刹車 ",避免浪費算力。
在 CALVIN 機器人操作基準測試中,DeeR-VLA 實現了大語言模型(LLM)計算成本減少 5.2-6.5 倍,GPU 内存減少 2-6 倍,同時保持了性能不受影響。
大模型存在冗餘性
近年來,多模态大語言模型(MLLM)讓機器人具備了前所未有的理解與執行能力。通過語言指令和視覺信息的結合,機器人可以完成複雜任務,比如 " 抓起藍色物體并放到桌上 "。
一些前沿模型,如 RT-2,甚至可以泛化到新任務或新物體。然而,要讓這些強大的模型走進實際場景,還有一道難題需要解決—— MLLM 雖然聰明,但也 " 貪吃 "。
每次推理動辄調用數十億參數,消耗巨大的計算資源。
這對于嵌入式機器人平台來說是緻命的—— GPU 内存不足、計算時間長、電池續航不夠,直接讓 " 通用機器人 " 的夢想止步于實驗室。
然而實際上,在機器人控制領域,很多實際應用場景并沒有我們想象的那麽複雜。
論文作者通過觀察發現,絕大多數任務實際上可以通過較小的模型就能完成,隻有在面對少數複雜場景時,才需要調用完整的大型多模态模型。
以 Calvin 數據集爲例的實驗結果便充分體現了這一點:當使用 24 層的 OpenFlamingo 作爲基座模型時,相比于 6 層的模型,任務完成率僅提高了 3.2%,但計算成本卻增加了整整 4 倍。
這無疑凸顯了現有的多模态大模型對大部分簡單機器人任務的冗餘性。
這一發現引發了對現有模型設計的深刻思考:
爲什麽在大多數簡單任務中還要使用高計算資源的複雜模型?
在很多情況下,使用更大的模型不僅沒有帶來明顯的性能提升,反而浪費了寶貴的計算資源。
作者認爲,如何根據任務的複雜性動态調整模型的規模,才能在不犧牲性能的情況下,最大化計算效率,成爲了提升機器人智能的關鍵。
DeeR-VLA 的設計
DeeR-VLA 框架的核心在于其靈活的動态推理機制,能夠根據任務複雜度智能調節 LLM 的計算深度。
這意味着,DeeR-VLA 能夠在不同場景中激活任意規模的模型。
爲了實現這一目标,DeeR-VLA 引入了多出口架構,該架構能在多模态大語言模型中按需選擇性激活不同的層級。
以下是其關鍵技術組件:
多出口 MLLM 結構: DeeR-VLA 通過在 MLLM 中引入多出口架構,将模型劃分爲多個階段,每個階段都可以輸出中間結果。一旦任務複雜度達到某個出口的需求,模型就會提前停止計算,避免激活更多層級。
特征池化方法 : 每個出口的中間特征通過特征池化技術進行壓縮,提取出最核心的信息。這種方法确保即便在早期退出,模型也能生成适用于後續動作預測的高質量特征。
動作預測頭設計 : 在每個出口後,模型通過輕量級的動作預測頭,将特征轉化爲機器人具體的執行動作(如機械臂的位置和夾爪的開合狀态)。
DeeR-VLA 使用了一種獨特的動作一緻性準則來決定是否提前退出。
通過對比相鄰出口的動作預測結果,若結果差異小于阈值,則推斷模型已經達到收斂狀态,無需進一步計算。
動作一緻性的阈值無需手動設置,模型可以自動計算出合适的阈值來滿足給定的設定平均計算成本、峰值計算、顯存預算,動态調整計算規模,以适應不同的硬件環境和實時性需求。
爲了自動尋找最佳退出阈值,DeeR-VLA 還引入了貝葉斯優化方法。在訓練或實際應用中,該方法通過探索和反饋不斷微調退出策略,确保計算資源的最優分配。
在 DeeR-VLA 中,動态推理時,模型根據确定性的标準在每個時間步選擇合适的出口,并彙集時序上每一個時刻的特征生成最終的預測。
然而,在訓練階段,由于缺乏明确的終止标準,模型并不清楚時序上出口特征的分布,這導緻訓練時的行爲與推理時有所不同。
爲了解決這一問題,DeeR-VLA 引入了随機出口采樣策略。
在訓練過程中,模型在每個時間步随機選擇一個出口進行計算,這樣可以确保模型在所有出口序列上都能進行有效學習,并生成高質量的預測。
這種策略有效減少了訓練和推理之間的分布差異,使得模型能夠更好地應對動态推理過程中的不确定性。
此外,論文作者還引入了輔助預測頭(Auxiliary Heads)作爲額外的監督信号,對每個出口的特征進行優化,使其更适合于動作預測任務。
實驗驗證
DeeR-VLA 框架在 CALVIN 長 Horizon 多任務語言控制挑戰(LH-MTLC)基準上進行評估。該基準目的是測試機器人在自然語言指令下執行任務序列的能力,其中每個任務序列包含五個子任務。
由于多模态大模型中 LLM 部分占據主要的參數量,DeeR-VLA 主要關注 LLM 部分的計算量和顯存占用,而不是整體框架的節省。
通過在不同環境設置下的測試,DeeR-VLA 展現了出色的表現,尤其是在任務成功率與計算效率之間的平衡。
與其他 SOTA 方法相比,DeeR-VLA 在任務成功率上保持競争力的同時,LLM 部分的計算資源消耗大幅減少。
例如,在 D → D 設置下,DeeR-VLA 以更少的計算量(5.9 倍減少的 FLOPs)和 2 倍更低的 GPU 内存消耗,依然達到了 RoboFlamingo++ 的性能。
爲了驗證 DeeR-VLA 在實際推理中的效率,研究團隊在 Nvidia V100 GPU 上對 DeeR 和 RoboFlamingo++ 進行了比較。
結果表明,DeeR-VLA 的 LLM 部分的推理時間比 RoboFlamingo++ 減少了68.1%,且兩者在任務成功率上幾乎相同。
這一實驗證明了 DeeR-VLA 框架不僅在理論上能夠減少計算負擔,而且在實際應用中也能顯著提升推理速度。
同時,DeeR-VLA 框架能夠與量化技術相結合,進一步減少模型 LLM 部分的内存使用。
論文作者介紹
該論文的一作是清華大學自動化系三年級博士生Yue Yang,他專注于強化學習、世界模型、多模态大模型和具身智能的研究。
此前他作爲核心作者的論文《How Far is Video Generation from World Model: A Physical Law Perspective》被國内外衆多大佬 Yan Lecun,xie saining,Kevin Murphy 等轉發。
另一位一作王語霖同樣是清華大學的博士生。兩位作者的導師都是黃高。
論文作者主頁:
https://yueyang130.github.io/
論文鏈接:
https://arxiv.org/abs/2411.02359v1
代碼和模型鏈接:
https://github.com/yueyang130/DeeR-VLA
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>