在多模态 AI 領域,基于預訓練視覺編碼器與 MLLM 的方法(如 LLaVA 系列)在視覺理解任務上展現出卓越性能。
而基于 Rectified Flow 的模型(如 Stable Diffusion 3 及其衍生版本)則在視覺生成方面取得重大突破。
能否将這兩種簡單的技術範式統一到單一模型中?
來自 DeepSeek、北大、香港大學以及清華大學的團隊研究表明:
在 LLM 框架内直接融合這兩種結構,就可以實現視覺理解與生成能力的有效統一。
模型架構
簡單來說,JanusFlow 将基于視覺編碼器和 LLM 的理解框架與基于 Rectified Flow 的生成框架直接融合,實現了兩者在單一 LLM 中的端到端訓練。
其核心設計包括: ( 1 ) 采用解耦的視覺編碼器分别優化理解與生成能力; ( 2 ) 利用理解端編碼器對生成端特征進行表征對齊,顯著提升 RF 的訓練效率。基于 1.3B 規模的 LLM,JanusFlow 在視覺理解和生成任務上均超過此前同規模的統一多模态模型。
在 LLM 基礎上,JanusFlow 加入了如下組件:
1、視覺理解編碼器(圖中的 Und. Encoder):我們使用 SigLIP 将輸入的圖片轉換成 Visual embeddings;專注于視覺理解任務的特征提取。
2、視覺生成編解碼器(圖中的 Gen. Encoder/Decoder):輕量級模塊,總參數量約 70M;基于 SDXL-VAE 的 latent space 進行生成;編碼器:利用雙層 ConvNeXt Block 将輸入 latent z_t 轉換爲 visual embeddings;解碼器:通過雙層 ConvNeXt Block 将處理後的 embeddings 解碼爲 latent space 中的速度 v 。
3、注意力機制:在我們的初步實驗中,我們發現生成任務中 causal attention 和 bidirectional attention 效果相當;基于效率和簡潔性考慮,統一采用 causal attention 處理兩類任務。
JanusFlow 有兩種生成模式:
1、視覺理解(文 + 圖 -> 文 ) :此時,JanusFlow 的推理模式是正常的自回歸模式,通過預測下一個 token 來生成回複
2、圖片生成(文 -> 圖):此時,JanusFlow 的推理模式是采用歐拉法求解 Rectified Flow 學出的 ODE,從 t=0 的純噪聲逐步推進到 t=1 的幹淨圖像。我們在生成過程中使用 Classifier-Free Guidance 并把叠代步數設置爲 30 步。
方法與設計
1、三階段訓練策略
我們的訓練分爲 Adaptation,Pre-Training 和 Supervised Fine-Tuning 三階段。我們的訓練數據包括視覺理解(圖生文)和視覺生成(文生圖)兩類。特别地,由于發現 RF 收斂速度顯著慢于 AR,我們在預訓練階段采用了非對稱的數據配比策略(理解:生成 =2:8),實驗證明該配比能夠有效平衡模型的兩方面能力。詳細訓練流程和數據配置請見論文。
2、解耦理解與生成的視覺編碼器
在之前結合 LLM 與 Diffusion Model 訓練統一多模态模型的嘗試中,理解與生成任務通常采用同一個視覺編碼器(如 Show-O [ 1 ] 中理解和生成均采用 MAGVIT-v2 将圖片轉換成離散 token,Transfusion [ 2 ] 中理解和生成均采用 latent space 裏的 U-Net Encoder),往往導緻理解和生成任務在視覺編碼層面的沖突。在我們的上一個工作 Janus [ 3 ] 中證實了對多模态理解和生成任務的編碼器進行解耦能有效緩解沖突,提升模型的整體性能。在 JanusFlow 中,我們沿用了這一設計。我們進行了一系列的消融實驗探究了不同視覺編碼器策略的影響,證實爲理解和生成任務分别配置專用編碼器能夠顯著提升整體性能。
3、表征對齊(Representation Alignment)
正如之前提到的,由于 RF 的訓練收斂速度顯著慢于 AR,JanusFlow 的訓練開銷較大。得益于我們解耦了理解與生成的編碼器,我們可以使用 REPA [ 4 ] 的方法來加速 RF 訓練的收斂速度。具體而言,我們在生成數據的訓練中要求視覺編碼器提取的訓練圖片 x 的特征與其加噪樣本 z_t 在 LLM 中的中間層特征對齊。實驗表明,該方法在僅增加少量計算開銷的情況下,顯著提升了生成任務的收斂效率。
(綠線:使用 REPA;藍線:不使用 REPA。使用 REPA 可以顯著加速 FID 的降低 ( 與圖像質量相關 ) 和 CLIP score 的升高 ( 與文生圖模型的語義準确度相關 ) 。)
4、消融實驗
我們設計了六組對照實驗以驗證模型各組件的有效性:
A、不使用 REPA,理解模塊是 SigLIP,生成模塊是 SDXL-VAE+ConvNeXt Block,聯合訓練理解與生成任務;
B、使用 REPA,理解和生成模塊使用共享參數的 SDXL-VAE+ConvNeXt Block,聯合訓練理解與生成任務;這個設置類似 Transfusion;
C、使用 REPA,理解和生成模塊使用獨立參數的 SDXL-VAE+ConvNeXt Block,其中,理解部分的 SDXL-VAE 參數參與訓練,聯合訓練理解與生成任務;
D、理解模塊是 SigLIP,隻訓練理解數據,保持與聯合訓練中理解數據等量;這是同一框架和數據量下,理解模型的基準;
E、使用 REPA,理解模塊是 SigLIP,生成模塊是 SDXL-VAE+ConvNeXt Block,隻訓練生成數據,保持與聯合訓練中生成數據等量;這是同一框架和數據量下,生成模型的基準;
F、使用 REPA,理解模塊是 SigLIP,生成模塊是 SDXL-VAE+ConvNeXt Block,聯合訓練理解與生成任務。
實驗結果如下圖。
分析:
1、比較 A 和 F:REPA 的引入顯著提升了生成相關的指标
2、比較 B,C 和 F:解耦編碼器并使用 SigLIP 作爲理解模塊能得到理解和生成能力最好的統一模型
3、比較 D,E 和 F:我們的最終策略 F 在訓練數據量和訓練設置均相同的情況下,理解能力與純理解基準相當,生成能力與純生成基準基本持平;驗證了 F 在保持各自性能的同時實現了兩個任務的有機統一
基于以上實驗結果,我們采用方案 F 作爲 JanusFlow 的最終架構配置。
實驗結果
JanusFlow 在 DPGBench,GenEval 和多模态理解的測評标準上都取得了強大的效果。詳見表格。
△視覺理解分數:JanusFlow 超過了一些同尺寸的純理解模型
△視覺生成分數:JanusFlow 有較強的語義跟随能力
△視覺理解主觀效果
△視覺生成主觀效果
最後總結,JanusFlow 通過融合自回歸 LLM 與 Rectified Flow,成功構建了一個統一的視覺理解與生成框架。該模型具有簡潔的架構設計,在視覺理解和生成兩大任務上均展現出強勁的競争力。
相關文獻:
[ 1 ] Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
[ 2 ] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
[ 3 ] Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
[ 4 ] Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think
— 完 —
投稿請發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回複你
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>