IT 之家 8 月 21 日消息,微軟公司今天發布了 Phi-3.5 系列 AI 模型,其中最值得關注的是推出了該系列首個混合專家模型(MoE)版本 Phi-3.5-MoE。
本次發布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款輕量級 AI 模型,基于合成數據和經過過濾的公開網站構建,上下文窗口爲 128K,所有模型現在都可以在 Hugging Face 上以 MIT 許可的方式獲取。IT 之家附上相關介紹如下:
Phi-3.5-MoE:首個混合專家模型
Phi-3.5-MoE 是 Phi 系列中首個利用混合專家(MoE)技術的模型。該模型在 16 x 3.8B MoE 模型使用 2 個專家僅激活了 66 億個參數,并使用 512 個 H100 在 4.9T 标記上進行了訓練。
微軟研究團隊從零開始設計該模型,以進一步提高其性能。在标準人工智能基準測試中,Phi-3.5-MoE 的性能超過了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,并接近目前的領先者 GPT-4o-mini。
Phi-3.5-vision:增強型多幀圖像理解
Phi-3.5-vision 共有 42 億個參數,使用 256 個 A100 GPU 在 500B 标記上進行訓練,現在支持多幀圖像理解和推理。
Phi-3.5-vision 在 MMMU(從 40.2 提高到 43.0)、MMBench(從 80.5 提高到 81.9)和文檔理解基準 TextVQA(從 70.9 提高到 72.0)上的性能均有提高。
Phi-3.5-mini:輕量級、強功能
Phi-3.5-mini 是一個 38 億參數模型,超過了 Llama3.1 8B 和 Mistral 7B,甚至可媲美 Mistral NeMo 12B。
該模型使用 512 個 H100 在 3.4T 标記上進行了訓練。該模型僅有 3.8B 個有效參數,與擁有更多有效參數的 LLMs 相比,在多語言任務中具有很強的競争力。
此外,Phi-3.5-mini 現在支持 128K 上下文窗口,而其主要競争對手 Gemma-2 系列僅支持 8K。