OpenAI 谷歌天天刷流量,微軟也坐不住了,推出最新小模型 Phi-4。
參數量僅 14B,MMLU 性能就和 Llama 3.3/ Qwen2.5 等 70B 級别大模型坐一桌。
數學能力上,Phi-4 在美國數學競賽 AMC 10/12 上超過了 GPT-4o 等一衆大模型,分數沖上 90。
編程能力也是開源模型一流,超過了 70B 的 Llama 3.3 和 72B 的 Qwen 2.5。
更引起熱議的是,微軟在技術報告中還提出了一個新的訓練範式——midtraining。
這一舉動讓 Phi-4 擁有了更強的長文本處理能力,窗口長度達到 16K 後,召回率依然保持在 99%。
小模型挑戰複雜推理
在常見基準測試中,Phi-4 取得了優異的文本處理和複雜推理水平:
在 MMLU 上,Phi-4 以 84.8% 的準确率超過了 GPT-4o-mini 的 81.8% 和 Llama-3.3 的 86.3%;
在研究生水平 STEM 問答 GPQA 上,Phi-4 準确率達到 56.1%,高于同尺寸模型 Qwen-2.5 的 42.9%,甚至超過了 GPT-4o 的 50.6%;
在數學測試集 MATH 上,Phi-4 以 80.4% 的準确率超過 GPT-4o-mini 的 73%,并接近 GPT-4o 的 74.6%;
編程能力方面,Phi-4 在 HumanEval 上以 82.6% 超過了其他開源模型,以及 GPT-4o-mini。
在難度稍高的 MMLU 和 HumanEval+ 上,Phi-4 的表現也超過了其他開源模型;在 ArenaHard、LiveBench 和 IFEval 上則表現欠佳。
另外,微軟還用内部的基準 PhiBench 對模型能力進行了更全面的評估,結果 Phi-4 取得了 56.2% 的綜合得分,展現出在推理、知識、編程等方面的全面能力,但相比于 Qwen 2.5-72B 等模型,還是暴露了有待提高之處。
在 Phi-4 的宣傳頁中,微軟還展示了其在一個具體的數學推理題目上的表現。
Phi-4 非常有條理地考慮了各種可能出現的情況,并計算出了正确答案。
除了這些常規能力,微軟團隊還專門在長文本上測試了 Phi-4 的表現。
在 8K 和 16K 兩種窗口長度中,研究團隊利用 HELMET 基準評估了 Pho-4 和其他模型在 RAG、QA 問答、長文本摘要等任務上的水平。
結果,Phi-4 在多個任務上與同尺寸的 Qwen 2.5-14B 相當,部分指标還可與 70B 的 Llama 3.3 一決高下。
不過,Phi-4 在某些任務(如 RAG 和文檔排序)上,仍有進一步提升的空間。
不同于一般大模型的預訓練 + 後訓練的兩階段模式,微軟在兩個階段中間新加入了一個 midtraining 階段。
在 10 萬億 tokens 規模的預訓練完成後,Phi-4 可以處理 4k 長度的上下文窗口,而 midtraining 的目的是在此基礎上進一步将窗口長度提升到 16k。
研究團隊發現,天然的長上下文數據(如完整的學術論文)比人工拼接短樣本更有利于訓練長上下文能力。
因此,團隊從學術文章、書籍、代碼庫等高質量非合成文本中篩選出長度大于 8K tokens 的樣本作爲訓練集,并且對長度超過 16K tokens 的樣本進行加權,以匹配目标長度。
爲進一步豐富長上下文訓練數據,研究團隊專門生成了滿足大于 4K 長度要求的新合成數據,與真實長文本數據共同組成了 midtraining 階段的數據集。
最終,midtraining 階段的數據包含 30% 新引入的長文本數據(篩選 + 合成)和 70% 預訓練階段的曆史數據,規模爲 2500 億 tokens。
同時,爲了适應 16K 的長序列訓練,研究團隊将 rope 位置編碼的基頻從預訓練階段的 2K 擴大到 250K;同時,爲保證訓練穩定性,團隊将學習率降低爲預訓練階段的十分之一。
最終,Phi-4 在 HELMET 等長文本基準測試中表現出色,證明了 midtraining 階段的有效性。
除此之外,在後訓練階段,研究團隊還提出了一種新穎的對比學習方法——樞軸 tokens 搜索(PTS)。
通過識别對模型輸出影響最大的關鍵 tokens,并圍繞它們構造正負樣本對,PTS 可以生成高信噪比的對比學習數據,顯著提升訓練效率和效果。
除了 PTS 生成的對比學習數據,研究團隊還引入了人類反饋對比學習(Human Feedback DPO)。
他們招募了大量人員對模型輸出進行評判,并據此構造優質的正負樣本對,使得模型更加貼近人類偏好。
One More Thing
不過 midtraining 并不是微軟首次提出,早在 7 月份,OpenAI 就已經開始爲倫敦的 midtraining 團隊招人了。
論文地址:
https://arxiv.org/abs/2412.08905
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>