見識過 32B 的 QwQ 追平 671 的 DeepSeek R1 後——
剛剛,7B 的 DeepSeek 蒸餾 Qwen 模型超越 o1 又是怎麽一回事?

新方法 LADDER,通過遞歸問題分解實現 AI 模型的自我改進,同時不需要人工标注數據。
使 Deepseek-R1 蒸餾的 Qwen2.5 7B 模型在麻省理工學院積分大賽(MIT Integration Bee)上達到 90 分超越 o1。

注意,不是積分制的比賽哦,是隻做微積分中積分題的比賽,MIT 的數學高手每年都會挑戰一次,題目像這樣:

LADDER 論文來自小型獨立研究團體Tufa Labs,論文已上傳到 arXiv。

LADDER,全稱 Learning through Autonomous Difficulty-Driven Example Recursion,即 " 通過自主難度驅動的樣本遞歸進行學習 "。
這個名字聽起來有點拗口,但核心其實很容易理解:就是讓語言模型(LLM)通過自我生成和求解漸進簡化的問題變體,來不斷提升自己解決複雜問題的能力。

具體來說,LADDER 是一個結構化框架,由以下組件組成:
變體生成:一種結構化方法,用于生成複雜問題的逐漸簡化變體的樹,從而建立自然的難度梯度。
解的驗證:一種用于驗證積分解的數值積分方法。
強化學習:用于在變體樹上訓練基礎模型的協議。

而 LADDER 這個名字,也意味着像是模型學會了 " 爬梯子 ":通過自主生成一系列從易到難的問題變體,不斷練習和強化,最終爬到頂端。

以往的訓練方法,總是離不開大規模标注數據。
LADDER 利用模型現有能力來生成問題變體,形成循序漸進的難度梯度,最終實現自舉學習。整個過程隻需對答案進行驗證即可,無需人工幹預。
相比之前的方法,LADDER 有三大優勢:
不再依賴人工标注數據,降低了數據獲取成本;模型通過生成問題變體構建針對性的學習路徑,學習更高效;生成的問題變體與原始問題相關性高,避免陷入無關細節。
此外,作者還提出了一種創新的測試時強化學習方法 TTRL。在推理階段遇到複雜的數學積分測試問題時,TTRL 會動态生成一系列更簡單的積分變體,模型通過解決這些變體來積累經驗,找到解決原始難題的方法。
這種測試時計算擴展的思路,爲進一步提升模型性能開辟了新的道路。不同于簡單增加輸出長度,TTRL 能夠讓模型在推理時針對性地 " 刷題 ",動态擴展能力邊界。
通過 LADDER,一個原本隻有 1% 準确率的 Llama 3.2 3B 模型,在沒有任何人工标注數據的情況下,解題準确率飙升至 82%。

更強大的基礎模型 Qwen2.5 7B Deepseek-R1 Distilled,在用上 LADDER 方法後,
MIT Integration Bee 比賽的成績就從 50% 提高到 73%。

最後,LADDER 加上 TTRL 方法,讓最終成績達到 90。

不過作者也強調,與 o1 的對比不是嚴格的頭對頭評估。
o1 無法訪問數字檢查器,這意味着它在不同的約束下運行。LADDER 的結果強調了通過遞歸問題分解和強化學習進行自我提升的有效性,而不是表明它直接優于 o1 的方法。
論文地址:https://arxiv.org/abs/2503.00735
參考鏈接:
[ 1 ] https://x.com/yoshiyama_akira/status/1897662722679959583