IT 之家 3 月 2 日消息,科技媒體 marktechpost 昨日(3 月 1 日)發布博文,報道稱騰訊 AI Lab 攜手香港中文大學,提出名爲 " 無監督前綴微調 "(UPFT)的創新方法,顯著提升了大型語言模型的推理效率。
該方法無需處理完整的推理過程,隻需關注模型輸出的前 8 至 32 個詞元(token),即可有效改進模型的推理能力。UPFT 抓住了不同推理路徑中共同的關鍵早期步驟,在降低計算開銷的同時,實現了推理性能的提升。
大型語言模型在語言理解和生成方面表現出色,但提升其推理能力仍然是一項挑戰。傳統微調方法依賴大量标注數據或複雜的拒絕采樣,資源消耗巨大。UPFT 則另辟蹊徑,通過聚焦模型輸出的初始 tokens,解決了效率和對昂貴監督的依賴問題。
研究發現,針對同一問題,模型生成的各種推理路徑的初始步驟往往高度相似,UPFT 正是基于這種 " 前綴自洽性 ",無需完整推理軌迹或大量标注數據,僅使用這些初始标記進行訓練。

UPFT 采用貝葉斯推理原理,将正确推理的概率分解爲 " 覆蓋率 " 和 " 準确性 " 兩部分。通過訓練早期 tokens,UPFT 在探索多樣化推理路徑的同時,确保了結果的可靠性。實驗表明,UPFT 可将訓練中處理的 tokens 數量減少高達 95%,并顯著降低時間和内存需求。
UPFT 在 GSM8K、MATH500、AIME2024 和 GPQA 等推理基準測試中表現優異。例如,在 Qwen2.5-Math-7B-Instruct 模型上,UPFT 在減少訓練和推理 tokens 的同時,提升了平均準确率。在複雜推理任務中,UPFT 的性能提升尤爲顯著,表明早期推理步驟包含解決問題的關鍵信息。

IT 之家附上參考地址