隻要不到 10 行代碼,就能讓大模型數學能力(GSM8k)提升 20%!
幾名獨立學者提出了大模型采樣的改進方案,引起了開源社區的關注。
目前該方法已在 Mistral-7B 上取得成效,在 Llama3-70B 上的測試也正在進行。
這種方法叫做最小 p 采樣(min-p sampling),目的是平衡生成文本的連貫性和多樣性。
簡單說就是讓模型在不同場合發揮不同的特性,例如在事實問題上保持性能穩定,在寫作等場景中又能發揮創意。
目前該方法已在 Mistral-7B 上取得成效,在 Llama-70B 上的測試也即将進行。
在論文中作者提到,該方法已經獲得了開源社區的廣泛應用。
同時作者還透露,Anthropic 和谷歌等閉源模型廠商也已經或正在針對 min-p 進行測試。
消息也得到了谷歌方面的确認,從 OpenAI 跳槽到谷歌的開發者社區負責人Logan Kilpatrick已經回複說 "On it"(在做了)。
微軟 Copilot 的研究人員Abram Jackson看了後表示,這是他看到的首個有關推理過程 token 采樣的改進,未來還有很大進步空間。
值得一提的是,這項受到廣泛關注的研究,主要作者 Minh Nhat Nguyen 根本沒系統學過 CS,而是靠自學成才。
在一家名爲 Apart Research 的 AI 安全研究機構幫助下,Minh 和團隊其他成員一起完成了該項目。
動态調整抽樣阈值
min-p 是一種動态截斷抽樣方法,其核心是根據每一步 token 分布的最大概率,來縮放最小概率阈值。
這樣做的目的,主要在于平衡生成文本的連貫性和多樣性,特别是在 temperature 較高的條件下。
具體來說,min-p 引入了一個基礎概率阈值p_base,表示進入采樣池的最低概率要求。
在每一步生成 token 時,min-p 會将 p_base 與當前概率分布中最大的 token 概率 p_max 相乘,得到一個縮放後的絕對阈值p_scaled。
隻有概率大于等于 p_scaled 的 token,才能夠進入采樣池。
當模型對某個 token 的預測概率非常高(即 p_max 很大)時,p_scaled 的值也會很高,導緻采樣池大幅縮小,絕大多數低概率 token 被過濾,隻留下少數高把握的選擇,确保了輸出的連貫性;
而當模型對所有 token 的預測概率都比較接近(p_max 較低)時,p_scaled 的值也會相應變低,放寬了對采樣池的要求,納入更多中等概率的 token,給予模型更多發揮空間,生成更加多樣化的内容。
在确定采樣池後,min-p 會根據 temperature 對 token 概率分布進行縮放。
它将 token 的對數概率除以一個溫度參數 τ,并進行歸一化後,就得到了 temperature 縮放後的概率分布。
大于 1 的 τ 值會使概率分布更加平緩,增加低概率 token 被選中的機會;
τ 小于 1 時則會使分布更加尖銳,強化高概率 token 的優勢。
最後,min-p 從縮放後的采樣池中,按照調整後的概率分布,随機抽取下一個 token。
穩定性和創意," 我全都要 "
min-p 方法的效果究竟如何呢?作者使用了Mistral-7B作爲基礎模型進行了測試,我們來分場景看一下結果。
在推理任務中,作者采用了 GPQA 數據集。當 temperature 爲 1 時,可以看到 min-p 相比于過去的 top-p 顯現出了微小的優勢。
随着 temperature 增加,GPQA 得分整體上呈現出了下降趨勢,但可以觀察到 min-p 的下降明顯比 top-p 更慢。
直到 temperature 達到 3 時 min-p 的下降趨勢才變得明顯,此時 top-p 的得分已接近 0。
也就是說,相比于 top-p,min-p在推理任務中更好地保持了所需要的穩定性。
同樣需要保持穩定性能的還有數學類任務,這裏作者使用了 GSM8K 數據集進行了測試。
結果 min-p 所對應的分數随 temperature 的下降比在 GPQA 中更快,但仍然緩于 top-p 方式。
第三類任務是創意寫作,這時對穩定性的要求就不是那麽高了,而是需要模型發揮更多的創意。
這項測試使用 AlpacaEval 數據集完成,實驗數據是從開源社區的一名獨立評估者那裏獲得的。
實驗結果顯示,在 temperature=1.5、min-p=0.1 的設置下,min-p 的性能尤其突出,可生成 top-p 方法難以生成的創意寫作内容。
在該參數下,min-p 方法得到的文本獲得了 58.12% 的人類評判優選率,遠高于其他方法在類似設置下的表現。
論文地址:
https://arxiv.org/abs/2407.01082
GitHub:
https://github.com/menhguin/minp_paper/
參考鏈接:
https://x.com/menhguin/status/1826132708508213629