大模型這麽多,到底該用哪一個?并且生成結果時好時壞,怎麽破。
現在有一種方法,一招整合各家 LLM 特長,性能值拉滿!讓你不做選擇全都拿捏。
現在通過LLM-Blender大模型集成框架,你輸入問題,自動幫你排序各家 LLM 結果,然後 " 融合生成 " 最佳答案。
就像一個水果榨汁機,各個開源 LLM 代表不同水果,一籮筐放進去,根據不同水果特點,調配比例榨出好喝的果汁。
這個方法不僅可以有效減輕單一 LLM 中偏見錯誤和不确定性信息,且輸出結果比 " 單用效果最好的 LLM" 還要高不少。
對此網友驚呼:簡直太贊了!
博采衆長,一個大模型攪拌機
現在開源大模型這麽多,說到性能也是千差萬别。通常我們都會直接選擇最好的模型,來 Prompt 結果。
然鵝,這種方法也有一些限制。比如我們無法考慮所有可能的模型輸出,并且新的數據可能導緻我們選擇不同的最佳結果。
現在的方法,要麽是直接通過打分對比輸出答案,要麽也會對不同 LLM 答案進行融合,但整個過程仍會保留有害、或不正确的信息,輸出結果相應也會大打折扣。
因此,爲了解決這個問題和提高 LLM 的魯棒性、泛化和準确性,Allen AI 實驗室聯合南加大和浙江大學的發表最新研究論文。
論文提出一個用集成框架 "LLM-Blender",集合多個開源大模型(LLM)的優勢,通過排序和融合生成兩種方式,比較不同 LLM 生成結果,然後融合擇優輸出。
LLM-Blender 主要包含兩個模塊 "PairRanker" 和 "GenFuser"。
PairRanker 模塊是一個 BERT 結構的編碼器,通過雙向注意機制捕捉輸出結果之間的細微差異,然後對候選輸出進行排名。
PairRanker 的運行流程是這樣的。
首先,它會收集 N 個模型對每個輸入的輸出,并創建所有可能的輸出對。
然後,使用特殊的編碼器來比較這些輸出對,以确定哪個候選輸出更好,捕捉到微小的差異。
在推理階段,計算一個矩陣,其中包含了所有輸出對的比較結果。再根據矩陣确定給定輸入的所有輸出排名順序。
最後,選擇每個輸入中排名最高的候選輸出作爲最終結果。
GenFuser 模塊則是一個基于 Transformer 的編碼器 - 解碼器結構,使用單個編碼器對輸入文本和一些候選者進行編碼,然後使用單個解碼器解碼融合的輸出。
值得注意的是,它隻将排名靠前的輸出結果放入編碼器,這樣既避免了 " 噪音 " 感染,還能提升輸出結果質量。
總結一下,LLM-Blender 的運轉流程:
PairRanker 比較 N 個 LLM 的輸出,然後通過 GenFuser 将它們融合,從排名前 N 的輸出中生成最佳結果。
按照論文解釋,通過這個運作流程,就能有效篩選并集合生成優質答案。
那麽到底效果如何,下面是團隊的評估過程。
集成 LLM 結果優于單個 LLM
爲了保證可以在大量數據基礎上進行評估,團隊專門引入基準數據集 MixInstruct,用于在指令跟随任務中對 LLM 的集成模型進行基準測試。
團隊對數據集中的 10 萬個樣本進行訓練,5000 個用于驗證,5000 個用于測試。然後,在這 11 萬個示例上測試 11 個當下熱門的開源大模型,比如 Vicuna、OpenAssistant、Alpaca、MPT 等。
根據對多個 LLM 模型在 MixInstruct 數據集上的表現,可以看到不同模型在表現上存在顯著差異,各有優劣。其中,Open Assistant、Vicuna 和 Alpaca 是表現最好三個模型,而 Mosaic MPT、StableLM 和 Flan-T5 排名則較低。
其次,實驗還得出部分優秀的模型表現并不穩定,許多其他模型的表現都優于它們。
例如,Koala 的平均 GPT-Rank 爲 6.76,但大約 40% 的測試結果表明 Koala 産生了更好或同樣優于 Open Assistant 和 Vicuna 的結果。
另外也可以看到,在排名工具這部分,與 BARTScore 和 GPT-Rank 的最佳模型 ( Open Assistant ) 相比,PairRanker 表現出更好的性能。
并且團隊表示,使用從 PairRanker 中選出的前三名,并将其作爲 GenFuser 的候選。在此基礎上,LLM-Blender 展示了預期的卓越性能。尤其是在 GPT-Rank 方面,達到了 3.01,明顯超過了最佳模型 Open Assistant 的(3.90)。
在 BERTScore(79.09)、BARTScore(-3.02)和 BELURT(-0.17)三個排名裏得分也都不錯。
實驗證明,通過将 LLM-Blender 框架進行排名和融合,顯著提高了 LLM 最終輸出結果的質量。
團隊提出 LLM-Blender 一個創新的集成框架,通過排名的方式來減少單個 LLM 的弱點,并通過融合生成來整合優勢,來提高 LLM 的能力,可以說非常新穎。
不過該方法仍有一些可以優化的地方,比如引入更多的語言模型、使用不同的相似度計算方法等。
研究團隊
論文由 Allen AI 實驗室聯合南加大和浙江大學一同發表,三位作者都來自中國,且都與南加大(USC)有關聯。
姜東甫(Dongfu Jiang)是浙江大學計算機工程專業大四學生,即将去加拿大滑鐵盧大學讀 PhD,此前曾在南加大(USC)做過研究實習生,當時的導師正好是另外兩名作者。
任翔(Xiang Ren)是南加大計算機科學系副教授和 INK 實驗室主任,在艾倫人工智能研究所研究機器常識,也是谷歌學者。
林禹臣(Bill Yuchen Lin)是現任艾倫人工智能研究所青年研究員,本科在上海交大讀計算機,PhD 在南加大也是計算機相關專業。
此外,南加大 NK 實驗室、艾倫人工智能研究所的 Mosaic 團隊的學者也參與了這一項目。
論文傳送門:
https://arxiv.org/abs/2306.02561
參考鏈接:
[ 1 ] https://yuchenlin.xyz/LLM-Blender/#bg
[ 2 ] https://twitter.com/billyuchenlin/status/1668666357058277377