IT 之家 4 月 27 日消息,阿裏巴巴日前宣布,開源 Qwen1.5 系列首個千億參數模型 Qwen1.5-110B,該模型在基礎能力評估中與 Meta-Llama3-70B 相媲美,在 Chat 評估中表現出色,包括 MT-Bench 和 AlpacaEval 2.0。
IT 之家彙總主要内容:
據介紹,Qwen1.5-110B 與其他 Qwen1.5 模型相似,采用了相同的 Transformer 解碼器架構。它包含了分組查詢注意力(GQA),在模型推理時更加高效。該模型支持 32K tokens 的上下文長度,同時它仍然是多語言的,支持英、中、法、西、德、俄、日、韓、越、阿等多種語言。
阿裏 Qwen1.5-110B 模型與最近的 SOTA 語言模型 Meta-Llama3-70B 以及 Mixtral-8x22B 進行了比較,結果如下:
上述結果顯示,新的 110B 模型在基礎能力方面至少與 Llama-3-70B 模型相媲美。在這個模型中,阿裏巴巴沒有對預訓練的方法進行大幅改變,因此他們認爲與 72B 相比的性能提升主要來自于增加模型規模。
阿裏還在 MT-Bench 和 AlpacaEval 2.0 上進行了 Chat 評估,結果如下:
阿裏巴巴表示,與之前發布的 72B 模型相比,在兩個 Chat 模型的基準評估中,110B 表現顯著更好。評估結果的持續改善表明,即使在沒有大幅改變後訓練方法的情況下,更強大、更大規模的基礎語言模型也可以帶來更好的 Chat 模型。
最後,阿裏方面表示,Qwen1.5-110B 是 Qwen1.5 系列中規模最大的模型,也是該系列中首個擁有超過 1000 億參數的模型。它在與最近發布的 SOTA 模型 Llama-3-70B 的性能上表現出色,并且明顯優于 72B 模型。