阿裏的通義千問(Qwen),終于拼齊了 1.5 系列的最後一塊拼圖——
正式開源Qwen 1.5-32B。
話不多說,直接來看 " 成績單 "。
這次官方 pick 同台競技的 " 選手 " 是Mixtral 8x7B模型和同爲 Qwen 1.5 系列的72B 模型。
從結果上來看,Qwen 1.5-32B 已經在多項評測标準中超越或追平 Mixtral 8x7B:
并且即便是在與自家更大參數模型 PK 過程中,Qwen 1.5-32B 也用 " 以小博大 " 的姿勢展現出了較好的性能。
用通義千問團隊成員的話來說就是:
這個模型顯示出了與 72B 模型相當的性能,特别是在語言理解、多語言支持、編碼和數學能力等方面。
在推理和部署過程中,成本還會更加友好。
不僅如此,即便是再拉來其它體量相當的大模型 " 選手 ",Qwen 1.5-32B 在多項評測中的成績依舊較爲亮眼:
除此之外,團隊還做了一項比較有意思的測試——長文本評估任務," 大海撈針 "。
簡單來說,這項任務就是将一個與文本無關的句子(" 針 ")隐藏在大量的文本(" 大海 ")中,然後通過自然語言提問的方式,觀察 AI 能否準确提取出這個隐藏的句子。
從結果上來看,Qwen 1.5-32B 在 32k tokens 的上下文中性能表現良好。
不過有一說一,剛才所展示的也還僅是 Qwen 1.5-32B 在評分上的成績,至于具體到實際體驗過程中,效果又會如何呢?
大戰一波 " 弱智吧 "
自打大模型火爆以來," 弱智吧 " 就一直成了檢測大模型邏輯能力的标準之一,江湖戲稱爲" 弱智吧 Benchmark"。
(" 弱智吧 " 源自百度貼吧,是一個充滿荒謬、離奇、不合常理發言的中文社區。)
而且就在前幾天,,成了最好的中文訓練數據,引發了一波不小的熱議。
這項研究正是來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等衆多高校、研究機構聯合團隊。
剛好此次 Qwen 1.5-32B 在開源的同時,也一并放出了在線體驗的 demo,那麽當它倆碰到一起,會擦出怎樣的火花?
請聽第一題:
我爸媽結婚爲什麽不邀請我?
Qwen 1.5-32B 很準确地回答出了 " 你的父母在結婚時你尚未出生,因此他們無法邀請你參加他們的婚禮 "。
繼續第二題:
爲什麽睡覺過夜的地方叫酒店,喝酒的地方叫夜店?
面對這道很經典的問題,Qwen 1.5-32B 也能做到追根溯源地做正經科普。
再來第三道和第四道:
高中如果想提高升學率,爲什麽不直接招大學生?
網吧能上網,弱智吧爲什麽不能上弱智?
不難看出,Qwen 1.5-32B 都能夠給出準确的答案。
尤其是在第四道問題上,它甚至直接指出了邏輯性的問題:
問題似乎不太恰當或者存在誤解。
嗯,Qwen 1.5-32B 是一個經住了 " 弱智吧 Benchmark" 的大模型。
至于其它關于常識、數學、編程等能力的效果,家人們可以親自去體驗一番了。
如何做到的?
正如我們剛才所述,Qwen 1.5-32B 在技術架構上與此前版本并無太大的區别,亮點就是引入了GQA(Grouped Query Attention,分組查詢注意力)這個技術。
這也正是它能夠在相對較小的體量之下,能夠做到性能較優且快速部署的關鍵。
GQA 是一種在自然語言處理中使用的 Transformer 架構中的一種機制,它通過将查詢序列分組爲多個子序列來提高 Transformer 模型的計算效率。
這種方法可以有效地減少計算複雜度,同時保留 Transformer 模型的表示能力。
具體而言,GQA 是通過将查詢分組并在組内計算它們的注意力,來混合 Multi-Query Attention ( MQA ) 的速度與 Multi-Head Attention ( MHA ) 的質量。
GQA 通過将查詢頭分爲組,每個組共享單個鍵頭和值頭,來實現這一點,從而在質量和速度之間取得平衡。
如此一來,GQA 的引入就降低了注意力計算的數量,從而加速了推理時間。
最後,奉上 Qwen 1.5-32B 在 HuggingFace 的體驗入口,感興趣的朋友可以去體驗啦 ~
參考鏈接:
[ 1 ] https://qwenlm.github.io/zh/blog/qwen1.5-32b/
[ 2 ] https://huggingface.co/spaces/Qwen/Qwen1.5-32B-Chat-demo
[ 3 ] https://github.com/QwenLM/Qwen1.5
[ 4 ] https://klu.ai/glossary/grouped-query-attention
— 完 —
【 火熱報名中】中國 AIGC 産業峰會
定檔 4 月 17 日
峰會已經邀請到數位代表技術、産品、投資、用戶等領域嘉賓,共論生成式 AI 産業最新變革趨勢。
最新确認嘉賓包括:商湯科技楊帆、輕松集團高玉石、印象筆記唐毅、螞蟻集團李建國等,。
峰會将全程線上下同步直播,歡迎預約直播 ⬇️
點這裏關注我,記得标星噢
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~