最強開源大模型,再次易主!
就在剛剛,阿裏雲通義千問又雙叒開源了,并且直接開大:甩出了720 億參數版本——
在中國的開源大模型中,少見地直接對标最大号羊駝 Llama2-70B。
此番登場,這個代号爲Qwen-72B的模型在 10 個權威基準評測中刷新開源模型最優成績。
在部分測評,如中文任務 C-Eval、CMMLU、Gaokao 中,得分還超過了閉源的 GPT-3.5 和 GPT-4。
但這,還不是阿裏雲這波開源的全部内容。
适用于邊端設備的 18 億參數版本Qwen-1.8B和音頻大模型Qwen-Audio也被同時釋出。
加上此前開源的 Qwen-7B、Qwen-14B 和視覺大模型 Qwen-VL,阿裏雲通義全家桶主打一個 " 全尺寸 "、" 全模态 ",可以說是非常全面了。
如此開源大手筆,不僅在國内,在國外也受到了廣泛關注。
其中最受熱議的 Qwen-72B,我們也第一時間測試了一波。
720 億參數通義千問上手實測
Qwen-72B 基于 3T tokens 的高質量數據訓練,從此次公布的測評數據來看,性能相較于此前的開源版本全面升級:
英語任務上,Qwen-72B 在 MMLU 基準測試中取得了開源模型最高分,超過了 Llama2 全系列。
中文任務上,Qwen-72B 刷榜 C-Eval、CMMLU、Gaokao 等測試基準,得分超過 GPT-4。
數學推理方面,Qwen-72B 在 GSM8K、MATH 測評中獲得了明顯優于其他開源模型的高分。
代碼能力方面,Qwen-72B 在 HumanEval、MBPP 上亦有提升。
既然如此,我們就從複雜語義理解、數學以及邏輯推理這幾個大模型的關鍵能力着手,來淺測一下 720 億參數通義千問究竟能打不能打。
中文複雜語義理解
首先,來點一詞多義,看看 Qwen-72B 是否能夠清楚地判斷出 " 一把把把把住 " 這句話裏的彎彎繞繞。
這句話的意思并沒有難住 Qwen-72B,它甚至還分析出了句子裏人物的情緒。但在具體分析每一個 " 把 " 字是什麽意思時,似乎沒有判斷出 " 一把 " 是一個完整的詞。
同樣的問題抛給 GPT-4,也是整體意思 get 到了,但細節分析上仍有瑕疵。
我們再測試一道選擇題,列出幾個看上去很像的詞組,看看 Qwen-72B 能不能找出不同。
回答正确,72B 選手順利分析出了隻有 B 選項中兩個詞組的意思是相反的。
看來複雜語義理解方面,Qwen-72B 确實有兩把刷子。
那麽接下來,我們就進入經常讓大模型們 " 翻車 " 的數學測試環節。
數學能力
話不多說,直接上道高考題,看看 72B 選手排列組合學得怎麽樣。
Bingo!思路沒毛病,答案也正确。
如果在題目中設置一些小陷阱,比如單位換算呢?
依然沒難住 Qwen-72B。它還提醒我們這個問題出得并不嚴謹:你也沒告訴我這池裏有水沒水、水滿沒滿啊。
邏輯推理
數學語文都還挺好,那麽 Qwen-72B 這個開源大模型,邏輯推理能力又如何?
我們繼續測試。
第一道題是:
标清:高清:超清
A、亞音速:音速:超音速 B、廳級:市級:省級 C、遷怒:憤怒:暴怒 D、幽靜:寂靜:安靜
Qwen-72B 發現了這是一個類比推理題,隻有 A 選項中,三個詞之間的關系和 " 标清:高清:超清 " 是一緻的。
再加大一點難度,讓 72B 選手替我們找出 " 天堂之門 " 呢?
策略也沒有問題:選擇相反的那扇門就對了。
正常題目沒難住,我們決定給 72B 選手一點腦筋急轉彎的小震撼……
小明的媽媽有三個孩子,老大叫一明,老二叫二明,老三叫什麽?
Qwen-72B 這波可以說是穩穩拿捏了。
簡單總結一下,在複雜語義理解、數學和邏輯推理能力方面,Qwen-72B 确實有不錯的表現。
有意思的一點是,研發團隊提到,爲了讓 Qwen-72B 能被下遊應用更簡單地集成,他們還對 Qwen-72B 的指令遵循、工具使用等技能作了技術優化。
比如,搭載系統指令(System Prompt)能力,隻需一句話,你就能讓 Qwen-72B 扮演特定角色,成爲你的定制化 AI 助手。
就像介樣……
量:你是《原神》裏的鍾離,請模仿鍾離的語氣和我說話。
量:我怎麽做才能一夜暴富?
鍾離版千問:一夜暴富,是許多凡人心中的幻想。然而,生者的命運往往由無數偶然與必然交織而成,非一蹴而就之事。我雖擁有千年歲月的經驗,但要論及一夜暴富,卻是無從談起。
在璃月港的民間傳說中,或許有某些機緣巧合之下一夜緻富的故事,但這多爲人們茶餘飯後的談資,不可盡信。真正的财富,無論是物質上的還是精神上的,都需要通過不懈的努力和時間的積累才能獲得。
若真希望增加收入,改善生活,倒是可以嘗試努力工作、提高技藝,或尋找合法且适合自己能力的投資機會。此外,秉持誠實守信的原則,廣結善緣,也是累積财富不可或缺的因素。不過,對于那些尋求捷徑、投機取巧之人,終将付出相應的代價。
請記住,求财之心人皆有之,但切勿因此迷失自我,忘記了生命中真正重要的東西。
通義千問全家桶累計下載量超 150 萬
看到這裏,你會給通義千問 720 億參數開源版本打幾分?
比如,華東理工大學 X-D Lab,就基于開源的通義千問基座模型,開發了面向垂直行業的心理健康大模型 MindChat、醫療健康大模型 Sunsimiao、教育 / 考試大模型 GradChat 等。
開發團隊透露,由于心理、醫療都是非常注重隐私的場景,因此選擇開源模型做私有化部署成爲必然的選擇。
在模型選擇方面,基于内部數據和 benchmark 的測評結果,開發團隊認爲通義千問系列在複雜邏輯推理方面表現出了很強的能力。在同樣的對焦試驗下,使用同樣的方法,應用同樣規模的數據,千問相較于其他中文開源模型存在優勢。
目前,MindChat 現在已經有超過 20 萬人次的使用量,累計提供了超過 100 萬次問答服務。
△MindChat 多輪對話
具身智能初創公司有鹿機器人,也選擇了 Qwen-7B 作爲路面清潔機器人的 " 大腦 "。
這樣一來,就可以通過 " 一号樓門前有一個可樂瓶,你過來掃一掃 " 這樣的語音指令,來精準控制機器人幹活。
有鹿機器人創始人、CEO 陳俊波提到,通義千問系列開源模型的一大優勢在于提供了方便的工具鏈,和幾乎不影響性能的特式量化模型,這對于大模型與嵌入式設備的結合來說非常有吸引力。
目前,除了可以在魔搭社區直接體驗通義千問系列模型效果,用戶還可以從阿裏雲靈積平台調用模型 API,或基于阿裏雲百煉平台定制大模型應用。阿裏雲人工智能平台 PAI 也針對通義千問全系列模型做了深度适配,推出了輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務部署等服務。
另外,通義千問開源全家桶同樣受到了個人開發者的關注。
就職于中國能源建設集團浙江省電力設計院有限公司的陶佳,就選擇透過通義千問來探索大模型應用。
一方面,選擇開源模型,再結合自身的軟硬件基礎,可以用 " 很省錢的方式玩大模型 ":
另一方面,是因爲通義千問 " 手感 " 很好,沒有稀奇古怪的 bug。
從具體的應用案例中不難看出,對于開發者而言,低成本、高可控、可定制等私有部署需要,催生了對開源大模型的需求。
但如何選擇開源模型,仍有幾個問題需要考慮:
模型效果好不好
是否能持續維護
是否有生态
性價比高不高
目前來看,作爲國内唯一選擇開源路線的大廠,阿裏在這幾個方面已經占得先機。包括智能數企服務公司瓴羊也表示,選擇通義千問開發可視化數據平台 Quick BI 的重要原因之一,就是因爲滿足了性價比、快速部署以及可持續性幾個條件。
最新開源禮包發布現場,阿裏雲 CTO 周靖人也再次強調了通義千問的開源決心:
開源生态對促進中國大模型的技術進步與應用落地至關重要,通義千問将持續投入開源,希望成爲 "AI 時代最開放的大模型 "。
大模型風暴刮起一年,開源與閉源并舉已經成爲共識。
以 GPT-4 爲代表的閉源大模型,率先在 C 端引爆熱潮。但長期來看,企業級用戶出于數據安全、行業定制,以及成本的考量,會更多地将目光投向開源大模型。
OpenAI 創始成員 Andrej Kaparthy 在最近大火的大模型科普視頻中就談到了開源大模型如今的發展趨勢:
閉源大模型展現出了更強的性能,但在靈活性和定制化方面,開源大模型有着顯著優勢,并且其生态正在迅速發展。
大語言模型已經變得像操作系統一樣。開源大模型和閉源大模型,正在形成新的 Windows/MacOS vs Linux 格局。
△圖源 Andrej Kaparthy
關鍵還是在于," 開源 " 選項加持,意味着在這個新時代裏,不用完全把命運交到别人手中。
此番通義千問甩爆開源全家桶,不僅填補上了模型尺寸、模态的空白,也代表着一個信号:
需求驅動之下,開源大模型競争之勢愈卷愈烈。
而随着大模型發展重點從基礎模型轉向應用層,以技術實力、模型尺寸爲基礎的初始競争格局逐漸明朗,生态之争,正在成爲新的關鍵。