時隔一個月,通義千問又放大招了!
在一個月前的阿裏雲栖大會上,阿裏正式發布通義千問 2.0 版本,在複雜指令理解、文學創作、通用數學、知識記憶、幻覺抵禦等能力上,都有較大提升。并且,阿裏雲還發布了包括編程、AI 閱讀、音視頻轉錄、AI 角色生成等八大産品模型。
當時,阿裏雲就已經預告,接下來還要再發更大規模的開源模型。
12 月 1 日,三款新模型如約而至——包括Qwen-72B、Qwen-1.8B 和 Qwen-Audio 大模型,通義千問大模型也升級到了 2.1 版本。
最受矚目的首先是 Qwen-72B,參數達到 720 億,基于 3T tokens 的高質量數據訓練。阿裏雲表示,Qwen-72B 在 10 個權威基準測評中奪得開源模型最優成績,在部分測評中超越閉源的 GPT-3.5 和 GPT-4。
△來源:阿裏雲
具體來說,在英語任務上,Qwen-72B 在 MMLU 基準測試取得開源模型最高分;中文任務上,Qwen-72B 在 C-Eval、CMMLU、GaokaoBench 等基準得分超越 GPT-4。
而在數學推理方面,Qwen-72B 在 GSM8K、MATH 測評中也領先其他開源模型;代碼理解方面,Qwen-72B 在 HumanEval、MBPP 等測評中的表現大幅提升,代碼能力也有質的飛躍。
△ 72B 模型做數學題
在複雜語義理解上,72B 的能力也提高了不少,比如,現在就能夠聽懂中文裏的 " 潛台詞 " 了:
△ 72B 模型理解 " 職場之道 "
當前,國内外大模型都分爲閉源和開源兩大路線。對标國外—— OpenAI 已走閉源路線,開源模型的代表則是 Meta 旗下的 Llama。Meta 在今年 7 月發布了 Llama 2,分别有 7B(70 億參數)、13B(130 億參數)和 70B(700 億參數)三個尺寸。
阿裏雲 Qwen-72B 的推出,也意味着國内市場又多了一個對标 Llama 2-70B 的頭部開源模型。當前,通義千問的大語言模型家族已經實現全尺寸開源——包括 18 億、70 億、140 億、720 億 7 個參數。
不同規模和尺寸的模型,意味着應用場景可以拓寬更多。比如,高達 720 億參數的 Qwen-70B 推出後,大中型企業就可以基于此可開發商業應用,高校、科研院所可利用 AI 來輔助科研工作——這些工作都需要複雜的運算,也依賴于模型能力邊界的不斷拓展。
阿裏雲在會上也請了不少開發者、企業介紹已有的模型實踐。比如華東理工大學的 X-D Lab,及基于基于開源的通義千問開源模型開發了心理健康大模型 MindChat(漫談)、醫療健康大模型 Sunsimiao(孫思邈)、教育 / 考試大模型 GradChat(錦鯉)等,并爲下遊客戶開發基于行業大模型的産品。
目前,已經有已有超過 20 萬人次用過上述的大模型,X-D Lab 已經累計提供了超過 100 萬次的問答服務。
" 當我們用同樣的方法,把同樣規模的數據應用到各個開源模型,Qwen 的效果比其他模型好得多。" 華東理工大學 · X-DLab(心動實驗室)成員顔鑫表示,團隊隻用 20 萬 tokens 的數據微調了 Qwen 基座模型,就獲得了比另一家用百萬級數據微調的模型更好的效果。
阿裏雲還發布了一款參數量更小的大模型—— Qwen-1.8B。這是一款專爲端側設計的模型,推理 2K 長度文本内容僅需 3G 顯存,可跑在消費級終端上——比如手機、電腦等。
如今算力緊缺,大模型的訓練和推理成本都居高不下,超大規模參數的大模型隻能在雲上部署。爲了能讓大模型可以跑在更多終端上,近期包括大模型、手機、電腦等廠商都在探索更小尺寸規模的模型。
最直接的效果就是,1.8B 體量的大模型,就能離線在手機、電腦等終端上運行。阿裏雲 CTO 周靖人在會後專訪中表示,對文檔、圖像等輕度處理的工作,1.8B 體量的模型已經完全能夠勝任。
另外,阿裏雲也首次開源了音頻理解大模型 Qwen-Audio,這是在多模态領域的一次探索。
Qwen-Audio 能夠感知和理解人聲、自然聲、動物聲、音樂聲等各類語音信号。用戶可以輸入一段音頻,要求模型給出對音頻的理解,甚至基于音頻進行文學創作、邏輯推理、故事續寫等等。音頻理解能夠賦予大模型接近人類的聽覺能力。
簡單來說,現在通義千問不僅能 " 看 ",也能 " 聽 " 了,而且更加耳聰目明。此前 8 月,通義千問就開源了視覺理解大模型 Qwen-VL,這次發布中也有不少提升:通用 OCR、視覺推理、中文文本理解基礎能力都有升級,還能處理各種分辨率和規格的圖像,還能 " 看圖做題 "。
△通義千問開源大模型家族
可以說,本次發布模型,對應着三個定位:72B 意在對标頂尖開源模型;1.8B 則是消費側落地的探索;而 Qwen-Audio 則是多模态的新探索——這是未來的重要方向。
當前,阿裏雲的大模型社區 " 魔搭 " 已經有超過 150 萬的模型下載量。用戶可在魔搭社區直接體驗 Qwen 系列模型效果,也可通過阿裏雲靈積平台調用模型 API,用阿裏雲百煉平台、阿裏雲人工智能平台 PAI 也可以輔助用戶定制大模型應用和深度适配,阿裏雲也配有輕量級微調、全參數微調、分布式訓練、離線推理驗證、在線服務等多種功能。