11 月 28 日,阿裏雲通義團隊發布全新 AI 推理模型 QwQ-32B-Preview,并同步開源。評測數據顯示,預覽版本的 QwQ,已展現出研究生水平的科學推理能力,在數學和編程方面表現尤爲出色,整體推理水平比肩 OpenAI o1。
QwQ(Qwen with Questions)是通義千問 Qwen 大模型最新推出的實驗性研究模型,也是阿裏雲首個開源的 AI 推理模型。阿裏雲通義千問團隊研究發現,當模型有足夠的時間思考、質疑和反思時,其對數學和編程的理解就會深化。基于此,QwQ 取得了解決複雜問題的突破性進展。
在考察科學問題解決能力的 GPQA 評測集上,QwQ 獲得 65.2% 的準确率,具備研究生水平的科學推理能力;在涵蓋綜合數學主題的 AIME 評測中,QwQ 以 50% 的勝率證明其擁有解決數學問題的豐富技能;在全面考察數學解題能力的 MATH-500 評測中,QwQ 斬獲 90.6% 的高分,一舉超越 o1-preview 和 o1-mini;在評估高難度代碼生成的 LiveCodeBench 評測中,QwQ 答對一半的題,在編程競賽題場景中也有出色表現。
面對複雜問題,QwQ 展現了深度自省的能力,會質疑自身假設,進行深思熟慮的自我對話,并仔細審視其推理過程的每一步。比如,在經典智力題 " 猜牌問題 " 中,QwQ 通過梳理各方對話并推演現實情況,像個擅長思考的人一樣,揣摩 " 這句話有點 tricky",反思 " 等一下,也許我需要更仔細地思考 ",最終分析得出正确答案,讓人驚豔。
目前,QwQ-32B-Preview 已在魔搭社區和 HuggingFace 等平台上開源。發布短短幾小時,引起全球開發者熱情體驗。有開發者認爲該模型 " 是完全沒有預料到的瘋狂的躍進 "、" 今年開源領域最重大的突破 "、" 讓中國在開源大模型和 AI 推理上占據先機 "。通義團隊透露,盡管 QwQ 展現了強大的分析能力,但該模型仍是個供研究的實驗型模型,存在不同語言的混合使用、偶有不恰當偏見、對專業領域問題不了解等局限。随着研究深入模型叠代,這些問題将逐步得到解決。
附:
Modelscope 開源地址:https://modelscope.cn/models/Qwen/QwQ-32B-Preview
Modelscope 創空間體驗:https://modelscope.cn/studios/Qwen/QwQ-32B-preview
HuggingFace 開源地址:https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 體驗:https://huggingface.co/spaces/Qwen/QwQ-32B-preview
雷峰網