在 OpenAI 發布具有突破性推理能力的模型後,人工智能的推理能力競賽已然打響,阿裏、幻方相繼發布重磅新品,不僅性能比肩 o1 模型而且是開源!
周四,阿裏通義千問推出 QwQ-32B-Preview 開源模型,包含 325 億個參數,能夠處理最長 32000 個 tokens 的提示詞。在 AIME 和 MATH 基準測試中,表現優于 OpenAI 推理模型 o1-preview 和 o1-mini。
QwQ 是少數能與 o1 匹敵的模型之一,其在數學和編程領域,尤其在需要深度推理的複雜問題上表現出色,而且它可以用于商業應用。
上周,量化巨頭幻方 DeepSeek-R1-Lite 模型,Preview 版在難度較高數學和代碼任務上超越 o1-preview,大幅領先 GPT-4o 等。在 AIME 測試基準中,随着計算時間增加,其得分穩步提升。
值得一提的是,官方還表示,目前模型仍在開發階段,經持續叠代,正式版 DeepSeek-R1 模型将完全開源。
阿裏、幻方模型嶄露頭角,預示着業内推理 AI 正在興起,這可能爲小型 AI 開發商提供趕超機會,打破目前由少數幾家科技巨頭主導的局面。
于今年第二季度開始研究推理模型的初創公司 Fireworks,其聯合創始人兼首席執行官 Lin Qiao 表示:
整個開源社區……将會以超快的速度推出推理模型。
此外,科技巨頭們也加大了推理模型研發力度,谷歌已将其推理模型團隊規模從 o1-preview 發布前的幾十人擴大到 200 人左右,谷歌還爲該團隊提供了更多算力資源。
後進者更具成本優勢,思維鏈成大模型關鍵
後進者在構建大模型方面更具成本優勢。
後進者在開發 OpenAI 替代品時,似乎受益于斯坦福大學、谷歌、Meta Platforms 和 OpenAI 自身研究人員近年來發布的關于推理的論文。推理模型的開發成本低于傳統的 LLMs,如 GPT-4o,傳統模型需要花費數億美元在計算資源和訓練數據上,并需要合法獲取這些數據。
新模型可以幫助 OpenAI 及其競争對手開發能夠完成困難項目的編碼助手。例如,微軟和 Salesforce 等企業軟件公司可以利用它們來改進代表客戶采取行動的代理,例如安排預約。
值得一提的是,研究人員可以通過讓其他模型生成解決問題的思維過程,然後将這些過程用于訓練 LLM,從而将推理能力融入現有的 LLMs 中。
一些研究人員還免費向其他開發人員開放了以推理爲重點的數據集。例如,阿裏巴巴表示,它使用了 Open o1 其中一個研究小組的數據來構建推理模型。
人工智能初創公司 Anyscale 和 Databricks 的聯合創始人 Ion Stoica 表示:
在開發推理模型方面,OpenAI 的競争對手并沒有明顯的劣勢。