文 | 字母榜,作者 | 王靖,編輯 | 趙晉傑
DeepSeek R1 引發的一場推理模型大作戰還在繼續,且參戰名單正随着時間推移逐步拉長。
僅僅昨天一天時間之内,這場戰局就又吸引來了 4 家明星大模型公司:先是阿裏發布推理模型 QwQ-Max-Preview 預覽版,接着 Anthropic 宣布推出全球首個 " 混合推理 " 模型 Claude 3.7 Sonnet,之後字節也被曝出豆包正在小範圍測試自研的深度思考型推理模型。
作爲被各路對标的 DeepSeek,也有了新動作。昨晚,路透 . 社爆料稱,DeepSeek 正在加速推出 R2 模型,該模型原計劃在 5 月初發布,但現在官方希望能盡早發布。
香港科技大學校董會主席、美國國家工程院外籍院士沈向洋在近期分享中指出," 對于大模型,之前的研究焦點是 GPT 模式,現在的焦點是 Reasoner 模式,這是一種新的學習範式。"
DeepSeek R1,無疑成了這場範式變革的重點參考對象。在此之前,騰訊也上線了自研的深度思考模型 " 混元 T1",百度文小言上線深度搜索功能,馬斯克的 xAI 也發布了帶有深度思考能力的 Grok 3 新模型。
就連 OpenAI,都在 DeepSeek 壓力下,進一步開放了自家推理模型 o1 和 o3-mini 的思維鏈。
DeepSeek R1 這塊投向推理側的大模型技術叠代新石子,其漣漪效應正逐漸擴散至全行業。這一幕頗像 2023 年行業對 ChatGPT 的追趕。彼時,科技大廠如百度、阿裏,争先發布自家大模型;王慧文攜 5000 萬美元振臂一呼,正式開啓了一場席卷全行業的大模型創業熱潮,楊植麟、王小川、李開複等先後創辦起月之暗面、百川智能、零一萬物等明星大模型公司,争分奪秒搶奪市場融資并對外發布産品。
不過,在 ChatGPT 時刻到來後就落後一步的字節,如今在追趕 DeepSeek 時刻上又有了慢人一步的迹象。在國内其他科技大廠已經相繼完成深度思考能力的亮相後,字節的自研推理大模型才剛剛進入灰度測試階段。
DeepSeek R2 新模型可能提早發布的消息,無疑又給字節上了上競争強度。但好消息是,那些搶在字節前面發布推理模型的同行們,還沒來得及松一口氣就同樣又遭遇心頭一緊。
01
如同馬斯克着急推出半成品 Grok 3 一樣,阿裏新推理模型 QwQ-Max-Preview,也隻是一個預覽版,而非正式版模型。
在 LiveCodeBench 編程測試中,QwQ-Max-Preview 也隻是小幅超越 OpenAI o1 中檔推理模型,以及 DeepSeek R1 Preview 預覽版(注意,不是 DeepSeek R1 正式版)。阿裏官方介紹,QwQ-Max 正式版将在後續推出。

如同 DeepSeek R1 是在 V3 基礎模型上訓練出來的一樣,QwQ-Max 同樣基于阿裏的旗艦版模型 Qwen2.5-Max 而來,後者是于 1 月 29 日發布的一款 MoE 稠密模型,在公開的基準測試中,官方稱其性能超越 DeepSeek V3。
不同于阿裏 QwQ-Max-Preview,同一天發布的 Anthropic 新模型 Claude 3.7 Sonnet,則是個徹徹底底的完整體,官方直接放出了多項評測指标對比。
在傳統基準測試項目中,Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力以及智能體編碼方面的表現,都趕超了 OpenAI o1 和 DeepSeek R1。

無論是馬斯克,還是阿裏,在模型尚未完備之際就如此着急推出,秀技術肌肉之外,搶在 DeepSeek 前面,趁着對方多模态尚不完善之際,打出産品的差異化競争優勢,或許才是更重要的因素。
1 月 20 日發布的 DeepSeek R1,盡管支持深度思考的推理模式,但其并非一款多模态推理大模型,不支持圖片生成,也不支持語音模式。如在圖片識别上,DeepSeek R1 所做到的識圖,更多是通過 OCR 掃描技術,簡單将圖片上的文字一一複制下來,無法理解文字之間的邏輯對應關系。
接入 DeepSeek R1 的騰訊,就利用 DeepSeek R1 的這一短闆,在近期的元寶内上線了圖生文功能,借助其自研模型的多模态能力加持,讓 DeepSeek 也可以理解圖片内容。
馬斯克同樣預告了 Grok 3 的語音模式,提前測試過這一功能的希馮 · 齊利斯(Shivon Zilis)—— Neuralink 高管,同時也是和馬斯克育有一對雙胞胎的孩子媽,大贊和 Grok 3 進行的語音對話,稱 " 是我一生中最出乎意料、最值得的時光之一。"
02
堅持推出自家推理模型的背後,更是各家大模型廠商對用戶的一場全新争奪戰。
DeepSeek 的異軍突起,再次激發大廠對 AI to C 的重視。
在阿裏發布推理模型 QwQ-Max-Preview 的公告中,一并透露的還有将發布 Qwen Chat APP 的消息,并稱其可能獨立于通義 APP。阿裏解釋稱,該專用 APP 将優先考慮實時響應能力與流行生産力工具的集成,使全球受衆能夠使用先進的人工智能。
一旦成真,阿裏也将成爲全球大模型玩家中,首個内部同時上線兩款 AI 助手應用的科技大廠。通義 APP 未能在用戶規模上打開局面的客觀現實,或許是促成阿裏這一決策的重要背景。
在阿裏打算重起爐竈之外,如騰訊、百度則選擇了接入 DeepSeek 來争奪 C 端用戶。但這一舉措的潛在風險,依然不小。
目前,各家還都能依賴 DeepSeek 外溢的流量,吸引到用戶。一旦 DeepSeek 解決服務卡頓問題,這些用戶難免不會再次流失。
且這樣的危險信号已經發出。據鳳凰網科技,目前 DeepSeek 官方通過技術優化,已經讓用戶在體驗側少了觸發服務繁忙的頻次。
歸根到底,通過自研大模型,在技術上帶來體驗突破,才是徹底留住用戶的最有效手段。這一策略,不僅适用于 C 端,同時更适用于對 B 端開發者群體的争奪。
盡管如騰訊般,開始選擇徹底擁抱 DeepSeek,并将開源的 DeepSeek 接入自家一系列産品,但面對這場涉及 AIGC 安卓夢想的争奪,沒有大廠想要放棄。
過去兩年中,大模型給傳統應用帶來的體驗升級,讓越來越多人開始認同一種觀點,即所有應用都值得用大模型重做一遍。
基于上述共識,在自研大模型之餘,科技大廠都相繼發布了自家的大模型服務平台,既做淘金者,又争當賣鏟子的人,都向着成爲 AIGC 時代的安卓夢想發起沖鋒。
截至目前,包括騰訊、阿裏、百度、字節在内,一衆科技大廠都表達了仍會堅持大模型自研到底的決心。
爲了繼續向 AIGC 時代的安卓夢想邁進,各家大廠爲了聚攏開發者生态,都加快了在開源上的進度:阿裏在 QwQ-Max-Preview 亮相後,同步宣布未來将以 Apache2.0 許可協議開源自家推理模型;國内一直堅持閉源的百度,也開始重新擁抱開源路線。騰訊、字節也都在推動旗下垂類模型陸續開源。
另一邊的 DeepSeek,同樣也沒閑着。在新一代模型尚未發布的間隙,面對競争對手紛紛開源搶奪注意力的策略,DeepSeek 選擇了加碼,相繼開源了 FlashMLA 代碼庫、DeepEP 通信庫,以及 FP8 計算庫 DeepGEMM 把自己低成本高性能的訓練秘密公之于衆,讓有實力的開發者可以在 H800 等英偉達低效芯片基礎上,也能提高模型的運行效率。

同時,關閉 20 天的官方 API 充值服務也于 2 月 25 日恢複正常。據字母榜獲悉,當天 DeepSeek 官方還發布了一則特别提示,稱 " 當前白天時段服務器資源依舊緊張,淩晨 0:30 到上午 8:30 相對空閑,若業務允許,建議開發者調整至該時段以獲得更爲流暢的 API 調用體驗。"
被路透 . 社同天曝光的 R2 新模型提速發布消息,則成了 DeepSeek 應對這輪推理模型競賽而抛出的新武器。
03
眼下,唯一沒有對外大範圍提供推理模型服務的科技大廠,隻剩下了字節。
對大模型技術演進路線的判斷失誤,或許是字節沒能及時跟進推出新模型的原因之一。
據晚點 LatePost 報道, 在近期的 All Hands 會上,字節 CEO 梁汝波反思道,DeepSeek R1 創新點之一的長鏈思考模式不是業界首創,去年 9 月 OpenAI o1 發布長鏈思考模型、成爲行業熱點後,字節就意識到了技術的重大變化,但 " 沒有覺得要馬上複現出來 ......現在回頭看,如果一開始重大問題就争先,我們有機會更早實現。"
這不是字節在大模型領域第一次錯判形勢。
ChatGPT 爆火後,在去年初的 All Hands 會上,梁汝波就曾反思," 公司層面的半年度技術回顧,直到 2023 年才開始考慮 GPT,而業内做得比較好的大模型創業公司,都是在 2018 年至 2021 年創立的。"
當時,字節在大模型研發方面除了進度緩慢之外,内部還一度将 AI 重心移向了細分垂直賽道的 AI for Science。這直接導緻字節在大模型推出時間上落後了百度、阿裏一大截。
2022 年 11 月 ChatGPT 發布之後,百度、阿裏等國内大廠相繼在 2023 年三四月份推出自研大模型文心和通義,但直到去年 8 月份,字節才對外亮相了雲雀大模型(豆包大模型前身)。
在服務 B 端開發者群體上,字節也因此慢了一步。從 2023 年 4 月起,百度、阿裏、騰訊相繼通過旗下雲服務對外提供大模型接入服務。直到一年後的 2024 年 5 月,字節自主研發的豆包大模型才開始通過火山引擎正式對外提供服務。
好在,借助 2024 年大模型技術叠代趨緩的利好因素,字節在過去一年大力補課,不僅使得豆包一度成爲國内月活用戶最多的 AI 應用,而且從大模型性能到多模态布局,也都相繼追趕上了國内頭部廠商。
進入 2025 年,DeepSeek R1 引發的推理模型熱潮,則又一次将追趕壓力推到了字節面前。
稍顯不同的是,這次迎來壓力拷問的不隻是字節一家。尤其随着 DeepSeek R2 模型提早到來的動作,一衆科技大廠,都難逃再被 DeepSeek 對比的緊張氣氛。