2024 年 12 月 26 日,國内一支成立僅一年多的 AI 團隊推出了名爲 DeepSeek V3 的模型,它在 14.8 萬億高質量 token 上進行預訓練,還通過監督微調和強化學習進一步提升性能。
相較于其五個月前發布的版本,此次采用了多頭潛在注意力 ( MLA ) 和 MoE 架構,引入無輔助損失的負載均衡策略和多 token 預測訓練目标,實現了高效推理和低成本訓練。
僅僅一個月後,該團隊又發布了新模型 DeepSeek R1,它僅用相當于 OpenAI o1 三十分之一的成本卻達到了比肩其性能,并且以開源形式公開思維鏈,這一下子讓 DeepSeek 火爆全球。
DeepSeek 的變革力量
就好像平靜的水面突然被投入了一塊石頭,DeepSeek R1 的出現打破了基座大模型市場原本向頭部 AI 玩家聚集的格局。在它發布後,整個市場競争和創新的速度就像被按下了加速鍵。OpenAI 宣布未來幾個月要推出免費版的 GPT - 5;阿裏推出了 Qwen 2.5 - Max,谷歌也發布了 Gemini 2.0 系列模型。那些頭部的 AI 玩家爲了保持領先優勢,紛紛加大技術投入,像 Meta 創始人紮克伯格預計 2025 年在 AI 領域至少投入 600 - 650 億美元,而谷歌的 AI 投資也會從 525 億美元增加到 750 億美元。
從國内四大雲廠商和三大運營商積極接入 DeepSeek,到 B 端市場衆多企業的加快接入,我們能看到一幅熱鬧的場景。據數據顯示,自 DeepSeek R1 發布後,短短 20 天内,國内外就已有 160 多家企業接入,華爲、榮耀、OPPO、vivo 等手機廠商也紛紛在手機助手中上線 DeepSeek 智能體,這表明 DeepSeek 推動了更多大模型應用在各個行業中湧現,加速了應用創新的腳步。
DeepSeek 在用戶數量上的增長就像火箭升空一樣迅速。2 月 1 日,它的日活躍用戶數突破 3000 萬大關,刷新全球最快達成 3000 萬日活用戶的榜單。到了 2 月 8 日,全球日活用戶總量達到 1.19 億,讓它成爲大模型在消費市場普及的又一關鍵轉折點,加速了大模型在普通消費者中的廣泛應用。
而這一系列變革的背後,是 DeepSeek 通過在模型結構、計算通信、後訓練和推理等方面進行極緻的工程優化,提高了算力利用率,使得模型訓練效率提升了 2~3 倍,推理效率提升了 5~7 倍,而且整體訓練成本降低 60% 的同時,模型性能還提升了 20%。
昇騰—— DeepSeek 的最優夥伴
其實在 2024 年,昇騰團隊就在研究并行解碼技術,這和 DeepSeek V3/R1 的多頭潛在注意力機制正好契合。在 Deepseek - V3 上線開源後,昇騰、矽基流動與 DeepSeek 團隊多次交流探讨聯合創新。
随後,昇騰成爲業界首個适配完成 DeepSeek 核心算法,支持 DeepSeek 全系模型預訓練及微調的國内 AI 訓練平台,也是唯一一個從預訓練到微調全流程适配的平台。
目前已有 80 多家企業基于昇騰快速适配并上線了 DeepSeek 系列模型,還有 20 多家正在适配測試,預計未來兩周全部完成上線,國内約 70% 的企業選擇基于昇騰快速上線 DeepSeek。
昇騰聯合夥伴 / 客戶,推出形态豐富的産品和解決方案(如:一體機、雲服務、硬件 + 開源社區等)幫助企業快速部署,已覆蓋互聯網、金融、運營商、政務、教育等多個行業。其中,昇騰 DS 一體機超大系統吞吐,超高多用戶并發,30+ 軟硬件夥伴選擇昇騰推出一體機方案。
在訓練方面,昇騰超節點可以完美支持 DeepSeek 全系模型的預訓練和微調。它支持 DualPipe、跨節點 All2All 等 DeepSeek 核心優化技術,其超大帶寬通信域與 DeepSeek 的流水線并行算法及冗餘專家等能力非常匹配,對于 DeepSeek R1 這種強化學習 RL 模型來說,昇騰超節點是絕佳的解決方案。
推理上,DeepSeek 小專家創新架構在帶來便利的同時,也會産生通信耗時和專家負載不均等挑戰,但昇騰平台通過并行推理優化技術和專家負載均衡能力,讓 DeepSeek 模型推理吞吐性能提升 30% 以上。它采用僞 EP 混合并行算法使通信優化性能提升 30% 以上,運用稀疏路由稠密化算法讓訪存性能提升 20% 以上,把專家不均衡度降低,讓推理吞吐性能提高了 20%~35%。
昇騰是一個開放的 AI 基礎軟硬件平台,有一套完備的全棧産品體系,包括 Atlas 系列硬件、異構計算架構 CANN、全場景 AI 框架昇思 MindSpore、昇騰應用使能以及一站式開發平台 ModelArts 等。到 2024 年 12 月 31 日,昇騰已經有超過 60 家硬件合作夥伴、330 多萬開發者、2500 多家行業合作夥伴,一起孵化了 150 多個昇騰原生硬件産品和超過 5800 個解決方案。
而且,已有 30 多家軟硬件夥伴基于昇騰推出 DeepSeek 一體機方案,昇騰一體機是支持 DeepSeek 系列模型快速上線和支撐客戶生産系統的 " 最優選擇 "。同時,昇騰還在助力 20 多個省、25 個城市的公共算力服務平台部署 DeepSeek 系列模型,讓全國超 70% 的區域能獲得本地支持。
ChatGPT 曾是大模型從技術研發走向産業應用的轉折點,而如今 DeepSeek 則成爲了第二個重要的拐點。
在 2025 年,我們将見證大模型技術競争更加白熱化,并且會有更多精彩的大模型應用在産業和消費市場不斷湧現,而昇騰也将憑借與 DeepSeek 的完美結合,在這場人工智能的浪潮中發揮重要作用。