近日,聯想集團宣布基于聯想問天 WA7780 G3 服務器,在行業内首次實現單機部署 DeepSeek-R1/V3 671B 大模型,以低于行業公認 1TGB 顯存(實際 768GB)承載 100 并發用戶流暢體驗,可以滿足千人以上企業的使用需求,爲行業樹立了企業級大模型部署新基準。
作爲全球關注的焦點,衆多企業正準備在本地化部署 DeepSeek 大模型。然而,在落地實施過程中用戶普遍面臨以下關鍵決策難題:單機能否部署滿血版 DeepSeek R1?所需最低配置是什麽?如何确保高并發與吞吐量下的優質體驗?如何避免采購陷阱?
聯想此次突破爲企業提供科學選型指南。針對行業公認 1TB 顯存是千億參數大模型運行基線的背景下,聯想研發團隊通過專家并行優化、智能訪存架構升級及 PCIe 5.0 全互聯架構創新,大幅提升了顯存利用率,從而實現了性能的提升。
聯想實測數據顯示,在 512 token 标準測試環境下,該系統可支持 100 個并發用戶持續獲得每秒 10 token 的穩定輸出,首 token 響應時間壓縮至 30 秒内。即便面對 4K 長序列複雜場景,仍能保持 25 個并發用戶同等性能表現。
尤爲值得關注的是,這台服務器僅配置了 8 張 96GB 顯存的 GPU 卡。而 DeepSeek-R1 大模型的模型參數就需占用約 700GB 顯存,僅餘不到 100GB 顯存空間可需用于 KV-Cache 等計算,如果不做專門優化,僅能支持 2、3 個用戶接入。
聯想在萬全異構智算平台的加持下通過精心優化實現了突破,成功達成了用戶最爲關注的三項關鍵指标:首 token 延遲小于 30 秒、單 token 延遲小于 100 毫秒、支持 2K 以上長序列問題處理,同時實現了 20% 以上的成本節約,充分彰顯了聯想在服務器領域的深厚技術積累與創新實力。

聯想問天 WA7780 G3 大模型訓推一體服務器
聯想的這一創新成果揭示了設備選型的新維度,也提醒企業審慎評估各種測試數據,摒棄對總吞吐量和總并發數等指标的片面追求,而應從用戶體驗出發,關注這些指标背後的隐藏信息,如數據精度等。實際上,如果将數據精度從 FP8 轉爲 int8 或 int4(即量化),雖能明顯改善性能表現(如更高并發量和高吞吐量),但會犧牲結果的準确性,顯然這不是用戶所期望的。
需要特别指出的是,高吞吐量和高并發量也并不等同于用戶體驗好。若服務器 GPU 卡配置不高,局部通信瓶頸可能引發響應延遲使體驗降級,這正是聯想着力解決的難點之一。
毫無疑問,聯想技術突破将有效破除大模型落地瓶頸,顯著加速大模型在企業的落地進程。未來,聯想基礎設施業務群與聯想研究院先進計算實驗室将繼續攜手合作,依托聯想萬全異構智算平台對 DeepSeek 平台從 AI 預訓練、後訓練到推理的全流程進行持續優化,爲客戶奉獻出性能更佳、性價比更高的産品和解決方案,以加速 DeepSeek 大模型的落地,推動新一輪生産力革命。