低于1TB 支持100并發！聯想AI服務器首次實現本地部署DeepSeek滿血大模型性能突破

近日，聯想集團宣布基于聯想問天 WA7780 G3 服務器，在行業内首次實現單機部署 DeepSeek-R1/V3 671B 大模型，以低于行業公認 1TGB 顯存（實際 768GB）承載 100 并發用戶流暢體驗，可以滿足千人以上企業的使用需求，爲行業樹立了企業級大模型部署新基準。

作爲全球關注的焦點，衆多企業正準備在本地化部署 DeepSeek 大模型。然而，在落地實施過程中用戶普遍面臨以下關鍵決策難題：單機能否部署滿血版 DeepSeek R1？所需最低配置是什麽？如何确保高并發與吞吐量下的優質體驗？如何避免采購陷阱？

聯想此次突破爲企業提供科學選型指南。針對行業公認 1TB 顯存是千億參數大模型運行基線的背景下，聯想研發團隊通過專家并行優化、智能訪存架構升級及 PCIe 5.0 全互聯架構創新，大幅提升了顯存利用率，從而實現了性能的提升。

聯想實測數據顯示，在 512 token 标準測試環境下，該系統可支持 100 個并發用戶持續獲得每秒 10 token 的穩定輸出，首 token 響應時間壓縮至 30 秒内。即便面對 4K 長序列複雜場景，仍能保持 25 個并發用戶同等性能表現。

尤爲值得關注的是，這台服務器僅配置了 8 張 96GB 顯存的 GPU 卡。而 DeepSeek-R1 大模型的模型參數就需占用約 700GB 顯存，僅餘不到 100GB 顯存空間可需用于 KV-Cache 等計算，如果不做專門優化，僅能支持 2、3 個用戶接入。

聯想在萬全異構智算平台的加持下通過精心優化實現了突破，成功達成了用戶最爲關注的三項關鍵指标：首 token 延遲小于 30 秒、單 token 延遲小于 100 毫秒、支持 2K 以上長序列問題處理，同時實現了 20% 以上的成本節約，充分彰顯了聯想在服務器領域的深厚技術積累與創新實力。

聯想問天 WA7780 G3 大模型訓推一體服務器

聯想的這一創新成果揭示了設備選型的新維度，也提醒企業審慎評估各種測試數據，摒棄對總吞吐量和總并發數等指标的片面追求，而應從用戶體驗出發，關注這些指标背後的隐藏信息，如數據精度等。實際上，如果将數據精度從 FP8 轉爲 int8 或 int4（即量化），雖能明顯改善性能表現（如更高并發量和高吞吐量），但會犧牲結果的準确性，顯然這不是用戶所期望的。

需要特别指出的是，高吞吐量和高并發量也并不等同于用戶體驗好。若服務器 GPU 卡配置不高，局部通信瓶頸可能引發響應延遲使體驗降級，這正是聯想着力解決的難點之一。

毫無疑問，聯想技術突破将有效破除大模型落地瓶頸，顯著加速大模型在企業的落地進程。未來，聯想基礎設施業務群與聯想研究院先進計算實驗室将繼續攜手合作，依托聯想萬全異構智算平台對 DeepSeek 平台從 AI 預訓練、後訓練到推理的全流程進行持續優化，爲客戶奉獻出性能更佳、性價比更高的産品和解決方案，以加速 DeepSeek 大模型的落地，推動新一輪生産力革命。