場景描述
圖片系 AI 生成
在線服務資源使用量随着終端用戶的使用習慣呈現出穩定的潮汐現象,夜間 CPU 利用率極低,導緻集群均值 CPU 利用率較低;業務保有大量的獨占資源池,資源池割裂産生大量的資源碎片,拉低 CPU 利用率;業務爲了穩定性考慮,會過量囤積資源,進一步拉低 CPU 利用率。
解決方案
點擊報名參與創新場景 50 的評選
在阿裏雲的協助下,小紅書混部技術經曆了四個階段演進:閑置資源再利用、整機騰挪分時複用、常态混部、統一調度。
一,通過技術手段将集群中的閑置資源收集起來,分配給轉碼類業務場景使用;
二,通過彈性能力 ( HPA ) ,在淩晨業務低峰期按比例對在線業務縮容,騰挪空出整機,并将轉碼、訓練等離線 pod 在該時段運行起來,起到利用率 " 填谷 " 的效果;
三,平台持續推進業務大規模合池,将業務由獨占池遷至平台托管的公共混部池,通過合池、資源超賣等技術手段,CPU 分配率得到有效提升,同時通過建設更爲細粒度的資源管理與調度能力來實現均值利用率提升的目标;
四,混合雲架構的統一調度來管理異構計算資源,并支持各類業務形态的工作負載調度能力。
成效
通過大規模容器混部的持續推進,小紅書在資源成本效能上有顯著改善。
在 CPU 利用率方面,在線混部集群天均 CPU 利用率提升至 45% 以上,部分集群天均 CPU 利用率可穩定提升至 55%。在線集群 CPU 利用率提升 8%-15% 不等,部分存儲集群利用率提升可達 20% 以上。在資源成本方面,爲小紅書各類離線場景提供數百萬核時的低成本算力。混部集群 CPU 分配率提升至 125% 以上,相較于獨占資源池,資源碎片率明顯下降。
「關于創新場景 50」
場景不是案例,它更加精準、也更加抽象。數字化就是創新場景的不斷疊加和叠代。
在此背景下,钛媒體重磅推出「創新場景 50」評選,每年遴選并解讀 50 個全行業與業務深度融合的創新性場景及其解決方案,并在钛媒體年度ITValue Summit 數字價值年會上隆重頒獎、深度交流。
目前場景正在征集中,更精準的解讀、更廣泛的曝光、更強大的品牌勢能,歡迎你提出問題,更歡迎你留下解決的方法和工具。點擊這裏投遞更多場景信息
點擊進入2024 ITValue Summit 數字價值年會,了解更多信息。