IT 之家 11 月 28 日消息,月之暗面 Kimi 和清華大學 MADSys 實驗室 2024 年 6 月聯合發布了 Kimi 底層的 Mooncake 推理系統設計方案。該系統基于以 KVCache 爲中心的 PD 分離和以存換算架構,提升了推理吞吐量。
近日,爲了進一步加速該技術框架的應用與推廣,月之暗面 Kimi 和清華大學 MADSys 實驗室聯合 9#AISoft、阿裏雲、華爲存儲、面壁智能、趨境科技等共同發布開源項目 Mooncake,共建以 KVCache 爲中心的大模型推理架構。
11 月 28 日,Mooncake 技術框架已開源上線,IT 之家附地址如下:
據介紹,Mooncake 開源項目從論文延伸,以超大規模 KVCache 緩存池爲中心,通過以存換算的創新理念大幅度減少算力開銷,提升了推理吞吐量。
本次開源将采用分階段的方式,逐步開源高性能 KVCache 多級緩存 Mooncake Store 的實現,同時針對各類推理引擎和底層存儲 / 傳輸資源進行兼容。其中傳輸引擎 Transfer Engine 部分現在已經在 GitHub 全球開源。
Mooncake 開源項目的最終目标是,爲大模型時代打造一種新型高性能内存語義存儲的标準接口,并提供參考實現方案。
Mooncake 推理系統架構圖