逐步开源高性能KVCache多级缓存Mooncake Store的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。
其中传输引擎Transfer Engine现在已经在GitHub全球开源。
通过与清华大学MADSys实验室紧密合作,我们共同打造了分离式大模型推理架构Mooncake,实现推理资源的极致优化。
Mooncake不仅提升了Kimi的用户体验,降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。
我们相信,通过与产学研机构开源合作,可以推动整个行业向更高效的推理平台方向发展。
该系统基于以KVCache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐。
在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡
目前这套系统承载了Kimi线上80%以上的流量。
AISoft、阿里云、华为存储、面壁智能、趋境科技等。
欢迎更多企业和研究机构加入Mooncake项目共建,共同探索更加高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品,持续惠及更广泛人群。
通信人家园 (https://www.txrjy.com/) | Powered by C114 |