LLM推理中的延迟问题常被忽视,而实时应用对此要求严苛。来自Zoom的华人团队提出草稿链(CoD)技术,仅用7.6%的token,就能在保持准确率的同时,大幅降低推理成本和延迟。
论文链接:https://arxiv.org/abs/2502.18600 项目链接:https://github.com/sileix/chain-of-draft