查看: 759|回复: 3

只需7.6% token，性能还更强，华人团队提全新「草稿链」CoD，成本延迟大降 [复制链接]

ttxx

军衔等级：

上尉

注册：2010-4-28 点赞数

10

电梯直达

1^# 大中小

发表于 2025-3-14 09:14:48 |只看该作者 |倒序浏览

LLM推理中的延迟问题常被忽视，而实时应用对此要求严苛。来自Zoom的华人团队提出草稿链（CoD）技术，仅用7.6%的token，就能在保持准确率的同时，大幅降低推理成本和延迟。

当下，企业正处于部署AI的关键节点。

随着AI系统在企业运营中的深度融合，计算成本与响应时间成为阻碍AI广泛应用的主要瓶颈。

来自Zoom的华人研究团队取得了一项突破性成果，他们开发的「草稿链」（Chain of Draft，CoD）技术，有望从根本上改变企业大规模部署AI的模式。

通过减少冗长表述并聚焦关键要点，草稿链（CoD）在准确率上与思维链（CoT）相当甚至更优，使用的token量仅为7.6%，显著降低了推理任务的成本和延迟。

目前，该项目已在GitHub上开源。

论文链接：https://arxiv.org/abs/2502.18600

项目链接：https://github.com/sileix/chain-of-draft

AI研究员Prabhakar表示，「对于一家每月处理100万次推理查询的企业而言，采用草稿链技术，每月成本可从（使用思维链时的）3800美元降至760美元，每月节省超过3000美元。」

草稿链对于企业的吸引力，更在于其简便的实现方式。

与需要投入大量成本进行模型重新训练或架构调整的技术不同，已在使用CoT的企业，仅需对现有模型的提示进行简单修改，就能顺利切换至CoD。

在实时客户支持、移动AI、教育以及金融服务等对延迟极为敏感的应用场景中，CoD技术的价值尤为明显。

在这些场景下，即使是极短暂的延迟，也可能对用户体验造成严重影响。

Prabhakar总结道，「随着AI模型的不断演进，优化推理效率与提升原始能力同样重要。」

OpenAI o1和DeepSeek R1等推理模型在复杂任务处理上取得了显著进展，思维链（CoT）技术功不可没。

CoT模仿人类的结构化推理，将问题分解为逐步探索的过程。

然而，CoT往往产生冗长的中间推理步骤，导致高延迟和更高的计算成本。

草稿链：灵感源于人类认知

CoD的灵感来源于人类解决复杂问题的方式。

在解数学题或逻辑谜题时，人们通常不会详细阐述每一个细节，而是用缩写形式只记录关键信息。

受此启发，研究人员提出了草稿链（CoD）这一全新的提示策略。

CoD不要求模型生成冗长的中间步骤，而是让LLM在每一步生成简洁、信息密集的输出。

这种方法限制每个推理步骤最多五个词，使模型专注于最关键的信息。

研究团队在众多基准测试中验证了CoD的性能，包括算术推理（GSM8k）、常识推理（日期理解和体育知识理解）以及符号推理（抛硬币任务）。

其中，Claude 3.5 Sonnet在处理体育相关问题时，CoD将平均输出从189.4个token减少到仅14.3个token，降幅达92.4%！同时准确率从93.2%提高到了97.3%。

CoD在显著减少token的情况下，大幅降低了延迟和计算成本，实现了与CoT相当的准确率。

为了说明标准提示、CoT和CoD的区别，考虑以下简单的算术问题：

「Jason有20个棒棒糖，他分给Denny一些，现在有12个棒棒糖，他给了Denny多少？」

标准提示方法生成的回答通常直接输出答案，而没有任何推理过程。虽然结果正确，却缺乏推理过程的透明度。

CoT提供了详细的推理步骤。虽然回答准确且可解释，但包含了许多与解决数学问题无关的描述性细节，增加了token数量和响应延迟。

CoD仅聚焦于得出解决方案所必需的基本数学运算，将无关的上下文细节统统去除。

这种方式在确保透明度和答案正确性的同时，显著减少了所需的token数量，使得推理过程更加简洁高效。

实验结果

实验中比较了三种不同的提示策略：标准提示、思维链（CoT）和草稿链（CoD）。

标准提示策略使用常规的少样本提示，模型直接返回最终答案，没有任何推理或解释。

CoT策略遵循论文中提供的少样本示例，让模型逐步进行详细推理。

而CoD策略则要求模型在思考时逐步推理，但每个推理步骤限制在最多五个词，从而实现简洁高效的推理过程。

实验采用了两个主流模型：OpenAI GPT-4o和Anthropic Claude 3.5 Sonnet，确保研究结果具有广泛的代表性。

实验结果清晰地表明，CoD在保持高准确率的同时，大幅降低了token使用量和延迟。在各类推理任务中，CoD与CoT相比展现出显著的效率优势。

算术推理

在算术推理任务中，研究人员选择了GSM8k数据集，该数据集包含8500个小学水平的数学问题，每个问题都配有详细的逐步解决方案。

CoD展现出显著的效率提升，实验结果见下表。

对于GPT-4o和Claude 3.5，CoD都达到了91%的准确率，而每个响应仅需约40个token，相比CoT减少了约80%。

这也降低了平均延迟，GPT-4o降低了76.2%，Claude 3.5降低了48.4%。

常识推理

在常识推理方面，研究人员评估了BIG - bench中的日期理解和体育理解任务。

CoD不仅通过生成显著更少的响应token，显著降低了延迟和成本，而且准确率优于CoT。

在日期理解任务中，使用CoD的Claude 3.5 Sonnet模型达到了89.7%的准确率，超过了CoT的87.0%，延迟从3.2s降低到1.4s。

体育理解任务中，CoD将Claude 3.5 Sonnet的平均输出token从189.4减少到14.3，减少了92.4%！同时准确率从93.2%提升至97.3%。

符号推理

在符号推理任务中，研究人员按照原始思维链论文的设计合成了一个包含250个示例的抛硬币测试集。

在标准提示下，GPT-4o和Claude 3.5 Sonnet的准确率分别为73.2%和85.2%。使用CoT和CoD时，两个模型的准确率均达到了100%。

与CoT相比，GPT-4o的token减少了68%，Claude 3.5 Sonnet减少了86%。

这些实验结果表明，CoD不仅能保持高准确性，还能大幅提高推理效率。

CoT在需要高透明度、可解释性强的场合表现出色，如复杂决策支持。CoD则在对效率和响应速度有高要求的场景中更具优势，如实时应用、大规模AI部署、资源受限环境等。

CoD让先进的推理技术变得更加亲民、易用，有助于推动其在更广泛场景中的普及。

参考资料：

https://arxiv.org/abs/2502.18600

https://venturebeat.com/ai/less-is-more-how-chain-of-draft-could-cut-ai-costs-by-90-while-improving-performance/

来源：36kr

本主题由版主或管理员于 2025-3-14 09:16 审核通过

0 举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-4-16 23:07 , Processed in 0.214616 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册