通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  中尉

注册:2007-10-2910
跳转到指定楼层
1#
发表于 2025-3-8 19:45:51 |只看该作者 |倒序浏览




新智元报道

编辑:桃子 好困

【新智元导读】32B小模型在超硬核「时间线索」推理谜题中,一举击败了o1、o3-mini、DeepSeek-R1,核心秘密武器便是GRPO,最关键的是训练成本暴降100倍。

用上DeepSeek核心算法,也能击败R1。

在具有挑战性的「时间线索」(Temporal Clue)逻辑谜题中,基于强化学习微调后的Qwen 2.5 32B,推理能力完全碾压o1、o3-mini、R1。

甚至,它还追平了Claude 3.7 Sonnet,整个模型推理成本暴降100多倍!




「时间线索」逻辑谜题脱胎于经典桌游Clue,并加入了when、why的两个全新维度,堪称逻辑推理的「珠穆朗玛峰」。

它不仅能考验模型基本推理能力,更爆料顶级大模型软肋。

对此,前谷歌工程师,初创OpenPipe联创Kyle Corbitt和团队将其作为模型的「终极试炼场」,提出了一个大胆的假设——

小模型在复杂推理任务中,能否逆袭,达到或超越顶尖LLM?

他们选用开源的Qwen模型(14B和32B),通过GRPO强化学习,对其进行了魔鬼式训练。

如前所见,这些小模型的推理性能,得到了显著提升。

但震撼远不止于此,团队还发现了一些奇怪的现象:Qwen 14B的推理长度随时间「随机」增加,而Qwen 32B的推理长度却在减少。

而且,这一切竟发生在奖励机制完全不涉及长度的情况下。




传统观念认为,只有参数量足够大的LLM,才能称霸推理任务。

但这个最新证明,即便是14B/32B小而精的模型,用上巧妙的优化策略——GRPO,同样能站上巅峰。

网友评论区追问,QWQ 32B也有效吗?

Kyle肯定道,那是一定的,它与Qwen 2.5 32B采用了同一个架构。




AI推理新战场:时间线索

去年,OpenAI推出划时代o系列推理模型以来,在AI界掀起了一场强化学习(RL)的狂潮。

谷歌DeepMind、阿里、DeepSeek、Anthropic等巨头纷纷入局,打造出进行长链式思维(CoT)推理的高级模型。

许多以往具有挑战性的基准测试——如数学和编码领域——如今已接近饱和。

然而,即便是如今最顶尖模型,面对逻辑推理这块硬骨头,也常常会犯低级错误。

为此,OpenPipe两位联创决定挑战这个未解之谜——用RL微调后的小模型,去挑战复杂推理题。

基准测试

为此,研究人员基于桌游Clue,打造了一个新基准——时间线索,将其转化为一个单人逻辑谜题,超越了传统维度(who、what、where)。

这些谜题通过OR-Tools 的 CP-SAT 求解器随机生成,并挑选出最精简,却致命的线索:

在一个寒冷的冬夜,富有且神秘的John Q. Boddy先生为几位亲密伙伴举办了一场小型但奢华的晚宴。然而,夜晚以悲剧收场——清晨,Boddy先生被发现死在都铎庄园的某个房间内。以下为涉案嫌疑人名单…

把子有了之后,研究人员先对顶尖大模型进行了测试,包括DeepSeek-R1、o1、o3-mini,以及Claude Sonnet 3.7,以及开源的Qwen 14B和32B。

结果如下图所示,有64k token思考预算的Claude Sonnet 3.7,表现最优。

开源DeepSeek-R1几乎与o1、o3-mini性能相当。然而,未经调优的Qwen 2.5 Instruct模型表现平平。




那么,如何将这些较小的开源模型训练到前沿水平?

小模型逆袭秘诀:GRPO

答案就是,强化学习——允许智能体在受控环境中从自身经验中学习。

这里,LLM是智能体,而谜题则是环境。

研究人员通过让LLM为每个谜题生成多个响应来引导它们的学习,探索问题的空间。并且,强化那些导向正确答案的推理,并对导致模型偏离正确路径的推理进行惩罚。

在多种RL方法中,他们选择了由DeepSeek开发的流行的GRPO算法。与传统的PPO等方法相比,GRPO简化了训练过程,同时仍能提供强大的性能。

为了加速实验,团队省略了Kullback-Leibler(KL)散度惩罚。

从高层次来看,模型的训练循环遵循以下基本步骤:

<ol>
  • 生成模型对谜题任务的响应
  • 对响应进行评分,并估计每组对话完成的优势(这是GRPO中「分组相对比较」的部分)
  • 使用由这些优势估计指导的裁剪策略梯度对模型进行微调
  • 使用新的谜题和最新版本的模型重复这些步骤,直到达到峰值性能

    </ol>在生成响应时,研究人员使用了流行的vLLM推理引擎,通过调整了参数选择,以最大化吞吐量并最小化启动时间。

    Prefix caching尤为重要,因为作者为每个任务采样了许多响应,缓存提示有助于避免冗余计算。

    他们观察到,向vLLM发送过多请求,会导致正在进行中的请求被抢占或交换。

    为了解决这个问题,他们使用信号量(semaphore)限制请求,以保持高KV缓存利用率,同时最小化交换。

    更高级的调度机制可能会在支持灵活生成长度的同时,进一步提高利用率。

    在采样后,研究人员使用标准的HuggingFace Transformers AutoTokenizer处理完成内容。

    其聊天模板功能将消息对象渲染为提示字符串,并包含一个助手掩码(assistant mask),用于确定LLM生成的token。

    他们发现模型的默认模板中,缺少必要的「% generation %」标签 ,因此在分词步骤中对其进行了修改。

    生成的助手掩码被包含在用于微调的张量字典中,以识别哪些位置需要计算损失。

    在分词响应并获取助手掩码后,研究人员对数据进行打包以进行微调。除了在每个打包序列中包含多个提示/响应对外,我们还识别了共享的提示token,并为每个token分配了一个Parent ID,以及Group ID。

    特别是对于像「时间线索」这样的任务——每个谜题平均超过1,000个token——为每个任务生成大量响应并高效打包张量显著减少了冗余。

    一旦打包了所有必要信息,便可以将训练数据集可视化为2D形式,每一行都是一个token序列,可能包含多个提示和完成内容:




    有了紧密打包的数据后,就可以开始微调了。

    Qwen模型已经经过了预训练和指令微调,具备相当的智能水平,并且擅长遵循指令。

    然而,它们还无法可靠地解决「时间线索」谜题。尽管如此,它们偶尔也能成功,而这已经足够了。

    通过增加良好推理的概率并减少「不良」推理的概率,研究人员逐步将模型引导至「侦探大师」级的水平。

    他们使用标准的机器学习技术实现了这一点,采用策略梯度方法计算损失并有益地调整权重。

    在训练过程中,他们使用了PyTorch团队提供的torchtune库。Torchtune为包括Llama、Gemma、Phi等流行模型提供了高效的仅解码器(decoder-only)Transformer实现。

    虽然在这个项目中,他们主要使用了Qwen模型,但也对8B和70B的Llama模型进行了实验。

    Torchtune还提供了节省内存和提升性能的工具,包括:

    • 激活检查点(Activation Checkpointing)
    • 激活卸载(Activation Offloading)
    • 量化(Quantization)
    • 参数高效微调(PEFT),例如低秩适应(LoRA)

    此外,Torchtune支持多设备(以及现在的多节点)训练,使其非常适合更大的模型。它支持全分片数据并行(FSDP)和张量并行(TP)训练,并且可以结合使用。

    他们还提供了十几种训练recipes,鼓励用户复制并根据自己的用例进行定制。研究人员在此创建了一个修改版的完整微调配方,支持以下功能:

    • 多设备和单设备训练
    • 参考模型加载和权重交换,用于计算KL散度
    • 使用组ID和父ID进行高级因果掩码计算
    • GRPO损失集成和组件日志记录

    未来,他们希望添加张量并行支持,并探索PEFT和量化。

    RL训练过程涉及选择大量的超参数。在训练模型时,研究人员测试了各种配置,并最终确定了以下设置:

    • 模型:Qwen 2.5 Instruct 14B和32B
    • 每次迭代的任务数:32
    • 每次迭代每个任务的样本数:50
    • 每次迭代的总样本数:32*50=1600
    • 学习率:6e-6
    • Micro-Batch大小:14B模型为4个序列,32B模型为8个序列
    • 批大小:可变,取决于序列数量

    批大小是可变的,因为在训练过程中响应长度可能会变化,序列打包效率每次迭代都会波动,并且优势为零的响应会被丢弃。

    在一次实验中,研究人员尝试了动态调整学习率,使其与批大小成反比,但这导致小批大小的学习率过高,需要设置上限。

    设置上限后的版本与使用恒定学习率没有显著差异,但调整批大小和学习率仍然是未来实验的一个有趣方向。

    此外,研究人员还进行了简短的实验,增加每次迭代的任务数同时减少每个任务的样本数,反之亦然,保持每次迭代的总样本数大致相同。

    在较短的训练时间内,这些变化没有显示出显著差异,表明配方对任务数和每个任务的样本数之间的不同平衡具有鲁棒性。

    100次迭代,实现SOTA

    结果显示,模型在经历超过100次迭代训练后,实现了SOTA级的演绎推理能力。

    从下图中可以看到,模型的性能在训练初期迅速提升,并在之后逐渐放缓;然而到了末期,准确率却开始出现退化,甚至急剧下降。

    在最佳状态下,14B模型在16k tokens的上下文窗口下接近Claude Sonnet 3.7的性能,而32B模型在更大的64k上下文容量下几乎匹配了Sonnet的结果。




    训练过程中,性能提升遵循幂律分布,在对数-对数坐标图上呈现线性关系(在性能开始下降之前)。

    研究人员推测,之所以出现这种现象,有可能是因为模型过早地收敛于初期就有效的贪婪策略,从而限制了长期的发展潜力。




    此外,还可以观察到,输出的长度在训练期间也呈现出了一种有趣的变化模式。

    刚开始的时候响应长度会逐步增加,然后趋于稳定;而在训练后期,则出现了明显的分化现象——14B模型的响应变得更长,而32B模型的响应长度显著减少,特别是在达到峰值性能后。




    为了定性评估逻辑推理能力的提升,团队决定使用最新的Claude Sonnet 3.7来对Qwen 32B模型的解谜推理能力进行分析。

    • 在未经训练的基础模型中,Sonnet识别出了6个推理结论,其中5个被判定为错误
    • 在经过100多次迭代训练后的模型中,Sonnet识别出了7个推理结论,其中6个被判定为符合逻辑




    接下来,团队根据Fireworks AI的无服务器定价方案估算了Qwen模型的成本。(假设能获得足够的计算吞吐量)

    通过将准确率与每个响应平均推理成本的自然对数进行对比,团队发现,没有经过微调的模型存在着明显的线性帕累托最优前沿(表示在这条曲线上,无法同时提高准确率和降低成本)。

    而团队提出的方法,不仅将开源模型训练到了SOTA级的准确率,而且还极大地改善了成本与准确率之间的权衡关系。




    值得一提的是,团队还在最后为大家留了一个特别令人兴奋的发现——仅使用16个训练样例就能实现高达10-15%的显著性能提升。

    这意味着,不需要大量数据即可开始,开发者只需对自己想解决的问题有一些基本的直觉认识即可。

    在文章的最后,团队写道:

    随着工作的圆满完成,我们彼此相视一笑,随即叫了一辆双轮马车返回贝克街——这里正是复盘「案情」的绝佳场所。

    参考资料:

    https://x.com/corbtt/status/1897735437340627405 https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue


    来源:网易

  • 举报本楼

    您需要登录后才可以回帖 登录 | 注册 |

    版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

    GMT+8, 2025-3-10 02:30 , Processed in 0.240112 second(s), 16 queries , Gzip On.

    Copyright © 1999-2023 C114 All Rights Reserved

    Discuz Licensed

    回顶部