我们在语言模型中没有发现任何形式推理的东西……它们的行为更适合用复杂的模式匹配来解释……事实上,这种模式匹配非常脆弱,改个名称就可能改变结果约 10%!
这个例子来自 GSM-NoOp 数据集:我们在问题中添加了一些看似相关但实则与推理和结论都无关的陈述。然而,大多数模型都未能忽视这些陈述,而是盲目地将它们转换成了实际的运算,最终导致错误。
这篇由苹果研究科学家( 其中包括前 DeepMind 员工)发表的“论文”被其他持强烈怀疑态度的人转发 , 这篇论文就做了一件事:制定了另一个大模型目前并不擅长的任意基准。就是这样,它没有做任何其他事情。
那么他们是这样报告结果的吗?当然不是。他们从一个大问题开始:LLM 真的能推理吗?人们可能会认为,在一篇表面上是由受过学术机构训练的有思想的成年人撰写的论文中提出这样的问题,作者可能会继续说他们所说的“真正的推理”是什么意思。
但人们想错了。相反,他们什么也没说,然后立即开始定义他们用来欺骗聊天机器人的任意系统。他们再也没有触及“推理”的概念。事实上,这篇论文甚至没有引用任何其他文献来阐明“真正的逻辑推理”或“真正的数学推理”的含义,尽管这些术语在开头几句中模糊地被提到过。
当然,直到结论部分,在经过几页艰苦的计算后,我们才被告知,我们刚刚见证的是对大语言模型“推理能力”的调查。
抱歉,一篇论文如何证明一个它没有理解、没有提及、甚至没有定义的概念?难道我们要想象,在这个聊天机器人“陷阱”里,藏着对自我反思能力的测试?
老实说,尽管我态度讽刺、充满敌意,但他们制定的新标准还是相当不错的。然而,包装实在令人不快和反感,如此可预测的平庸,甚至没有丝毫迹象表明其有任何意愿去探究他们假装要回答的实际问题,以至于我无法享受它。
以这样的 LLM 模型为基础,你根本无法构建可靠的代理,改变一两个无关紧要的单词或添加一些无关紧要的信息就会产生不一样的答案。
这些例子基于 Mystery Blocksworld 数据集。Fast Downward 是一个领域无关的规划器,它能近乎实时地处理所有给定的实例,并保证准确无误。我们测试的两个 LRM(o1-preview 和 o1-mini),其效果令人惊讶,但性能还不稳定,会随着长度的增加而迅速下降。
通信人家园 (https://www.txrjy.com/) | Powered by C114 |