我对这个新的前沿数学基准测试感到惊讶,因为大语言模型在其中仅能解决2%的问题。引入这个基准测试的原因是大语言模型在现有数学基准测试中表现得越来越出色。有趣的问题在于,尽管从许多评估来看,大语言模型在数学和编程等领域已经逐渐接近顶级专家的水平,但你还是不会选择它们来完成对人类本身来讲最容易的工作。它们可以解决复杂的封闭问题,只要你在提示词中恰当地呈现问题描述,但它们在自主且连贯地解决长问题序列方面却很艰难,而这对人类来说是非常容易的。 这就是Moravec悖论的隐性体现,他在30多年前观察到,人类认为简单或困难的事情,对于计算机来说可能却恰恰相反。例如,人类对计算机下棋感到非常惊讶,但下棋对计算机来说却很简单,因为这是一个封闭的、确定性的系统,具有离散的动作空间、完全可观测性等等。反过来,人类可以系鞋带或折叠衬衫,并不觉得这有什么了不起,但这实际上是一个极其复杂的传感运动任务,对硬件和软件的最先进技术也还是一个挑战。这就像OpenAI前段时间发布的魔方项目,大多数人关注的是解魔方本身(这很简单),却不是让机器人用手去扭合一面魔方这种其实极其困难的任务。 所以我非常喜欢这个FrontierMath基准测试,我们应该多做一些这样的测试。但我也认为这是一个有趣的挑战,我们如何为所有那些「简单」但实际上很难的事情创建评估。非常长的上下文窗口、连贯性、自主性、常识、有效的多模态输入输出……我们如何构建好的「简单工作」评估?这些是你期望团队中任何入门级实习生都能完成的事情。
通信人家园 (https://www.txrjy.com/) | Powered by C114 |