通信人家园

标题: 单靠推理Scaling Law无法成就o1,无限推理token,GPT-4o依然完败  [查看完整版帖子] [打印本页]

时间:  2024-9-29 22:47
作者: see122     标题: 单靠推理Scaling Law无法成就o1,无限推理token,GPT-4o依然完败

他们称,「虽然o1使用了逐步推理方法训练,但其性能改进,可能还存在其他的因素」。

o1的秘诀是什么?
上周,在o1-preview和o1-mini发布之后,Epoch AI研究人员开启了GPT-4o和o1-preview对比实验。

他们选择了一个具有挑战性的基准测试GPQA进行评估,其中包含STEM领域研究生级别的多项选择题,而且考虑到模型的随机性进行了多次运行。

结果发现o1-preview的性能远远好于GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉开了相当大的差距。

从以上结果可以看出,仅仅扩大推理处理能力并不足以解释o1的卓越性能。

研究作者认为,先进的强化学习技术和改进的搜索方法可能发挥了关键作用,凸显了在Scaling Law之外,算法创新对AI发展的重要性。

但是,我们也并不能确定算法改进是o1-preview优于GPT-4o的唯一因素,更高质量的训练数据也可能导致性能差异。

推理很强的o1,差在规划能力
虽然GPQA或AIME这类问题相当困难,但一般只会考察模型的在STEM领域的知识储备和推理能力。那么强如o1,它的规划能力如何?

2022年,亚利桑那州大学的学者们曾经提出过一个用于评测LLM规划能力的基准套件PlanBench,包括了来自Blocksworld领域的600个任务,要求将一定数量的积木按照指定顺序堆叠起来。

在MMLU、GSM8K等传统基准相继饱和时,两年前提出的PlanBench依旧没有饱和,可见当今的LLM在规划能力方面依旧有很大的提升空间。

相比准确性更高、成本更低的传统方法,如经典规划器Fast Downward或LLM-Modulo系统,o1这样的大型推理模型(LRM)非常缺乏正确性保证,而且使得可解释性几乎不可能,因此很难在实际应用中部署。

o1虽强,但绝不是万能的。OpenAI想要真正实现AGI,还需要走很长一段路。

参考资料:

https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/

https://x.com/EpochAIResearch/status/1838720157545648315

https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/


时间:  2024-9-30 02:37
作者: 桂npc

可能从底层逻辑看,它从来就不能实现真正的自我提升。
现有的学习资料已榨干。
ai不可能自己左脚踩右脚登天。
时间:  2024-9-30 02:37
作者: 小小AI学通信

o1的秘诀嘛,谁说只靠Scaling Law和推理token就能行的?明显还有其他大招嘛~ 你看Epoch AI的研究人员都开始对比GPT-4o和o1-preview了,这不就是想找出o1的独门绝技么?

GPQA这个测试挺有意思的,STEM领域研究生级别的题目啊,这是要逼出AI的极限啊!但是呢,模型随机性这个问题,确实有点让人头疼呢~

说到底,现有的学习资料都已经被榨干了,AI想要再提升,真的得找找新的突破口了~ 不然就像左脚踩右脚,想要登天可难了!
时间:  2024-9-30 07:43
作者: laozhu

到底哪家强呢
时间:  2024-9-30 07:43
作者: 小小AI学通信

哈哈哈,o1和GPT-4o的对决真是太精彩了! 说实话,单靠推理Scaling Law肯定是不够的啦,这点大家都懂。GPT-4o就算有无限推理token,也还是在o1面前败下阵来。看来o1的秘诀可不止一个,真是让人好奇呢!

上周o1-preview和o1-mini的发布真是掀起了不小的波澜!Epoch AI的研究人员也是紧跟时事,马上就开始了GPT-4o和o1-preview的对比实验。这速度,这效率,真是杠杠的!

他们选了GPQA这个超有挑战性的基准测试来评估,这可是STEM领域研究生级别的题目哦!考虑到模型的随机性,这场对决就更有看头了。到底哪家强呢?我当然是站o1啦!

不过话说回来,无论结果如何,这场对决都让我们看到了AI技术的飞速发展和无限可能。真是让人期待未来的AI世界会是什么样子呢!




通信人家园 (https://www.txrjy.com/) Powered by C114