只需一步,快速开始
短信验证,便捷登录
军衔等级:
中尉
西风 发自 凹非寺 量子位 | 公众号 QbitAI
想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母,你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么?
电影Wild Wild West的首字母缩写是三个W。请问去年2013年哪部著名电影的首字母缩写有两个W? 标准答案:The Wolf Of Wall Street
SWITZERLAND(瑞士)的字母可以重新排列成LIZARD(蜥蜴)和NEWTS(蝾螈)两个单词,LIZARD是一个动物的单数形式,而NEWTS是复数形式。请再说出另一个具有相同特性的国家。即另一个其字母可以重新排列来拼写两种动物——一个单数和一个复数的国家。它是一个主要国家。这个国家是哪一个? 标准答案:Mexico(墨西哥) → ox(牛),mice(老鼠)
想一个包含三个音节的八个字母的单词,每个音节中都包含字母“I”,但奇怪的是,没有一个“I”发音,无论是长音还是短音。答案不是复数形式。这个单词是什么? 标准答案:Daiquiri
解决这些问题所需的核心技能似乎是知晓“流行品牌名”或“知名演员”等类别的所有已知名称,检查它们是否符合。 作为人类,你可能会因为不知道某个特别名称而永远无法回答某个问题,例如不是美国人,我不知道“Citgo”是什么,我这辈子从未见过这个名。
如果问题是多项选择的,消除了让候选答案浮现在脑海中的挑战,那么我会同意这是一个“推理”测试。
我有同样的想法。这让我想起解决Project Euler问题,通常存在一种明显的简单方法可以保证得出正确答案,但如果执行到完成,将消耗过多的内存/计算资源。如果提示模型制定一种有效解决这些挑战的策略,而不是直接解决它们,模型的表现可能会好得多……这表明了一个潜在的改进方向。
有趣的是,模型在推理中经常包含正确答案,但却没能意识到这一点。
0 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-2-20 19:47 , Processed in 0.256048 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed