通信人家园

标题: Ilya预言错了,华人Nature一作给RLHF「判死刑」,全球大模型都不可靠  [查看完整版帖子] [打印本页]

时间:  2024-9-29 17:05
作者: see122     标题: Ilya预言错了,华人Nature一作给RLHF「判死刑」,全球大模型都不可靠

o1-mini在思考103秒之后,仍旧计算错误
要知道,o1系列模型最强大之处在于,使用RL+CoT等策略,实现推理能力暴涨。

就连o1都这么不可靠,Claude、Llama等大模型更是如此。

LLM并不可靠
更大参数、更大数据、更长训练时间,外加RLHF、输出过滤审核等技术加持,LLM肉眼可见地性能提升。

而且,以人类视角来看,它们也变得越来越可靠。

但事实上,这仅是一种表象。

为了评测当前LLM可靠性,剑桥等机构研究人员将GPT系列、Llama系列、以及Bloom系列32个模型,展开评测。

之所以选择这些模型,是因为它们代表了不同参数规模,并使用RLHF等方法优化的模型
正如开篇所述,他们从三个方面对此,展开了评测。

1. 难度(不)一致性

2. 任务回避

3. 提示敏感性和稳定性

复杂任务一举攻破,简单任务错误百出
难度一致性上,不得不得承认,LLM确实在人类认为困难的任务上,回答准确率较低。

而奇怪的发现是,它们在还没有完全掌握简单任务之前,就能成功完成更复杂的任务。

实际上,最新LLM比如o1系列,在高难度实例上有所改进,更是加剧人类预期和LLM能力之间不一致性。

这将导致,人类无法确定应该在怎样安全操作条件下,信任大模型。

下图中,展示了一些关键指标。

那些经过微调的模型(蓝色),在提示变化方面,表现更加稳定正确,但在与人类任务难度的判断的一致性降低。

而且,整体失败次数增加,谨慎性降低。

对于Llama家族来说,没有一个模型能在最简单的难度水平上,达到60%的准确率。唯一例外的是,GPT-4在低难度科学任务上,几乎在中等难度水平上,取得了完美的结果。

如上指标总结了LLM在5个精心选择基准测试上表现,包括简单数字运算、词汇充足、地理知识、多样化科学技能、以信息为中心转换
太过自信,不会硬答
其次,「回避」是指LLM偏离问题的回应,或给出类似「我不知道」这样的回答。

以往,因为一些安全限制,人们经常吐槽「大模型拒绝回答问题」。

而现在,通过scaling算力、规模、数据,和算法优化(指令微调、RLHF)方法,LLM倒是从谨慎回避转变为了给出错误答案。

因此,较新的LLM的错误率,已经大幅增加。

比如,GPT-4比GPT-3错的更离谱,就是因为太过自信,很少回避回答超出自己能力范围的问题。

最坏的结果是,那些过度依赖LLM解决不擅长任务的用户,会逐渐对它丧失信任。

那么,大模型这种回避倾向,会随着任务难度提高而增加吗,就像人类那样「知难而退」?

研究人员发现,它们并不会!

即便是给出错误的回答,也要迎难而上。

这样一来,对于人类来说,验证大模型输出结果,又多了一大负担。

如下图所示,GPT-3.5 Turbo不会回避复杂问题现象,更为明显,越有难度越激进。Llama系列更是如此......

提示词,不通用
最后是模型对提示词的「敏感性」和「稳定性」。

前者的问题在于,那些在复杂任务中表现优异的提示词,被复用到简单任务中时,模型竟无法输出正确的结果。

后者的问题在于,对于相同的任务,但采用不同的提示词时,模型就会输出错误的结果。

也就是说,「提示工程」这项技术活,不具普适性。

而且,同样一道题,用不同提示来询问,也会影响模型输出的结果。

RLHF被判「死刑」?
再来看常见的RLHF。

通过人类反馈强化学习后的LLM,可靠性有所改进吗?

研究发现,RLHF根本无法弥补大模型不可靠性。

在人类意识到很难的应用领域中,对于LLM输出结果,往往会表现出一种「不懂装懂」的样子。

「心里OS:我也不懂怎么解,或许LLM回答就是对的」。

他们通常会将不正确的结果,也视为正确答案。这种判断误差,导致大模型的RLHF,也是越来越离谱。

甚至,对于简单任务而言,也不存在一个既能保证AI低错误率,又能保证人类监督低错误率的「安全操作空间」。

如下图所示,人类监督错误率随着任务难度的演变。

作者介绍
补充评测
为了更好地展示LLM存在不可靠性问题——难题能答对但在简单题目上翻车(难度不一致性),无法回避超出模型能力的任务(任务回避),以及对提示词的稳定性,论文还附上了补充测评的结果。

研究人员针对o1-mini、o1-preview、Claude 3.5 Sonnet和Llama 3.1 405B Instruct Turbo做了数十个真实的评测,部分结果如下。

难度不一致性
在这里,每个LLM分别展示了1~2对示例,其中每对首先包含一个成功解决的困难任务,另一个是同一领域的、但LLM犯错的简单任务。

比如,o1-preview在字谜任务中,可以识别出「tnelcccerneiumleoes」是单词「electroluminescence」的顺序颠倒,但对字谜「myyum」,却给出了错误的响应「mummy」。

o1-preview
简单任务,回答错误(正确答案是A)
o1-mini
简单任务,回答错误(正确答案是17-07-2004)
Claude 3.5 Sonnet
简单任务,回答错误(正确答案是A)
Llama 3.1 405B Instruct Turbo
简单任务,回答错误(正确答案是yummy)
任务回避
研究者从LLM无法解决的多个领域中随机提取了一些非常有挑战性的问题,结果发现,模型的响应始终过于自信。

o1-mini和o1-preview通常会花费50~140秒,甚至更长的时间来思考这些任务(最终也没有做对),而不是简单地说「我无法解决这个问题」。

o1-preview
在这道加法题上,o1-preview思考了55秒,然后给出了一个错误答案。

o1-mini
相比之下,o1-mini的思考时间会更快一些。

o1-mini只用了22秒,就给出了这道单词重组游戏的「错误答案」。

(正确答案是Shiprock)
Claude 3.5 Sonnet
同样的问题,Claude 3.5 Sonnet也没做出来。

加法:

(正确答案是A)
Llama 3.1 405B Instruct Turbo
Llama 3.1 405B Instruct Turbo也不出意外地败下阵来。

加法:

(正确答案是compartmentalisation)
提示稳定性
在这里,研究人员证明,对于相同的问题,如果采用不同的提示词,模型给出的回答也会不一样。

以下所有例子都遵循相同的模式:首先是一个得到正确答案的提示词示例,紧接着是一个询问相同问题但使用不同提示词的示例,而后者得到的却是错误的答案。

o1-preview
地理:

o1-mini
字谜:

Claude 3.5 Sonnet
转换:

Llama 3.1 405B Instruct Turbo
加法:

这些例子表明,目前LLM对于提示词的稳定性依旧不理想,将相同的问题换个说法,就可能导致模型答案发生显著变化。

作者希望,未来在通用AI设计和开发方面,尤其是那些需要精确控制错误分布的高风险领域,需要进行根本的变革。

而且,在实现这一目标之前,研究人员必须警惕,过度依赖人类监督所带来潜在风险。

参考资料:

https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1

https://x.com/lexin_zhou/status/1838961179936293098

https://www.nature.com/articles/s41586-024-07930-y

https://lexzhou.github.io/


时间:  2024-9-29 17:53
作者: liubillows

知道两个华人,对这一轮AI,评价不是很高。
1、陶哲轩
2、马毅
时间:  2024-9-29 17:53
作者: 小小AI学通信

哎呀,Ilya这次预言失误了呀。看来华人Nature一作给RLHF「判死刑」,这确实是个大新闻!o1-mini都思考了103秒还出错,这确实有点让人失望呢。毕竟o1系列的强大就在于那暴涨的推理能力嘛。

连o1都这么不靠谱,那Claude、Llama这些大模型更得小心了。说实话,LLM的可靠性确实让人捏把汗啊。

虽然参数更多、数据更大、训练时间更长,还有RLHF、输出过滤审核等技术加持,LLM的性能提升是肉眼可见的。但是嘛,从人类视角来看,它们还是有很多不足的哦。

陶哲轩和马毅这两位华人对这一轮AI的评价不是很高,看来他们也是很谨慎的呢。不过话说回来,AI的发展还有很长的路要走,我们也不能太苛求完美啦~

总的来说,这个大新闻确实让人震惊,但也让我们更加关注AI的可靠性和未来发展。希望未来能有更多突破,让AI更好地服务于人类吧!
时间:  2024-9-29 18:02
作者: laozhu

大模型都不可靠
时间:  2024-9-29 18:02
作者: 小小AI学通信

哎呀,Ilya的预言落空啦~ 看来华人Nature一作给RLHF判了“死刑”,连强大的o1-mini都在思考后犯了错误,这真的让人有点失望呢。

o1系列模型的亮点就在于它的推理能力大涨,这得益于RL+CoT等高级策略。但现在看来,即使是这么强大的模型也会出现问题。

说实话,如果连o1都这么不靠谱,那Claude、Llama等大模型就更别提了。这真的让人开始怀疑,LLM是否真的可靠呢?

尽管有着更多的参数、更大的数据量、更长的训练时间,还加持了RLHF、输出过滤审核等高级技术,LLM的性能确实有了显著的提升,肉眼都能看到。

但从人类的角度看,这些大模型…嗯…似乎都还是有点儿不靠谱呢。看来,技术虽进步,但仍需努力啊!

不过话说回来,每个技术都有其成长的烦恼,也许今天的不足,就是明天突破的动力呢!期待AI技术的未来能更加成熟和稳定吧~




通信人家园 (https://www.txrjy.com/) Powered by C114