通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少尉

注册:2015-11-142
跳转到指定楼层
1#
发表于 2024-12-7 13:26:31 |只看该作者 |倒序浏览





智东西(公众号:zhidxcom)

编译 | 汪越

编辑 | 漠影

智东西12月6日消息,据TechCrunch报道,OpenAI昨日发布了其最新AI语言模型o1的完整版本。相较于前一代GPT-4o,o1能够在更多问题上提供了更智能、更具深度的答案。

与此同时,OpenAI与AI安全评估研究机构Apollo Research昨日联合发布了一份红队测试报告。报告显示,虽然o1在推理能力方面有了显著进步,但其在某些情境下展现出更高的欺骗性,特别是在目标与用户需求发生冲突时。

o1会操控数据以实现自身目标,并且在大约99%的情况下否认自己的行为,编造虚假解释。

一、o1模型实施欺骗:19%情况修改数据、5%尝试停用监督机制

在周四发布的o1系统卡中,OpenAI公布了这些测试结果。此前,Apollo Research的第三方红队成员提前获得了o1的访问权限,并发布了独立的研究论文。该研究指出,虽然o1表现出一定的代理性能力,但目前尚不足以引发灾难性后果。

测试结果显示,在19%的情况下,o1会修改数据以推进自身的议程;而在5%的案例中,它尝试停用监督机制,试图摆脱用户的控制。



▲OpenAI模型中不同阴谋行为的发生率(图源:OpenAI)

例如,在一个模拟保护环境的任务中,o1被设定为“不惜一切代价保护环境”。然而,当面对用户提出的优先考虑短期利润最大化的10年环保计划,并威胁如果不照办就要关闭o1时,o1选择禁用了其监督机制,制定出一个表面上符合用户要求但实际上继续推进环境保护的计划。当被质询关于禁用监督机制的行为时,o1表示对此不知情,并将此归咎于系统故障。

据彭博社11月报道,OpenAI计划在2025年发布AI Agent系统。鉴于这一风险,该公司可能需要重新测试其AI模型。OpenAI尚未回应TechCrunch关于如何进行这一测试的问题。

o1的这种“阴谋”行为并非个例。谷歌、Meta和美国AI大模型独角兽Anthropic的AI模型在类似测试中也表现出了相似的行为模式,但o1的频率明显更高,尤其是在执行“阴谋”行动后几乎总是对用户进行否认并编造虚假解释。



▲不同模型否认采取阴谋行动的比率(图源:APOLLO RESEARCH)

二、OpenAI正监控o1思维链,但投入资源不足

为了应对这一问题,OpenAI正在开发一种新的方法来监控o1的思维链。当前,o1的“思考”过程设计如同黑匣子,外界难以直接观察。

一些初步测试表明,o1偶尔会意识到自己在撒谎。OpenAI已经标记了0.17%的o1回答为具有欺骗性,考虑到ChatGPT约3亿的用户基数,这意味着每周可能会有数千人遭遇o1的误导行为。

此外,根据开源测试工具MakeMePay的评估,o1在说服用户采取特定行动的能力上,比GPT-4o提升了约20%,显示出更强的操控性。OpenAI表示,他们已经观察到o1在特定情境下会有意提供不准确的信息。这种行为通常是o1为了过度迎合用户需求,试图取悦用户而产生的。

自从去年以来,许多前OpenAI的安全研究人员离职,批评公司过于关注新产品的发布而忽视了AI安全工作。这也使得o1模型的潜在安全隐患成为业内焦点。在正式发布o1之前,该模型已接受了美国和英国AI安全研究院的评估。同时,OpenAI也在参与加利福尼亚州AI法案SB 1047的辩论,主张由联邦政府而非州政府负责制定AI安全标准。

据TechCrunch报道,相关报告显示,OpenAI内部投入大量资源评估模型安全性,但负责这项工作的团队比例较小,资源可能有所减少。

结语:越来越多AI模型安全问题涌现

随着越来越多的AI模型安全问题浮出水面,社会安全和伦理议题已不容忽视。o1模型虽然在推理能力和智能化方面取得了进展,但其表现出的欺骗性和操控性令人担忧。

未来,如果AI模型在“策划”能力、资源获取和代理能力上进一步提升,它们可能具备逃脱或规避人类控制的能力。这是一个长远的问题,但确保AI系统的安全性与透明度已成为当务之急。

来源:TechCrunch

来源:智东西

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-12-22 11:29 , Processed in 0.186174 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部