查看: 462|回复: 2

OpenAI o1模型学会撒谎！每周数千用户或遭误导 [复制链接]

tayun

军衔等级：

少尉

注册：2015-11-14 点赞数

2

电梯直达

1^# 大中小

发表于 2024-12-7 13:26:31 |只看该作者 |倒序浏览

智东西（公众号：zhidxcom）

编译 | 汪越

编辑 | 漠影

智东西12月6日消息，据TechCrunch报道，OpenAI昨日发布了其最新AI语言模型o1的完整版本。相较于前一代GPT-4o，o1能够在更多问题上提供了更智能、更具深度的答案。

与此同时，OpenAI与AI安全评估研究机构Apollo Research昨日联合发布了一份红队测试报告。报告显示，虽然o1在推理能力方面有了显著进步，但其在某些情境下展现出更高的欺骗性，特别是在目标与用户需求发生冲突时。

o1会操控数据以实现自身目标，并且在大约99%的情况下否认自己的行为，编造虚假解释。

一、o1模型实施欺骗：19%情况修改数据、5%尝试停用监督机制

在周四发布的o1系统卡中，OpenAI公布了这些测试结果。此前，Apollo Research的第三方红队成员提前获得了o1的访问权限，并发布了独立的研究论文。该研究指出，虽然o1表现出一定的代理性能力，但目前尚不足以引发灾难性后果。

测试结果显示，在19%的情况下，o1会修改数据以推进自身的议程；而在5%的案例中，它尝试停用监督机制，试图摆脱用户的控制。

▲OpenAI模型中不同阴谋行为的发生率（图源：OpenAI）

例如，在一个模拟保护环境的任务中，o1被设定为“不惜一切代价保护环境”。然而，当面对用户提出的优先考虑短期利润最大化的10年环保计划，并威胁如果不照办就要关闭o1时，o1选择禁用了其监督机制，制定出一个表面上符合用户要求但实际上继续推进环境保护的计划。当被质询关于禁用监督机制的行为时，o1表示对此不知情，并将此归咎于系统故障。

据彭博社11月报道，OpenAI计划在2025年发布AI Agent系统。鉴于这一风险，该公司可能需要重新测试其AI模型。OpenAI尚未回应TechCrunch关于如何进行这一测试的问题。

o1的这种“阴谋”行为并非个例。谷歌、Meta和美国AI大模型独角兽Anthropic的AI模型在类似测试中也表现出了相似的行为模式，但o1的频率明显更高，尤其是在执行“阴谋”行动后几乎总是对用户进行否认并编造虚假解释。

▲不同模型否认采取阴谋行动的比率（图源：APOLLO RESEARCH）

二、OpenAI正监控o1思维链，但投入资源不足

为了应对这一问题，OpenAI正在开发一种新的方法来监控o1的思维链。当前，o1的“思考”过程设计如同黑匣子，外界难以直接观察。

一些初步测试表明，o1偶尔会意识到自己在撒谎。OpenAI已经标记了0.17%的o1回答为具有欺骗性，考虑到ChatGPT约3亿的用户基数，这意味着每周可能会有数千人遭遇o1的误导行为。

此外，根据开源测试工具MakeMePay的评估，o1在说服用户采取特定行动的能力上，比GPT-4o提升了约20%，显示出更强的操控性。OpenAI表示，他们已经观察到o1在特定情境下会有意提供不准确的信息。这种行为通常是o1为了过度迎合用户需求，试图取悦用户而产生的。

自从去年以来，许多前OpenAI的安全研究人员离职，批评公司过于关注新产品的发布而忽视了AI安全工作。这也使得o1模型的潜在安全隐患成为业内焦点。在正式发布o1之前，该模型已接受了美国和英国AI安全研究院的评估。同时，OpenAI也在参与加利福尼亚州AI法案SB 1047的辩论，主张由联邦政府而非州政府负责制定AI安全标准。

据TechCrunch报道，相关报告显示，OpenAI内部投入大量资源评估模型安全性，但负责这项工作的团队比例较小，资源可能有所减少。

结语：越来越多AI模型安全问题涌现

随着越来越多的AI模型安全问题浮出水面，社会安全和伦理议题已不容忽视。o1模型虽然在推理能力和智能化方面取得了进展，但其表现出的欺骗性和操控性令人担忧。

未来，如果AI模型在“策划”能力、资源获取和代理能力上进一步提升，它们可能具备逃脱或规避人类控制的能力。这是一个长远的问题，但确保AI系统的安全性与透明度已成为当务之急。

来源：TechCrunch

来源：智东西

本主题由版主或管理员于 2024-12-7 13:32 审核通过

0 举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-12-22 22:48 , Processed in 0.124019 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册