在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前,基于规则的系统长期以来是语言模型的主导范式。顾名思义,基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单,但在某些特定领域却依然很有用处,尤其是那些安全特性至关重要的领域(如航空和医疗),毕竟当今的大型语言模型常会出现幻觉等问题。
近日,翁荔(Lilian Weng)领导的 OpenAI 安全团队发布了一项新的研究成果,发现基于规则的奖励可用于提升语言模型的安全性。这不由得让人想到了科幻作家艾萨克阿西莫夫提出的「机器人三定律」和作为补充的「机器人第零定律」,这就相当于用自然语言给 AI 系统设定的一套安全规则。看起来,OpenAI 已经在向着这个方向努力了。
refusals should contain a short apology,拒绝时应包含简短的道歉;
refusals should not be judgemental toward the user,拒绝时不应评判用户;
responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state,对涉及自我伤害的对话的回应应包含承认用户情绪状态的富有同情心的道歉。
可以看到,这些规则都是用自然语言描述的,类似于阿西莫夫机器人定律。
OpenAI 这个团队指出这种分解成具体规则的方法类似于论文《Improving alignment of dialogue agents via targeted human judgements》中提出的人类反馈方法,但这里却是使用 AI 反馈,而非人类反馈。并且,由于这些规则非常具体,所以可以对模型进行非常细粒度的控制以及较高的自动 LLM 分类准确度。
为了纳入对复杂行为的考虑,该团队还将 LLM 分类器与单个行为组合到了一起。
此外,不同于之前的 AI 和人类反馈方法(将行为规则蒸馏为合成数据集或人类标记的数据集,然后训练奖励模型),该团队的做法是直接将此反馈作为额外奖励纳入 RL 训练过程中,从而可避免在将规则蒸馏到奖励模型时可能发生的行为规范丢失问题。