将预期效用理论作为规范标准。理性可以被描述为预期效用的最大化。此外,应根据这一规范标准设计和分析 AI 系统。
将单主体对齐作为偏好匹配。对于要与单个人类主体对齐的 AI 系统,它应尽可能地满足该人类的偏好。
将多主体对齐作为偏好聚合。为了使 AI 系统与多个人类主体对齐,它们应以最大限度地满足其总体偏好。
这些论点都只是观点,而非一个统一的 AI 对齐理论。尽管如此,它们表达的思想是紧密关联的,并且大多数 AI 对齐方法都采用了其中 2 个或更多论点。比如逆向强化学习、基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)全都假定可通过一个奖励或效用函数来很好地建模人类偏好,并且该函数还可被进一步优化。
机器学习中的理性选择理论。根据理性选择理论,许多机器学习和 AI 系统还假设人类偏好可以或多或少直接地基于人类选择得出,并且进一步用标量效用或奖励来表示这些偏好。逆向强化学习和基于人类反馈的强化学习领域尤其如此,它们假设人类的行为可以描述为(近似地)最大化随时间推移的标量奖励总和,然后尝试推断出一个能解释所观察到的行为的奖励函数。推荐系统领域也可以找到类似的假设。
带噪理性选择(noisily-rational choice)的玻尔兹曼模型。虽然这些基于偏好的人类行为模型基于理性选择理论,但值得注意的是,它们比仅仅「最大化预期效用」可能要更复杂一些。因为人类其实很复杂,并不总是在最大化效用,因此模型必然带有噪声,只能算是近似的理性选择。在机器学习和 AI 对齐领域,这种选择模型的最常见形式是玻尔兹曼理性(得名于统计力学中的玻尔兹曼分布),它假设选择 c 的概率正比于做出该选择的预期效用的指数:。
EUT(预期效用理论)的一致性论据。关于这种规范性标准的可行性,一直存在争议。支持 EUT 的论据包括前面提到的效用表示定理。该定理基于这一公理:偏好算作理性;然后证明任何遵循偏好行事的智能体的行为都必定像是在最大化预期效用。在 AI 对齐文献中,这些结果通常被视为关于理性智能体的「一致性定理(coherence theorems)」。
将 AI 对齐视为对齐预期效用最大化。基于这些论据,AI 对齐研究者传统上认为:先进 AI 系统的行为就像是在最大化预期效用。因此,很多人将对齐 AI 的问题表述为如何让预期效用最大化算法对齐的问题,并且各种提议方案都侧重于如何规避效用最大化的危险或准确学习正确的效用函数。毕竟,如果先进的 AI 系统必定遵守 EUT,那么对齐此类系统的唯一希望就是留在其范围内。此外,如果预期效用最大化是理性所需的 —— 如果智能意味着理性 —— 那么任何基于人类价值观行事的足够智能的智能体最终都必须将这些价值观整合为一个效用函数。
这一节讨论并扩展的议题包括:
将预期效用理论用作一个分析视角;
将全局一致性智能体作为设计目标;
偏好作为动作的规范基础。
超越将单主体 AI 对齐用作偏好匹配
如果理性选择理论不能充分描述人类的行为和价值观,而预期效用理论不能令人满意地解释理性决策,那么这对 AI 对齐的实践意味着什么?
尽管人们越来越意识到这些偏好假设的局限性,但大多数应用的 AI 对齐方法仍将对齐视为偏好匹配问题:给定一个 AI 系统,目标是确保其行为符合人类用户或开发者的偏好。
通过基于偏好匹配的奖励学习来实现对齐。目前,这类方法中最著名的莫过于 RLHF。基于用户陈述其偏好的数据集,RLHF 会学习估计用户假设存在的奖励函数(奖励模型)。然后,AI 系统会学习继续优化学习得到的奖励模型,目标是得到更符合用户偏好的行为。RLHF 最早是为经典控制问题开发的,但现在已经被用于训练越来越复杂的 AI 系统,包括用于机器人控制的深度神经网络和大型语言模型(LLM)。其中后者更是凭借其强大的能力和通用性为 RLHF 吸睛无数。
奖励学习和偏好匹配的范围有限。为了解决这些局限性,还需要怎样的 AI 对齐研究?该团队表示:「我们并不是说基于奖励的模型永远不合适。相反,我们认为基于奖励的对齐(以及更广义的偏好匹配)仅适用于有足够本地用途和范围的 AI 系统。」也就是说,它仅适用于价值对齐问题的最狭隘和最简化版本,其中的价值和范式可以总结为特定于该系统范围的奖励函数。AI 对齐还需要更多:AI 系统必须了解每个人的偏好是如何动态构建的,并与产生这些偏好的底层价值观保持一致。
这一节讨论并扩展的议题包括:
标量和非情境奖励的对齐;
静态和非社交偏好的对齐;
偏好作为对齐的目标。
超越将多主体 AI 对齐用作偏好聚合
在批评了基于偏好的单主体对齐概念之后,现在转向多主体对齐的问题:考虑到人类如此之多,持有的价值观也非常多,那么 AI 系统应当与其中哪些对齐呢?
偏好聚合的理论论证。这个问题的传统答案是,AI 系统应该与人类的总体偏好对齐。为什么会这样?部分原因可能是偏好效用主义伦理具有规范性的吸引力。但是,在 AI 对齐文献中,偏好聚合的论证通常更具技术性,会使用 Harsanyi 的社会聚合定理作为依据。进一步假设所有人类也都这样做,这样每个个体 i 的偏好都可以表示成对结果 x 的偏好 U_i (x)。最后,假设一致性是理性社会选择的最低要求 —— 如果所有人类都偏好某个(概率性)结果 x 而非 y,则该 AI 系统也应该更偏好 x 而非 y。那么,Harsanyi 定理表明 AI 系统的效用函数 U (x) 必定是单个效用函数的加权聚合: