在我看来,这是现实世界部署更多自主AI模型应用的主要障碍。
与其责备设计不当的奖励函数,不如承认由于任务本身的复杂性、部分可观察状态、考虑的多个维度和其他因素,设计一个好的奖励函数本身就是一项内在挑战。
换句话说,由于RLHF,“正确”与“对人类看似正确”之间出现了分歧。
希望我很快能在一篇专门的帖子中涵盖缓解措施部分