日内瓦大学、爱丁堡大学的研究人员提出了一个在扩散世界模型中训练的强化学习智能体DIAMOND(DIffusion As a Model Of eNvironment Dreams),文中分析了使扩散模型适应于世界建模(world modeling)所需的设计要素,并展示了如何通过改善视觉细节来提高智能体的性能。
论文链接:https://arxiv.org/pdf/2405.12399
代码链接:https://github.com/eloialonso/diamond
项目链接:https://diamond-wm.github.io
DIAMOND在Atari 100k基准测试中达到了1.46的平均人类标准化分数(mean human