通信人家园

标题: 首个多模态连续学习综述,港中文、清华、UIC联合发布  [查看完整版帖子] [打印本页]

时间:  2024-11-13 19:40
作者: tayun     标题: 首个多模态连续学习综述,港中文、清华、UIC联合发布






AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文作者来自于港中文、清华和UIC。主要作者包括:余甸之,港中文博士生;张欣妮,港中文博士生;陈焱凯,港中文博士;刘瑷玮,清华大学博士生;张逸飞,港中文博士;Philip S. Yu,UIC教授;Irwin King,港中文教授。





多模态连续学习的最新进展

连续学习(CL)旨在增强机器学习模型的能力,使其能够不断从新数据中学习,而无需进行所有旧数据的重新训练。连续学习的主要挑战是灾难性遗忘:当任务按顺序训练时,新的任务训练会严重干扰之前学习的任务的性能,因为不受约束的微调会使参数远离旧任务的最优状态。尽管连续学习取得了重大进展,但大多数工作都集中在单一数据模态上,如视觉,语言,图,或音频等。这种单模态的关注忽略了现实世界环境的多模态本质,因为现实世界环境本身就很复杂,由不同的数据模态而不是单一模态组成。

随着多模态数据的快速增长,发展能够从多模态来源中连续学习的 AI 系统势在必行,因此出现了多模态连续学习(MMCL)。这些 MMCL 系统需要有效地集成和处理各种多模态数据流,同时还要在连续学习中设法保留以前获得的知识。





尽管传统的单模态 CL 与多模态 CL 之间存在联系,但多模态 CL 所面临的挑战并不仅仅是简单地将 CL 方法用于多模态数据。这种直接的尝试已被证明会产生次优性能。具体而言,如图所示,除了现有的 CL 灾难性遗忘这一挑战外,MMCL 的多模态性质还带来了以下四个挑战。





MMCL 算法汇总





为了应对上述挑战,研究人员越来越关注 MMCL 方法。作者将 MMCL 方法分为四类主要方法,即基于正则化、基于架构、基于重放和基于提示的方法。

这些方法主要集中用于视觉和语言模态,同时也有其他方法关注图、音频等其他模态。下图中展示了 MMCL 方法的代表性架构。





以下两张表总结了 MMCL 方法的详细属性。









数据集和基准

大多数 MMCL 数据集是从最初为非连续学习任务设计的知名数据集中改编而来的,研究人员通常会利用多个数据集或将单个数据集划分为多个子集,以模拟 MMCL 环境中的任务。此外,也存在一些专门用于 MMCL 的数据集,例如 P9D 和 UESTC-MMEA-CL。下表总结了涵盖各种连续学习场景、模态和任务类型的 MMCL 基准。





未来方向

多模态连续学习已成为一个活跃且前景广阔的研究主题。以下是几个未来进一步探索和研究的方向。

总结

本文呈现了一份最新的多模态连续学习(MMCL)综述,提供了 MMCL 方法的结构化分类、基本背景知识、数据集和基准的总结。作者将现有的 MMCL 工作分为四类,即基于正则化、基于架构、基于重放和基于提示的方法,还为所有类别提供了代表性的架构示意图。此外,本文讨论了在这一快速发展的领域中有前景的未来研究方向。希望 MMCL 的发展进一步增强模型使其展现出更多人类的能力。这种增强包括在输入层面处理多模态的能力以及在任务层面获取多样化技能,从而使人们更接近于在这个多模态和动态世界中实现通用智能的目标。


来源:网易






通信人家园 (https://www.txrjy.com/) Powered by C114