通过扩大和缩小 ViT 模型和数据的规模,他们研究了错误率、数据和计算之间的关系。在此过程中,他们还对 ViT 的架构和训练进行了改进,减少了内存消耗并提高了生成模型的准确性。
另外,他们也为 ViT 开发了一些改进版本,对其性能或效率等不同方面进行了优化,比如能适应不同图块大小的 FlexiViT,参阅论文《FlexiViT: One Model for All Patch Sizes》。
他们也探索了另一些架构创新,比如他们在论文《MLP-Mixer: An all-MLP Architecture for Vision》中提出了一种用于视觉任务的纯 MLP 架构 MLP-Mixer;在论文《Big Transfer (BiT): General Visual Representation Learning》中,他们重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范式,并通过扩大了预训练的规模提出了所谓的 Big Transfer 方案。
他们也开发了一些在当时都达到了 SOTA 的开发模型,比如 PaliGemma,这是一个基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型的开放式视觉语言模型 (VLM),其在同等规模下的表现非常出色。而在论文《Sigmoid Loss for Language Image Pre-Training》中,他们仅使用 4 块 TPUv4 芯片,在 2 天时间内就训练出了一个在 ImageNet 上实现了 84.5% 的零样本准确度的模型。
他们在计算机视觉方面的很多研究成果都统一在了 Google 的 Big Vision 项目中,参阅 https://github.com/google-research/big_vision
他们近期的研究重心是统一、简化和扩展多模态深度学习,比如:
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes,该论文提出了一种建模多样化计算机视觉任务的统一方法。该方法通过组合使用一个基础模型和一个语言模型实现了互相增益,从而在全景分割、深度预测和图像着色上取得了不错的效果。
Tuning computer vision models with task rewards,这项研究展示了强化学习在多种计算机视觉任务上的有效性,为多模态模型的对齐研究做出了贡献。
JetFormer: An Autoregressive Generative Model of Raw Images and Text,这是上个月底才刚刚发布的新研究成果,其中提出了一种创新的端到端多模态生成模型,通过结合归一化流和自回归 Transformer,以及新的噪声课程学习方法,实现了无需预训练组件的高质量图像和文本联合生成,并取得了可与现有方法竞争的性能。