最近,一项名为「Mamba」的研究提出了一种新的架构 ——「选择性状态空间模型(selective state space model)」。作为通用序列模型的骨干,Mamba在语言、音频和基因组学等多种模态中都达到了SOTA性能。在语言建模方面,无论是预训练还是下游评估,他们的Mamba-3B模型都优于同等规模的Transformer模型,并能与两倍于其规模的Transformer 模型相媲美。作者表示,「Mamba」还可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万token长度序列,并实现5倍的推理吞吐量提升。