人像动画生成的关键在于:基于参考图像和输入的动作序列合成动态视频,同时确保人物身份特征(尤其是面部信息)的一致性。然而,现有方法在处理复杂动作变化时仍然面临诸多挑战:(1)身份一致性受损,面部区域在剧烈动作下易产生形变和失真,难以保持稳定的个体特征。(2)视频质量下降,当前最先进的人像动画生成模型(如 MimicMotion 和 ControlneXt)依赖外部换脸工具(FaceFusion)进行后处理,这种方式虽能改善局部细节,但往往降低整体视频的视觉质量。(3)空间与时间建模的矛盾,即便已有众多专注于身份一致性的图像生成模型,直接将其嵌入视频扩散模型却常导致建模冲突。其根本原因在于,视频扩散模型引入时间建模层后,原本稳定的空间特征分布被扰动,而基于图像 的 ID 保护方法通常依赖于静态的空间特征分布,这种失衡导致身份保持能力下降,并在 ID 还原与视频流时序畅度之间产生难以调和的矛盾。
为了解决上述问题,我们提出了 StableAnimator 框架,以实现高质量和高保真的 ID 一致性人类视频生成,目前代码已开源,包括推理代码和训练代码。
(1)全局内容感知面部编码器(Global Content-aware Face Encoder):该编码器创新性地将面部特征与全局图像布局深度融合,利用多层交叉注意力机制,使面部嵌入特征精准对齐参考图像的整体上下文。通过这种方式,它有效过滤掉与身份无关的背景噪声,确保面部建模更加稳定,从而提高面部特征的一致性和清晰度。
(2)分布感知的身份适配器(Distribution-aware ID Adapter):针对扩散模型中时序层对空间特征分布的干扰问题,该适配器引入了一种分布对齐策略。具体而言,它通过计算面部特征和全局图像特征的均值与方差,确保二者在整个去噪过程中保持一致性,避免特征偏移和失真。该适配器的设计使得面部特征能够无缝适配时序建模层,同时维持视频整体的空间一致性和视觉质量。