个性化精品数字人(Personalized Talking Face Generation)强调合成的数字人视频在感官上与真人具有极高的相似性(不管是说话人的外表还是神态)。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型,虽然这种小模型能够有效地学到说话人的外表和说话风格,这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下,近年来许多工作专注于单图驱动的通用数字人大模型,这些模型仅需单张图片输入即可完成数字人制作,但仍存在外表相似度较低、无法模仿目标人说话风格等问题。
对于第一个问题,传统方法通常从头训练一个小规模的 NeRF 模型来记忆目标人的外表特征,但这种做法通常导致较长的训练时间(数个小时)、较高的数据量要求(数分钟)、较低的鲁棒性(对极端条件无法输出正确的结果)。针对这一问题,团队首次提出采用一个单图驱动的通用 3D 数字人大模型作为基础模型,并提出了一个「动静结合」的高效率微调方案。
具体来说,研究者发现现有的 3D 数字人通用模型通常会将 3D 人脸的静态细节储存在一个 3D 人脸表征(tri-plane)中作为模型的输入,而 3D 人脸的动态细节,则通过模型内部的参数进行储存。因此,MimicTalk 在个性化数字人渲染器的训练过程中,不仅会更新储存静态细节的 3D 人脸表征,还通过 LoRA 技术对通用模型的参数进行了可拆卸的高效微调。