Sora一出,文生视频的在长度这个指标上就卷的没边了。 从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。 最近,来自Picsart AI Research,UT Austin和Shi Labs的研究团队提出了一个新的文生视频技术——StreamingT2,可以生成高度一致而且长度可扩展的视频。 文生视频技术进入长视频时代。 论文地址:https://arxiv.org/abs/2403.14773 具体来说,StreamingT2V可以生成1200帧甚至理论上无限长的长视频,并且能保证视频内容过渡非常自然平滑,内容丰富多样。 帝国士兵在烟雾中不停奔跑,虽然动作很滑稽,但是幅度很大,人物一致性很好。 它的核心构架由3个部分组成: - 一个短期记忆单元——条件注意力模块(CAM),它能够确保视频的连贯性,通过关注前一个视频片段的特征来引导当前片段的生成; - 一个长期记忆单元——外观保持模块,它帮助模型记住视频开头的场景和对象,防止随着时间推移而遗忘开头的场景; - 一种随机混合技术,使得即使是无限长的视频也能保持一致性,避免了视频片段之间的不协调。
|