通信人家园
标题:
腾讯版Sora开源后被提速8倍!官方点赞并预告:下月上新图生视频
[查看完整版帖子]
[打印本页]
时间:
2024-12-20 14:38
作者:
tayun
标题:
腾讯版Sora开源后被提速8倍!官方点赞并预告:下月上新图生视频
奇月 发自 凹非寺量子位 | 公众号 QbitAI
提速8倍!
速度更快、效果更好的混元视频模型——
FastHunyuan
来了!
新模型仅用
1分钟
就能生成
5秒
长的视频,比之前提速
8倍
,步骤也从50步减少到了
6步
,甚至画面细节也更逼真了。
和普通速度的混元对比一下,原来50步才能生成1条视频,而现在新模型在相同的时间里可以生成
8条.
再来看看和Sora的画面对比,可以看到Fast-Hunyuan和Sora两者的效果都更逼真一些,衣服、水果和山峰的细节也非常清晰。
甚至在一些
物理细节的理解
上,Fast-Hunyuan比Sora还强,比如下面拿取柠檬的视频:
更重要的是,Fast-Hunyuan的代码也
开源
了,这下不用为Sora的订阅费和限额发愁了。
研究团队来自
加州大学圣地亚哥分校(UCSD)
Hao AI
实验室,他们主要专注机器学习算法和分布式系统的研究。
混元官方账号还特意发博感谢了他们:
有网友看完后直呼,混元才是最好的开源视频模型。
开创性的视频DiT蒸馏配方
团队是如何做到8倍提速的情况下还能提升视频清晰度呢?
下面就一起来看一下Fast-Hunyuan的技术原理——
首先,他们开发了全新的
视频DiT蒸馏配方
具体来说,他们的蒸馏配方基于
阶段一致性(Phased Consistency Model, PCM)模型
在尝试使用多阶段蒸馏后发现效果没有显著改进,最终他们选择
保持单阶段设置
,与原始PCM模型的配置相似。
其次,团队使用了OpenSoraPlan中的
MixKit数据集
进行了蒸馏。
为了避免在训练过程中运行文本编码器和VAE,团队还
预处理
了所有数据,用来生成文本嵌入和VAE潜在变量。
在推理阶段,用户可以通过FSDP、序列并行和选择性激活检查点进行
可扩展训练
,模型可以近乎线性扩展到64个GPU。测试代码在Python 3.10.0、CUDA 12.1和H100上运行。
官方推荐使用80GB内存的GPU,不同模型有相应的下载权重和推理命令。
最低硬件要求
如下:
40 GB GPU 内存,每个 GPU 配备 lora
30 GB GPU 内存,每 2 个 GPU 配备 CPU 卸载和 LoRa。
在模型微调方面,Fast-Hunyuan提供了
全微调
(需准备符合格式的数据,提供了一些可下载的预处理数据及对应命令)和
LoRA 微调
(即将上线)两种方式。
此外,他们还结合了
预计算潜变量
预计算文本嵌入
,用户可以根据自己的硬件条件选择不同的微调方式来执行命令,也支持图像和视频的
混合微调
模型已于2024年12月17日发布了v0.1版本。
未来的开发计划还包括添加
更多蒸馏方法
(如分布匹配蒸馏)、支持
更多模型
(如CogvideoX模型)以及
代码更新
(如fp8支持、更快的加载和保存模型支持)等等。
One More Thing
除了加速模型,混元还预告了大家都非常期待的
图像到视频
生成功能。
最快
1月份
,也就是下个月就可以看到!期待住了。
GitHub:https://github.com/hao-ai-lab/FastVideo
HuggingFace:https://huggingface.co/FastVideo/FastHunyuan
[1]https://x.com/TXhunyuan/status/1869282002786292097
来源:网易
时间:
2024-12-20 14:48
作者:
愤怒的拳头
厉害了
时间:
2024-12-20 21:06
作者:
hjh_317
人多力量大
通信人家园 (https://www.txrjy.com/)
Powered by C114