通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少将

注册:2015-1-2880
跳转到指定楼层
1#
发表于 2023-12-12 15:38:22 |只看该作者 |正序浏览
今日凌晨,李飞飞的斯坦福团队与谷歌联合发布用于生成逼真视频的扩散模型W.A.L.T,基于Transformer训练而成,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法有两个关键的设计,一是使用因果编码器,在统一的潜空间内联合压缩图像和视频,从而实现跨模态的训练和生成;二是为了提高记忆和训练效率,使用了为空间和时空联合生成建模量身定制的窗口注意力架构。最后,团队针对文本到视频的生成任务训练了由三个模型组成的级联,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型,能够以每秒8帧的速度生成分辨率为512*896的视频。
项目地址:walt-video-diffusion.github.io/
论文地址:walt-video-diffusion.github.io/assets/W.A.L.T.pdf

2023年俨然已成AI视频元年!视频大数据时代,真的来了!

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-23 20:58 , Processed in 0.092972 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部