通信人家园

标题: AI 视频巨头重磅更新，提示词都不用费劲写了，从未有过这样的视频创作方式 [查看完整版帖子] [打印本页]

时间: 2024-11-28 17:04

作者: ttxx 标题: AI 视频巨头重磅更新，提示词都不用费劲写了，从未有过这样的视频创作方式

AI 视频，还能往哪个方向卷？ Luma AI 的答案有些与众不同。对手还在练一招一式，它却像风清扬传授独孤九剑，讲究灵活变通，如行云流水，任意所之。

Luma AI 或许不如可灵、Runway 知名，但论实力也在第一梯队，它的视频模型叫作 Dream Machine，今年 6 月发布，最近进行了重磅升级，是推出产品以来声势最大的一次。

其中包括两项更新，一是发布自己的图像模型 Luma Photon，将文字、图像、视频一锅端；二是打造了生成 AI 视频的全新工作流，我们可以像和 ChatGPT 聊天一样，让 AI 生成视频，不用对提示词字斟句酌。

对于生成视频这件事，Dream Machine 首创了一种很新的方式。

指路 https://dream-machine.lumalabs.ai/

聊着聊着，就把视频给生成了

打开 Dream Machine，我们先看到的是「Board」，可以将它理解为无限的创意画布，在这里，我们使用自然语言，自由地生成图像或者视频。

开始一块 Board，我的提示词写得非常简单：「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词，一次生成了 4 张图片，但是不行，年代不对。

没关系，再在对话框输入一句，「放在现代背景」。

AI 表示懂了，又生成了 4 张图片，右上这张孤身走暗巷，已经接近我想要的感觉了，但仍然不够，我想要他抬起头，露出五官。

不难，继续微调，忘掉复杂的提示词，和 AI 打直球就可以。

右下这张不错，虽然形象幼态了点。接下来，我想让 AI 生成一个视频，主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能，就是为这种需求准备的——我们挑好头尾的两张图片，让 AI 补足中间的过程。

那么，我们只需基于满意的图片，让 AI 生成几张白天场景的，沟通方式还是一样的简单粗暴。最终选定的两张图片，细节略有落差，但同框也不违和。

万事俱备，只等生成视频，AI 过渡得还算自然。

看到这里，你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具，通常是给你一个填入提示词的文本框，然后让你设置运镜、时长等参数。设置一次，生成一次。

但 Dream Machine 的界面，看起来非常像和聊天机器人交互，底部是输入框，文生图、图生图、图生视频、文生视频，都可以在这里进行。

专业创作者可以继续写传统的提示词，但我们也拥有了「讲人话」的权利，压力给到 AI，Dream Machine 能够理解上下文，帮我们完善提示词，我们可以从一个非常粗糙的想法开始，和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的，我们可能在一个环节反复生成，素材都会保留下来，不会互相覆盖。

我们的思维，不会局限在一段提示词、一个视频，而是像水一样流淌，更多的想法，可能就在这个过程里产生了。

更可控的图片，更可控的视频

Dream Machine 的全新工作流就像大树的主干，其中一些好玩且实用的功能则像枝桠，相得益彰，才能枝繁叶茂。

起到关键作用的，就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美？Dream Machine 支持风格参考和角色参考功能。

先说风格参考，我们可以导入自己的图片，AI 会将风格融入到创作中。官方给出了一个例子：按蒙德里安风格，生成小鸟版的《戴珍珠耳环的少女》。

按这个思路实操一下，基于男性侦探的形象，参考梵高《星月夜》的风格，生成女性侦探。

二次元遇上后印象派，化学反应很奇妙。

角色参考功能，则可以通过一张图片，就实现角色的一致性，让这个角色出现在更多的图片和视频里。

马斯克是行走的素材库，这样的例子太没挑战性了，我决定让甄嬛瞬移到哈利波特的世界，看场景变了之后，她还能不能气场两米八。

结果有些不好评价，看得出来是甄嬛的面容，但娘娘的长相入乡随俗，五官尤其眼睛，变得更像欧美人了。

其实，不另外找图片参考，Dream Machine 也可以让图片、视频不泯然于众人，这时候就要用到「头脑风暴」功能，它会根据你生成的图片，推荐一些艺术家的风格。

就像甄嬛进霍格沃茨这张，我们可以用吉卜力工作室风格二创。宫崎骏说过，AI 是对生命本身的侮辱，但现实是，吉卜力已经是 AI 的一个选项，尽管有形无神。

不仅如此，提示词里的一些关键词，被框选了起来，能用下拉的选项替换，Dream Machine 称之为「概念药丸」，我们不用自己手写提示词，一键更换艺术风格，或者画面元素。

把「吉卜力」换成「新海诚」，把「独角兽」换成「龙」，不过点击几下的功夫。

Luma Photon 模型，基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型，Luma AI 可以减少对 Midjourney 等外部图像模型的依赖，同时也能解决文生视频不稳定的问题。

当然，视频是老本行，镜头运动这种可控性功能，Dream Machine 也少不了。

紫禁城的甄嬛，和霍格沃茨的甄嬛，能不能实现丝滑的转场呢？用推拉镜头，画面有动感，人物没有严重的变形，可以打个 80 分。

视觉的思维，讲故事的方式

巧的是，前两天 Runway 也官宣了自己的图像生成模型 Frame，和 Luma 更新是同一个晚上，看演示就知道非常注重审美，目前正逐步向 Gen-3 Alpha 开放资格。

Runway Frame

图片的生成质量、美学高度，以及视觉风格的一致性和可控性，越来越被视觉模型重视了。

这对创作者来说是好事，当我们用 AI 进行平面设计、角色设定时，其实就是在生成一个独特的世界，讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为，Runway 不是一家 AI 公司，而是一家媒体和娱乐公司，AI 公司的时代已经结束了。

他不是在唱衰 AI，恰恰相反，他认为 AI 是一种基础设施，真正的革命不在于技术本身，而在于它所实现的东西：新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

这次更新之后，Luma AI 首席执行官兼联合创始人 Amit Jain，给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象，他的意思其实就是，让生成图片、视频这样的视觉创作，像聊天一样简单、直观。

交互的方式，影响着我们思考的方式。画布式的工作流，能将脑洞可视化，记录所有的创作过程和结果，呈现生成视频的完整思路。

无限画布通常在图像模型较为常见，比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整，相同提示词生成的素材和变体横向排列，不同的则竖向排列。

边聊边生成边优化的过程，会让人觉得，一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格，创造一个工业废土背景游戏的主角。

然后用环绕镜头，让主角动起来，并塑造环境的空间感。

接着，我们可以再和 AI 聊，让AI 继续生成废土世界观里室内室外的各种场景，让 AI 建议我们怎么塑造得更有末日气息。

某种程度上，这个画布，就是我们个人故事的设定集。

当然，Luma AI 的 bug 也很多，包括但不限于，用一张图片实现角色一致性，效果并不理想；积分如流水，图片和视频还是要反复抽卡；图片模型可以生成准确的英文，但中文不行......

但意思传达到位了——少谈参数，以交互为出发点，构建一个 AI 创作工具。

更好的视频模型，不只是有更快的生成速度、更可控的镜头运动、更独特的美学，它应该也提供更好的讲故事的方式，让文字、图像、视频都作为表达想法的工具。

Dream Machine，造梦机器。

只管去创作吧，如同 Luma AI 的这句话：「不需要写复杂的提示词，问就好了。」未来 AI 留给我们的问题，不再关于技术，而是关于我们用它构建什么。

来源：36kr

时间: 2024-11-29 05:33

作者: Area_Code_61706

提示: 作者被禁止或删除内容自动屏蔽

通信人家园 (https://www.txrjy.com/)