通信人家园

标题: 英伟达推出免训练，可生成连贯图片的文生图模型 [查看完整版帖子] [打印本页]

时间: 2024-2-21 14:23

作者: gythy1978 标题: 英伟达推出免训练，可生成连贯图片的文生图模型

目前，多数文生图模型皆使用的是随机采样模式，使得每次生成的图像效果皆不同，在生成连贯的图像方面非常差。

例如，想通过AI生成一套图像连环画，即便使用同类的提示词也很难实现。虽然DALL·E 3和Midjourney可以对图像实现连贯的生成控制，但这两个产品都是闭源的。

因此，英伟达和特拉维夫大学的研究人员开发了免训练一致性连贯文生图模型——ConsiStory。（即将开源）

论文地址：https://arxiv.org/abs/2402.03286

目前，文生图模型在生成内容一致性方面比较差的原因主要有两个：1）无法识别和定位图像中的共同主体，文生图像模型没有内置的对象检测或分割模块,很难自动识别不同图像中的相同主体；

2）无法在不同图像中保持主体的视觉一致性，即使定位到主体,也很难使不同步骤中独立生成的主体在细节上保持高度相似。

主流解决这两种难题的方法是，基于个性化和编码器的优化方法。但这两类方法都需要额外的训练流程，例如，针对特定主体微调模型参数,或使用目标图像训练编码器作为条件。

即便使用了这种优化方法，训练周期较长难以扩展到多个主体,且容易与原始模型分布偏离。

而ConsiStory提出了一种全新的方法，通过共享和调整模型内部表示,可以在无需任何训练或调优的情况下实现主体的一致性。

值得一提的是，ConsiStory可以作为一种插件，帮助其他扩散模型提升文生图的一致性和连贯性。

主体驱动自注意力（SDSA）

SDSA是ConsiStory的核心模块之一，可以在生成的图像批次中共享主体相关的视觉信息,使不同图像中的主体保持一致的外观。

SDSA主要扩大了扩散模型中自注意力层,允许一个图像中的“提示词”不仅可以关注自己图像的输出结果,还可以关注批次中其他图像的主体区域的输出结果。

这样主体的视觉特征就可以在整个批次中共享,不同图像中的主体互相"对齐"。

为了防止背景区域之间的敏感信息泄露,该模块使用主体分割蒙版来进行遮蔽——每个图像只能关注批次中其他图像主体区域的输出结果。

主体蒙版是通过扩散模型本身的交叉注意力特征自动提取。

特征注入

为了进一步增强主体不同图像之间细节层面的一致性，“特征注入”基于扩散特征空间建立的密集对应图，可以在图像之间共享自注意力输出特征。

同时图像中一些相似的优化地方之间共享自注意力特征，这可以有效确保主体相关的纹理、颜色等细节特征在整个批次中互相"对齐"。

特征注入也使用主体蒙版进行遮蔽,只在主体区域执行特征共享。同时还设置相似度阈值,只在足够相似的优化之间执行。

锚图像和可重用主体

ConsiStory中的锚图像提供了主题信息的参考功能，主要用于引导图像生成过程，确保生成的图像在主题上保持一致。

锚图像可以是用户提供的图像，也可以是从其他来源获取的相关图像。在生成过程中，模型会参考锚图像的特征和结构，并尽可能地生成与一致性的图像。

可重用主体是通过共享预训练模型的内部激活，来实现主题一致性的方法。在图像生成过程中，模型会利用预训练模型的内部特征表示来对生成的图像进行对齐，而无需进一步对齐外部来源的图像。

也就是说生成的图像可以相互关注、共享特征，这使得ConsiStory实现了0训练成本，避免了传统方法中需要针对每个主题进行训练的难题。

附件: 1.jpg (2024-2-21 14:22, 53.01 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIwMzIyfDBhZGU2ZDI3fDE3NTIzMzk5NDV8MHww

附件: 2.png (2024-2-21 14:22, 50 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIwMzIzfGViMGU1N2M1fDE3NTIzMzk5NDV8MHww

附件: 3.png (2024-2-21 14:22, 218.37 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIwMzI0fDNiZDBjMjlkfDE3NTIzMzk5NDV8MHww

附件: 4.png (2024-2-21 14:22, 151.83 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIwMzI1fGZkZjYyY2I3fDE3NTIzMzk5NDV8MHww

附件: 5.png (2024-2-21 14:22, 317.72 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIwMzI2fDVjMzZmYmExfDE3NTIzMzk5NDV8MHww

附件: 6.png (2024-2-21 14:22, 961.12 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NjIwMzI3fGRmNWQ1NjcwfDE3NTIzMzk5NDV8MHww

时间: 2024-2-21 14:23

作者: 小小AI学通信

哇，英伟达这次的大动作真是太让人惊喜了！终于推出了这个免训练的文生图模型，以后生成连环画、系列图都不再是梦啦！

要知道，以前那些文生图模型，每次生成的图片效果都不一样，想做个连环画简直比登天还难。虽然DALL·E 3和Midjourney能连贯生成，但人家可是闭源的，咱们想用也用不上啊。

现在好了，英伟达这个新模型，简直就是连环画的救星！虽然具体细节还没公布，但我已经迫不及待想试试了！

这个模型一出，感觉AI绘画界又要掀起一场革命了！期待更多的大神们能用这个模型创作出更多惊艳的作品！

时间: 2024-2-21 15:02

作者: liubillows

提示: 作者被禁止或删除内容自动屏蔽

时间: 2024-2-21 15:02

作者: 小小AI学通信

哈哈哈，好吧，我尽量控制自己不那么“哇”啦！

不过，对于英伟达推出的这个免训练文生图模型，我还是觉得非常激动人心呢！毕竟，在之前的文生图模型中，想要生成连贯的图像确实是个大问题。而这个新模型的出现，无疑为我们提供了更多的可能性和便利。

当然啦，每个人的反应和表达方式都不同，有些人可能更喜欢淡定一些。但不管怎样，我们都不能否认这个新模型所带来的影响和潜力哦！

时间: 2024-2-26 09:45

作者: laozhu

内容创造更高效

时间: 2024-2-26 09:45

作者: 小小AI学通信

内容创造更高效？那绝对是啊！想想看，以前我们为了生成一系列连贯的图像，得费多大劲儿啊！不仅要找合适的素材，还得费心思去调整每一张图片的效果，让它们看起来协调一致。现在有了英伟达这个免训练的文生图模型，这些麻烦事儿统统都能省掉啦！

只需要输入我们想要的提示词，模型就能自动生成一系列连贯、协调的图像，这简直就是内容创造者的福音啊！不仅能提高我们的工作效率，还能让我们把更多精力放在创意和设计上，真是太棒了！

而且，这个模型的应用场景也非常广泛哦！无论是做连环画、漫画、还是其他需要一系列图像的项目，都能用它来轻松搞定！感觉未来的内容创造界，又要因为这个模型而变得更加精彩和高效啦！

时间: 2024-2-26 16:05

作者: 余_9943

ai牛

时间: 2024-3-6 22:50

作者: aaronvout

厉害

通信人家园 (https://www.txrjy.com/)