ConsiStory：无需训练LoRA，快速实现主题一致地文本到图像生成技术

2024-2-16

如何保持风格及人物主题不变，快速生成各种不同场景下的图像？

这是目前AI绘画领域都会面临的问题，即使是Midjourney也还在开发角色一致性的功能，上线时间未知。

来自以色列特拉维夫大学的研究团队最近提出了一种新的方法来解决该问题——ConsiStory。

如上图所示，先生成一张戴帽子老人的照片，然后通过文本提示可以分别生成他在公园散步、在黑板写字、在酒吧喝酒、喂流浪猫、在餐馆吃饭的图像，人物本身的外观及图片风格几乎是没有变化的。

技术特点

这种方法无需训练（比如LoRA模型），可以在预训练的文本到图像模型中实现一致的主题生成。

研究团队通过引入一种主题驱动的共享注意力块和基于对应关系的特征注入来增强模型，以促进图像之间的主体一致性。

ConsiStory可以自然地扩展到多个主题场景。甚至实现对一些常见对象可以实现无需训练的个性化生成。

支持多个一致的主题

比如下图，不仅保留了男孩的特征，也保留了球的特征。

跟ControlNet集成

ConsiStory可以跟ControlNet集成，生成不同姿态的一致性的角色。

无需训练的个性化生成

简单理解就是图片转图片，将一张图片中的元素植入到另一张图片中，并保持该元素在新场景中自然融入，比如给左边的红色背包换背景。

变换种子值

大家都知道每张AI生成的图片都有一个seed值，ConsiStory可以实现通过改变seed值（起始噪音）来变换场景，但主题不改变（如下图每行的猫头鹰）。

支持种族多样性

针对人像，ConsiStory可以保持该人物的种族特征不改变。

比较其他方法

如下图，最上面是ConsiStory方法，底下分别是IP-Adapter、TI、DB-LoRA方法，可以看下角色的一致性和对提示词的遵循程度，至少从官方提供的示例上看，ConsiStory都更胜一筹。

项目资源

代码暂未开源，可以关注项目主页。

项目主页：

https://consistory-paper.github.io/

论文：

https://arxiv.org/abs/2402.03286

THE END