ConsiStory:无需训练LoRA,快速实现主题一致地文本到图像生成技术
如何保持风格及人物主题不变,快速生成各种不同场景下的图像?
来自以色列特拉维夫大学的研究团队最近提出了一种新的方法来解决该问题——ConsiStory。
如上图所示,先生成一张戴帽子老人的照片,然后通过文本提示可以分别生成他在公园散步、在黑板写字、在酒吧喝酒、喂流浪猫、在餐馆吃饭的图像,人物本身的外观及图片风格几乎是没有变化的。
这种方法无需训练(比如LoRA模型),可以在预训练的文本到图像模型中实现一致的主题生成。
研究团队通过引入一种主题驱动的共享注意力块和基于对应关系的特征注入来增强模型,以促进图像之间的主体一致性。
ConsiStory可以自然地扩展到多个主题场景。甚至实现对一些常见对象可以实现无需训练的个性化生成。
比如下图,不仅保留了男孩的特征,也保留了球的特征。
ConsiStory可以跟ControlNet集成,生成不同姿态的一致性的角色。
简单理解就是图片转图片,将一张图片中的元素植入到另一张图片中,并保持该元素在新场景中自然融入,比如给左边的红色背包换背景。
大家都知道每张AI生成的图片都有一个seed值,ConsiStory可以实现通过改变seed值(起始噪音)来变换场景,但主题不改变(如下图每行的猫头鹰)。
针对人像,ConsiStory可以保持该人物的种族特征不改变。
如下图,最上面是ConsiStory方法,底下分别是IP-Adapter、TI、DB-LoRA方法,可以看下角色的一致性和对提示词的遵循程度,至少从官方提供的示例上看,ConsiStory都更胜一筹。
项目主页:
https://consistory-paper.github.io/
论文:
https://arxiv.org/abs/2402.03286
THE END