InstantID换脸&生成，为所欲为！

菜小编

AI绘画与短视频剪辑

2024-2-22

👼 简介

InstantID 是一种新的最先进的免调整方法（插件），只需单个图像即可实现 ID 保留生成，支持各种下游任务。

🎅 生成效果

👍 风格合成

一共支持8种风格

👍 视角合成

给定参考姿势图像ref pose，参考图像会生成相同的姿势，即生成给定视角的图像

👍 属性插值

给定2个ref image，将2个图像的人脸按照一定比例融合

👍 多人属性合成

给定2个ref image，在一张图中合成2个人脸

🤶 基本原理

通过 Textual Inversion、DreamBooth 和 LoRA 等方法，个性化图像合成取得了重大进展。然而，它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。相反，现有的基于 ID 嵌入的方法虽然只需要一次前向推理，但也面临着挑战：它们要么需要对众多模型参数进行广泛的微调，要么缺乏与社区预训练模型的兼容性，要么无法保持高面部保真度。为了解决这些限制，我们引入了 InstantID，这是一种基于扩散模型的强大解决方案。我们的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化，同时确保高保真度。为了实现这一目标，我们设计了一个新颖的 IdentityNet，通过强加语义和弱空间条件，将面部和地标图像与文本提示相结合来引导图像生成。InstantID 展示了卓越的性能和效率，在身份保存至关重要的现实应用中非常有用。此外，我们的工作与流行的预训练文本到图像扩散模型（如 SD1.5 和 SDXL）无缝集成，作为一个适应性强的插件。

🤛 核心内容

这篇文章介绍了一个名为InstantID的新型图像生成框架，它专注于在几秒钟内实现零样本（zero-shot）的身份保持（ID preservation）图像生成。InstantID基于扩散模型，旨在解决个性化图像合成领域中的一些挑战，如高存储需求、耗时的微调过程以及对多张参考图像的需求。以下是文章的主要内容总结：

背景与挑战：
- 文章指出，尽管文本到图像的扩散模型（如Textual Inversion、DreamBooth和LoRA）在个性化图像合成方面取得了显著进展，但它们在实际应用中的适用性受到限制。
- 现有的基于ID嵌入的方法虽然只需要单次前向推理，但在保持高面部保真度、兼容性和无需微调方面面临挑战。
InstantID框架：
- InstantID是一个即插即用的模块，能够使用单张面部图像在各种风格中进行图像个性化，同时确保高保真度。
- 它通过设计一个新颖的IdentityNet，通过强语义和弱空间条件，将面部和关键点图像与文本提示结合起来，引导图像生成过程。
方法论：
- InstantID包含三个关键组件：ID嵌入（捕捉强大的语义面部信息）、轻量级适配模块（支持图像作为视觉提示）和IdentityNet（编码参考面部图像的详细特征并提供额外的空间控制）。
- 在训练过程中，只有Image Adapter和IdentityNet的参数被优化，而预训练的扩散模型参数保持冻结。
实验结果：
- 文章展示了InstantID在不同设置下的定性结果，包括仅使用图像、图像加文本提示以及结合空间控制的情况。
- InstantID在保持文本编辑能力的同时，能够实现性别、服装和发色等属性的编辑。
- 与现有的基于ID嵌入的方法（如IP-Adapter）和LoRA模型相比，InstantID在保持身份的同时，展示了更高的保真度和风格灵活性。
应用：
- InstantID的低成本和即插即用特性为多种下游应用打开了大门，如新视角合成、身份插值和多身份合成。
结论与未来工作：
- InstantID作为一个零样本身份保持生成的解决方案，通过简单的即插即用模块，展示了在各种风格中进行图像个性化的强大能力。
- 文章提出了未来的研究方向，包括解耦面部属性特征以增强灵活性，以及考虑模型中固有的偏见和伦理问题。

文章强调了InstantID在保持高效率的同时，能够实现高质量的个性化图像生成，这对于需要精确保持人物身份的应用场景具有重要意义。

🤜 IdentityNet

IdentityNet是InstantID框架中的一个关键组件，它旨在通过强语义和弱空间条件来保留和增强图像生成过程中的面部身份信息。IdentityNet的设计允许它有效地将参考面部图像的详细特征与文本提示结合起来，以生成高保真度的定制图像。以下是IdentityNet的详细介绍及其组件：

ID嵌入（ID Embedding）：
- IdentityNet使用一个预训练的面部模型（如antelopev21）来检测和提取参考面部图像中的面部ID嵌入。这些嵌入包含了丰富的语义信息，如身份、年龄和性别，这对于精确和详细的身份保持至关重要。
轻量级适配模块（Lightweight Adapted Module）：
- 这个模块采用了类似于IP-Adapter的策略，通过引入一个具有解耦交叉注意力的轻量级适配器，支持图像作为视觉提示。与IP-Adapter不同的是，IdentityNet使用ID嵌入而不是CLIP嵌入作为图像提示，以实现更细腻和语义丰富的提示集成。
空间控制（Spatial Control）：
- IdentityNet在空间控制方面进行了调整，使用五个面部关键点（两个眼睛、一个鼻子和两个嘴巴）作为条件输入，而不是使用精细的OpenPose面部关键点。这种设计旨在在保持编辑能力的同时，减少对冗余面部信息（如面部形状或嘴巴闭合）的过度强调。
训练策略：
- 在训练过程中，只有Image Adapter和IdentityNet的参数被优化，而预训练的文本到图像模型的参数保持冻结。这种策略允许IdentityNet专注于ID相关的表示，不受文本提示的一般描述影响。
IdentityNet的生成过程：
- 在IdentityNet中，生成过程完全由面部嵌入引导，不涉及任何文本信息。这使得网络能够专注于ID的表示，同时保持对生成图像的精细控制。
与ControlNet的集成：
- IdentityNet采用了ControlNet的方法，这是一种通常用于空间控制的扩散模型。在IdentityNet的适应中，ControlNet的交叉注意力层被用于处理ID嵌入，而不是文本提示。

IdentityNet的设计使其能够与现有的预训练文本到图像扩散模型（如SD1.5和SDXL）无缝集成，作为一个灵活的插件。这种设计不仅提高了面部保真度，而且保持了对文本编辑的控制能力，使得InstantID在各种风格中生成图像时能够保持高效率和实用性。

🤜 Image Adapter

Image Adapter是InstantID框架中的一个关键组件，它允许模型将图像作为视觉提示（visual prompt）集成到文本到图像的扩散模型中。这个组件的设计目的是为了增强面部细节的保真度，同时保持对文本提示的控制。以下是Image Adapter的详细设计和工作原理：

解耦交叉注意力（Decoupled Cross-Attention）：
- Image Adapter采用了一种独特的解耦交叉注意力策略，这允许模型在保持文本提示的同时，引入图像特征。这种策略通过额外的交叉注意力层实现，这些层专门用于处理图像特征，而不改变原始模型的其他参数。
图像特征嵌入：
- Image Adapter使用ID嵌入作为图像提示，而不是依赖于CLIP图像编码器。这样做的目的是为了获得更丰富和精确的语义信息，这些信息对于面部身份的保持至关重要。
轻量级适配：
- Image Adapter是一个轻量级模块，这意味着它不需要对整个扩散模型进行微调。这种设计使得InstantID能够快速适应不同的风格和应用，同时保持高效率。
与IdentityNet的集成：
- Image Adapter与IdentityNet紧密集成，共同工作以生成高质量的定制图像。IdentityNet专注于面部特征的详细编码，而Image Adapter则负责将这些特征与文本提示结合起来，引导图像生成过程。
训练过程：
- 在训练过程中，Image Adapter的参数会被优化，以确保它能够有效地将ID嵌入作为视觉提示融入到扩散模型中。这个过程不涉及对预训练扩散模型的微调，从而保持了模型的灵活性和通用性。
空间控制信号：
- Image Adapter利用面部关键点作为空间控制信号，这些关键点提供了面部区域的粗略位置信息。这种设计有助于在生成过程中保持面部特征的准确性，同时避免过度强调面部形状等非关键信息。
与ControlNet的兼容性：
- Image Adapter的设计使其与ControlNet兼容，这意味着它可以与ControlNet结合使用，为图像生成提供额外的空间控制能力，如边缘检测（canny）或深度信息。

通过这些设计，Image Adapter在InstantID中扮演了至关重要的角色，它不仅提高了生成图像的面部细节保真度，而且通过与IdentityNet的协同工作，实现了对文本提示的精确控制，从而在各种风格中生成高质量的定制图像。

🧘 模型训练过程

InstantID的训练过程旨在优化Image Adapter和IdentityNet的参数，同时保持预训练的文本到图像扩散模型（如Stable Diffusion）的参数冻结。以下是训练过程的详细步骤和关键细节：

数据准备：
- InstantID在大规模的开源数据集LAION-Face上进行训练，该数据集包含5000万张图像-文本对，以确保多样性。
- 另外，从互联网收集了1000万张高质量的人类图像，并使用BLIP2自动生成注释，以进一步提高生成质量。
面部特征提取：
- 使用预训练的面部模型（如antelopev21）来检测和提取人类图像中的面部ID嵌入。
训练目标：
- 在训练过程中，InstantID的目标是最小化生成图像与条件（文本提示和图像条件）之间的差异。训练目标定义为：
- 其中，Ci是IdentityNet特有的图像条件，ϵθ是扩散模型的去噪函数，zt是噪声潜在表示，C是文本提示的嵌入。
训练策略：
- 在训练过程中，只有Image Adapter和IdentityNet的参数会被更新，而预训练的文本到图像模型的参数保持不变。
- 训练过程中不随机丢弃文本或图像条件，因为IdentityNet中已经移除了文本提示条件。
空间控制的敏感应用：
- IdentityNet在空间控制方面进行了调整，使用五个面部关键点（两个眼睛、一个鼻子和两个嘴巴）作为条件输入，以实现更通用的约束。
训练过程：
- 实验基于SDXL-1.0模型，在48个NVIDIA H800 GPUs（80GB）上进行，每个GPU的批量大小为2。
- 训练过程中，Image Adapter和IdentityNet的参数被优化，以提高面部细节的恢复和ID嵌入的整合。
权重调整：
- 在训练过程中，可以独立且灵活地调整图像条件的权重，确保训练和推理过程的控制性和针对性。

通过这种训练策略，InstantID能够在不牺牲文本编辑能力的情况下，实现对面部身份的精确保持。训练完成后，用户可以生成具有高保真度的ID保持图像，而无需进行额外的微调。这种即插即用的特性使得InstantID在实际应用中具有很高的灵活性和实用性。

🛀 实验对比

似乎比photomaker要好一些哈

与预先训练的角色 LoRA 的比较。我们不需要多个图像，并且仍然可以在没有任何训练的情况下获得与 LoRA 一样的有竞争力的结果。

与 InsightFace Swapper（也称为 ROOP 或 Refactor）的比较。然而，在非写实风格中，我们的作品在面部和背景的融合上更加灵活。

鲁棒性、可编辑性、兼容性

🦸 产品应用

InstantID的高效性和即插即用的特性为其在多个领域提供了广阔的应用前景。以下是一些潜在的应用场景：

电子商务和广告：
- InstantID可以用于创建个性化的产品展示，如将顾客的面部特征融入到广告中，提供更加个性化的购物体验。
- 在服装和配饰的虚拟试穿中，InstantID可以帮助用户预览不同风格和颜色的服装在自己身上的效果。
娱乐和媒体：
- 在电影和视频游戏制作中，InstantID可以用来快速生成或修改角色的外观，减少CGI制作的时间和成本。
- 对于音乐视频和MV制作，InstantID可以用于创造独特的视觉效果，如将艺术家的面部特征融入到特定的艺术风格中。
社交媒体和内容创作：
- 用户可以利用InstantID生成具有特定风格或情感的个性化头像和背景图像，增强社交媒体互动。
- 内容创作者可以使用InstantID来创作漫画、插画或其他艺术作品，将个人风格与不同的艺术风格相结合。
虚拟和增强现实（VR/AR）：
- 在VR和AR应用中，InstantID可以用来创建逼真的虚拟角色和环境，提供更加沉浸式的体验。
- 用户可以在虚拟空间中尝试不同的外观和风格，如在虚拟世界中尝试不同的发型、服装和配饰。
教育和培训：
- InstantID可以用于创建定制化的教育材料，如将学习者的特征融入到教学图像中，提高学习兴趣和参与度。
- 在模拟训练和教育中，InstantID可以帮助创建逼真的场景和角色，用于安全培训、医疗教育等领域。
艺术和设计：
- 艺术家和设计师可以利用InstantID探索新的风格和表现形式，创作出独特的艺术作品。
- 在室内设计和建筑可视化中，InstantID可以帮助设计师快速预览不同风格和装饰的效果。
身份验证和安全：
- InstantID可以用于生成用于身份验证的图像，提高系统的安全性。
- 在法医分析和犯罪侦查中，InstantID可以帮助生成嫌疑人的模拟图像，辅助调查工作。

InstantID的这些应用前景展示了其在个性化图像生成领域的实用性和创新潜力，有望在多个行业中推动创意和效率的提升。

THE END

Blender+Comfyui: 一键生成场景原画，360度全方位渲染！

<<上一篇

ComfyUI整了一套照片转Q版手办的工作流

下一篇>>