Stable Diffusion第三代文生图模型Stable Cascade有多强?

随着春节假期的结束,AI视频领域再次成为科技界关注的焦点。除了OpenAI的Sora外,另一大巨头Stable Diffusion也不甘示弱,其官方发布者stability.ai在中国春节期间推出了全新的大模型体系——Stable Cascade。

Stable  Cascade的发布不仅代表了Stable Diffusion在AI视频生成技术上的新突破,更引发了业界的广泛关注和讨论。目前,关于Cascade是否应被认定为第三代SD模型,社区内部仍在评估中。

值得注意的是,Stable Diffusion此前已经推出了1.5版本、2.0/2.1版本和SDXL版本三个世代。然而,2.0/2.1版本并未得到开源社区的广泛接受。因此,SDXL通常被视为第二代SD模型。Stable  Cascade的推出,无疑为这一序列增添了新的成员。

Stable  Cascade的发布无疑为AI视频生成领域带来了新的挑战和机遇。它是否能够成为第三代SD模型,还有待社区和时间的检验。但无论结果如何,这一领域的竞争和创新都将持续推动AI技术的发展,为人类带来更多惊喜和可能性。

图片

Stable Cascade基于创新的Würstchen架构,其核心优势在于其高效的潜在空间处理能力。相较于传统模型,Stable Cascade能够在保持图像质量的同时,显著减少推理时间和训练成本。其高达42倍的潜在空间压缩因子,使得1024x1024像素的图像能够被压缩至24x24像素,而重建后的图像依旧清晰细腻。

Stable Cascade的架构由三个关键部分组成:Stage A、Stage B和Stage C。前两个阶段负责图像压缩,类似于Stable Diffusion中的VAE,但其压缩效率更高。而Stage C则负责根据文本提示生成低分辨率的潜在空间图像。这种级联式的架构,使得Stable Cascade在处理图像时更加高效和精准。

图片

根据官方介绍简单总结Stable Cascade的四大优势,使其在文本到图像生成领域独树一帜:

  • 高效率:其高压缩率使得推理速度大幅提升,满足了快速生成图像的需求。
  • 低成本训练:潜在空间的减小意味着训练成本的大幅降低,为研究者提供了更多实验的可能性。
  • 多样化的应用:支持finetuning、LoRA和ControlNet等多种扩展,使其能够适应各种不同的应用场景。
  • 出色的图像质量:即使在低分辨率的潜在空间中工作,Stable Cascade仍能够生成高质量的图像,无论是与文本提示的对齐度还是审美质量,都达到了行业领先水平。

但从实际测试角度看,Stable Cascade在图像质量方面的提升似乎并没有达到代际提升的标准,但它确实能更大概率的在图像中写字了。A模型基本上沿用了之前的VAE架构,而B模型则更像是一个强化的放大refiner。这种设计使得A/B模型相对稳定,而C模型则成为了社区训练和改进的主要焦点,。

尽管Stable Cascade在与竞争对手如Midjourney的较量中仍处于追赶阶段,但Stability AI似乎希望通过这种策略改变当前社区大模型盛行、官方模型风光被抢的现象。然而,这种策略是否能够成功,还需要时间来观察。

总的来说,Stable Cascade以其独特的模型组合和架构设计,展现了Stable Diffusion系列的新发展。未来,随着技术的不断进步和优化,我们期待这一模型能够在文本到图像生成领域发挥更大的作用。

github项目链接:https://github.com/Stability-AI/StableCascade

模型下载:https://huggingface.co/stabilityai/stable-cascade/tree/main

如果 GPU 允许,推荐选择大型Stage C,它有 36 亿个参数,并且进行了更多的微调。此外,ControlNet 和 Lora 示例目前仅适用于大型 Stage C。对于B阶段来说,差异并不是那么大。大型Stage B 更适合重建小细节,但如果GPU 不是那么强大,就选择较小的吧。

来源: 老徐的IT技术生活

THE END