字节视频生成模型MagicVideo-V2,超过Stable Video Diffusion与Pika 1.0!
文本到视频(T2V)模型的扩散标志着重大进展 ,这一进展是由最近的基于扩散的模型推动的。对于从文本描述中生成高保真视频的需求不断增长,这已经在该领域引起了重要的研究。
在这项工作中,我们引入了MagicVideo-V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到一个端到端的视频生成流水线中。由于这些架构设计的帮助,MagicVideo-V2可以生成出具有出色度和平滑度的高分辨率美感视频。通过大规模的用户评估,它展示出优于领先的Text-to-Video系统,如Runway、Pika 1.0、Morph、Moon Valley和StableVideo Diffusion model的性能。
MagicVideo-V2是一种新颖的多阶段T2V框架,将文本到图像(T2I)、图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块集成到端到端的视频生成流程中。T2I 模块通过从文本提示生成初始图像,捕捉输入的审美体验,为后续的模块打下基础。然后,I2V 模块采用图像作为输入,输出生成视频的低分辨率关键帧。随后,V2V 模块提高了关键帧的分辨率并增强了细节。最后,帧插值模块使视频中的运动变得平滑。

T2I模块将用户的文本提示作为输入,并生成一个1024 × 1024的图像作为视频生成的参考图像。参考图像有助于描述视频内容和美学风格。所提出的MagicVideo-V2与不同的T2I模型兼容。具体来说,在MagicVideo-V2中我们使用了一个内部开发的基于扩散的T2I模型,它能够输出高美学的图像。
为了利用引用图像,我们对I2V模块进行了增强,引入了一个引用图像嵌入模块。具体来说,我们适应了一个外观编码器来提取引用图像的嵌入向量,并通过交叉注意力机制将其注入到I2V模块中。通过这种方式,图像提示能够有效地与文本提示解耦,并提供更强的图像条件。此外,我们采用了隐变量先验策略,在起始的噪声隐变量中提供布局条件。帧是从标准的高斯噪声中初始化的,其均值从零逐渐向引用图像隐变量的值偏移。通过合理的噪声先验技巧,图像布局可以部分保持,并且帧之间的时序连贯性也可以得到改善。为了进一步提高布局和空间条件,我们部署了一个ControlNet模块,用于直接从引用图像中提取RGB信息并应用于所有帧。这些技术使得帧与引用图像很好地对齐,同时允许模型生成清晰的运动。
我们采用图像-视频联合训练策略来训练I2V模块,其中将图像视为单帧视频。联合训练的动机是利用我们内部高质量和美观的图像数据集,以提高生成视频帧的质量。图像数据集部分还可以作为对我们缺乏多样性和数量的视频数据集的有效补充。
在这里,同样使用图像外观编码器和ControlNet模块。这证明是至关重要的,因为我们正在以更高分辨率生成视频帧。利用参考图像的信息有助于通过减少结构错误和故障率来引导视频扩散步骤。此外,它还可以增强在更高分辨率下生成的细节。
VFI模块采用了基于内部训练的GAN的VFI模型。它采用了增强可变形可分离卷积(EDSC)头部与基于VQ-GAN的架构相配合,类似于之前的研究中所使的自编码器模型。为了进一步增强其稳定性和平滑性,我们使用了预训练的轻量级插值模型。

可视化结果

