字节视频生成模型MagicVideo-V2，超过Stable Video Diffusion与Pika 1.0！

2024-2-16

引言

文本到视频（T2V）模型的扩散标志着重大进展，这一进展是由最近的基于扩散的模型推动的。对于从文本描述中生成高保真视频的需求不断增长，这已经在该领域引起了重要的研究。

简介

在这项工作中，我们引入了MagicVideo-V2，它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块整合到一个端到端的视频生成流水线中。由于这些架构设计的帮助，MagicVideo-V2可以生成出具有出色度和平滑度的高分辨率美感视频。通过大规模的用户评估，它展示出优于领先的Text-to-Video系统，如Runway、Pika 1.0、Morph、Moon Valley和StableVideo Diffusion model的性能。

方法与模型

MagicVideo-V2是一种新颖的多阶段T2V框架，将文本到图像（T2I）、图像到视频（I2V）、视频到视频（V2V）和视频帧插值（VFI）模块集成到端到端的视频生成流程中。T2I 模块通过从文本提示生成初始图像，捕捉输入的审美体验，为后续的模块打下基础。然后，I2V 模块采用图像作为输入，输出生成视频的低分辨率关键帧。随后，V2V 模块提高了关键帧的分辨率并增强了细节。最后，帧插值模块使视频中的运动变得平滑。

The Text-to-Image Module

T2I模块将用户的文本提示作为输入，并生成一个1024 × 1024的图像作为视频生成的参考图像。参考图像有助于描述视频内容和美学风格。所提出的MagicVideo-V2与不同的T2I模型兼容。具体来说，在MagicVideo-V2中我们使用了一个内部开发的基于扩散的T2I模型，它能够输出高美学的图像。

The Image-to-Video Module

I2V模块是基于高美观的SD1.5模型构建的，利用人类反馈来提高模型在视觉质量和内容一致性方面的能力。I2V模块结合了一个运动模块，这两个模块都经过内部数据集的训练。

为了利用引用图像，我们对I2V模块进行了增强，引入了一个引用图像嵌入模块。具体来说，我们适应了一个外观编码器来提取引用图像的嵌入向量，并通过交叉注意力机制将其注入到I2V模块中。通过这种方式，图像提示能够有效地与文本提示解耦，并提供更强的图像条件。此外，我们采用了隐变量先验策略，在起始的噪声隐变量中提供布局条件。帧是从标准的高斯噪声中初始化的，其均值从零逐渐向引用图像隐变量的值偏移。通过合理的噪声先验技巧，图像布局可以部分保持，并且帧之间的时序连贯性也可以得到改善。为了进一步提高布局和空间条件，我们部署了一个ControlNet模块，用于直接从引用图像中提取RGB信息并应用于所有帧。这些技术使得帧与引用图像很好地对齐，同时允许模型生成清晰的运动。

我们采用图像-视频联合训练策略来训练I2V模块，其中将图像视为单帧视频。联合训练的动机是利用我们内部高质量和美观的图像数据集，以提高生成视频帧的质量。图像数据集部分还可以作为对我们缺乏多样性和数量的视频数据集的有效补充。

The Video-to-Video Module

V2V模块与I2V模块设计相似，共用相同的主干和空间层。其运动模块通过对高分辨率视频子集进行单独微调，用于视频超分辨率。

在这里，同样使用图像外观编码器和ControlNet模块。这证明是至关重要的，因为我们正在以更高分辨率生成视频帧。利用参考图像的信息有助于通过减少结构错误和故障率来引导视频扩散步骤。此外，它还可以增强在更高分辨率下生成的细节。

Video Frame Interpolation (VFI)

VFI模块采用了基于内部训练的GAN的VFI模型。它采用了增强可变形可分离卷积(EDSC)头部与基于VQ-GAN的架构相配合，类似于之前的研究中所使的自编码器模型。为了进一步增强其稳定性和平滑性，我们使用了预训练的轻量级插值模型。

实验与结果

为了评估MagicVideo-V2，我们邀请人类评估员与当代最先进的T2V系统进行比较分析。一个由61名评估员组成的小组对MagicVideo-V2和另一种T2V方法之间的500个临时比较进行了评分。每个选民在每一轮比较中都会被呈现一对随机的视频，包括我们的一个视频和一个竞争对手的一个视频，两者基于相同的文本提示。他们被提供了三个评估选项-好、一样、或差-表示对MagicVideo-V2的偏好、没有偏好或对竞争的T2V方法的偏好。参与者基于三个标准来进行投票：1）哪个视频有更高的帧质量和整体视觉吸引力。2）哪个视频在时间上更连贯，具有更好的运动范围和运动有效性。3）哪个视频有更少的结构错误或不良情况。

MagicVideo-V2与其他方法对比

结果表明，从人类视觉感知的角度来看，人们明显更偏好MagicVideo-V2，证明了它在性能上的卓越表现。

可视化结果

论文链接：https://arxiv.org/pdf/2401.04468.pdf

开源代码：https://magicvideov2.github.io/

THE END

GPT-4 Turbo 128k免费使用，引爆全球创意革命！

<<上一篇

4个免费使用ChatGPT 4.0网站，不需注册登录

下一篇>>