OpenAI Sora 关键技术：时空碎片 (Spacetime Patches) 揭秘

2024-2-23

作者 | Vincent Koc

编译 | 岳扬

人工智能如何将静态图像转换为动态、逼真的视频？OpenAI 的 Sora 通过创新性地使用时空碎片技术（spacetime patches）给出了一个答案。

在快速发展的生成模型领域，OpenAI 的 Sora [1] 是一个重要的里程碑，有望重塑我们对视频生成的理解和认识。本文将解读 Sora 背后的技术 [2] 以期激发新一代模型在图像、视频和 3D 内容创建方面的潜力。

OpenAI 使用以下提示词生成生成了一段视频：A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. —— 通过 Sora 生成的视频内容几乎达到了无以伦比的逼真程度。由于 Sora 正在进行测试，完整模型尚未完全向公众发布。

01 Sora 的独特方法如何改变视频生成的方式

在生成模型（generative models）领域的发展过程中，我们见证了从生成式对抗网络（GAN）到自回归（auto-regressive）和扩散模型（diffusion models）等多种方法的演变，它们都有各自的优势和局限性。Sora 通过采用新的模型技术和凭借其高度灵活性带来了范式转变，能够处理多种多样的视频时长（duration）、宽高比（aspect ratio）和分辨率（resolution）。

Sora 结合了扩散原理（diffusion）和 transformer 架构，提出了 diffusion transformer model，并具有如下特性：

文字到视频：这种功能我们应该已经见到过很多次了
图像到视频：为静态图像赋予生命
视频到视频：将视频的风格转换为其他样式
修改视频时间：扩展和缩短视频
创建无缝循环视频：创建看起来无限循环的平铺视频（译者注：在视频编辑领域，Tile（平铺）是一个专业术语，指的是将一个视频片段复制并拼接，重复排列形成一个新的视频画面的技术。）
图像生成：虽然只是单帧静止画面，但是称得上一部 “单帧电影”(分辨率高达 2048 x 2048)
生成任何分辨率的视频：从 1920 x 1080 到 1080 x 1920，应有尽有
模拟虚拟世界：像 Minecraft 和其他视频游戏
创建视频：最长 1 分钟，包含多个短视频

想象一下，你正在一个厨房里。像 Pika [3] 和 RunwayML [4] 这样的传统视频生成模型就像严格遵循食谱的厨师，他们能够制作美味佳肴（视频），但受限于他们所知的食谱（算法）。这些 “厨师” 可能专攻制作蛋糕（短视频）或意大利面（某类型视频），使用特定的 “食材”（数据格式）和 “烹调技术”（模型架构）。

相比之下，Sora 像是全能大厨，对食品风味的构成与变化了如指掌。Sora 不仅能遵循食谱，还持续创造新的菜式。 数据和模型架构的灵活性，让 Sora 能生产出一系列高质量的视频，堪比大师厨艺的多变与精湛。

02 探索 Sora 秘方的核心：Spacetime Patches 技术

Spacetime Patches 是 Sora 创新的核心，它建立在谷歌 DeepMind 早先对 NaViT [5] 和 ViT（Vision Transformers）的研究基础之上，其基础是一篇 2021 年的论文《An Image is Worth 16x16 Words [6]》。

“Vanilla” Vision Transformer 架构 —— 图片来源：Dosovitskiy 等，2021 [6]

在传统的 Vision Transformers 中，我们使用一系列图像 "patches" 来训练模型进行图像识别，而不是像训练 language transformers 那样使用单词来进行训练。通过 "patches"，我们可以摆脱卷积神经网络对图像处理的束缚。

如何将帧 / 图像划分为 patches —— 图片来源：Dehghani 等，2023 [5]

然而，Vision transformers 受到图像训练数据的限制，这些数据的大小和长宽比都是固定的，这就限制了图像的质量，并需要对图像进行大量的预处理。

切割视频时态数据的可视化 —— 资料来源：kitasenjudesign [7]

通过将视频处理为 patches 序列，Sora 保持了原始的长宽比和分辨率，这与 NaViT 处理图像的方式类似。这种保留对于捕捉视觉数据的真实本质至关重要，可使模型从更准确的世界表征中学习，从而赋予 Sora 其近乎魔法的准确性。

Spacetime Patching 处理过程的可视化 —— 图片来源：OpenAI（Sora）

通过这种方法，Sora 可以高效地处理各种视觉数据，而无需调整大小或进行填充等预处理步骤。这种灵活性确保了每一条数据都有助于模型的理解，就像厨师使用各种配料来提升菜肴的风味一样。

通过 Spacetime Patching 技术详细而灵活地处理视频数据，为 Sora 拥有精确的物理模拟和三维一致性等复杂特性奠定了基础。 这些能力对于创建不仅看起来逼真，而且符合世界物理规则的视频至关重要，让我们看到了人工智能创建复杂、动态视觉内容的潜力。

03 喂养 Sora：多样化数据在训练中的作用

生成模型的表现与训练数据的质量和多样性密不可分。 现有的视频模型传统上是在更受限的数据集上训练的，时长较短，目标较窄。

Sora 的训练数据集广泛多样，包含不同长度、分辨率和长宽比的视频与图像。其重现 Minecraft 等数字世界的能力 [8]，极有可能吸收了来自 Unity、Unreal 等系统的模拟镜头数据，以捕捉更丰富视角和风格的视频内容。这让 Sora 类似 GPT 语言模型，达到视频生成的 “全能” 境界。

丰富数据训练使 Sora 能够深刻理解复杂动力学，生成既多样又高质量的内容。 这种方法模仿了大语言模型在多样化文本上的训练方式，将类似理念应用于视觉数据，以获得通用能力。

使用可变 patches 的 NaVit vs. 传统的 Vision Transformers —— 图片来源：Dehghani 等，2023 [5]

正如 NaViT 模型通过将来自不同图像的多个 patches 打包到单个序列中，能够显著提高训练效率和性能一样，Sora 利用时空碎片（Spacetime Patching）实现了在视频生成场景中类似的生成效率。这种方法可以更有效地学习庞大的数据集，提高模型生成高保真视频的能力，同时与现有模型架构相比还可以显著降低所需的计算量。

04 让模拟的物理世界栩栩如生：Sora 对三维空间和视频连贯性的掌控

三维空间以及物体的运动和互动具有逻辑性和一致性是 Sora 演示中的一大亮点。通过对大量视频数据进行训练，而不对视频进行调整或预处理，Sora 可以学习对物理世界进行建模，而且其准确性令人印象深刻，因为它能够以原始形式消化训练数据。

它能生成数字世界和视频，在这些视频中，其中的物体和角色在三维空间中移动和互动，即使在它们被遮挡或离开画面时也能保持连贯性，令人信服。

05 展望未来：Sora 对生成模型的启示

Sora 为生成模型树立一种新的高标准。这种技术极有可能激发开源社区继续探索视觉生成领域的新边界，驱动新一代生成模型的发展，打破创造力和内容真实性的限制。

Sora 的征程才刚刚开始，正如 OpenAI 所说： “扩大视频生成模型的规模是建立物理世界通用模拟器的一条大有可为的道路。”

Sora 技术与最新的 AI 研究和实践应用的融合，预示着生成模型的光明前景。随着这些技术的持续演化，必将重新定义我们与数字内容的互动，使高保真、动态视频生成变得更加便捷和多样。

THE END

Python网络请求Requests库的深度运用

<<上一篇

Sora官方技术报告详解：从模型能力到原理剖析

下一篇>>