一张图搞定3D视效！北大提出ViewCrafter：主打一个可控生成~ -

本文经自动驾驶之心公众号授权转载，转载请联系出处。

论文标题：

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis

论文链接：

https://arxiv.org/abs/2409.02048

代码链接：

https://github.com/Drexubery/ViewCrafter

项目主页：

https://drexubery.github.io/ViewCrafter/

Huggingface Demo：

https://huggingface.co/spaces/Doubiiu/ViewCrafter

一、研究动机

尽管NeRF和3D-GS等新视角生成方法可以生成高保真度的新视角，但他们依赖于密集的多视角训练数据，且不具备泛化能力，这限制了它们在训练资源受限场景下的应用。在实际应用中，一个更普适的问题场景是训练一个可范化的模型，在不需要训练或微调的情况下从稀疏视角图像甚至单张输入图像中生成新视角。解决这个问题具有相当大的挑战性，因为它需要训练的模型对3D物理世界有全面的理解。为了实现这个目标，我们提出ViewCrafter，一个能够对任意输入图像实现相机轨迹精确可控的新视角视频生成的视频扩散模型，并基于ViewCrafter探索了图像生成3D、文本生成3D和稀疏视角重建等应用。

相机轨迹可控的视频生成，单视角输入

相机轨迹可控的视频生成，2视角输入。

文生3D

单图生3D

二、方法介绍

2.1 点云表征

DUSt3R等快速多视图/单视图stereo技术的发展使得从单张或稀疏图像中快速重建点云表征成为可能。点云表征能够提供3D场景的粗略信息，支持精确的相机位置控制以实现自由视角渲染。然而，由于点云的表示能力较弱，加之极其稀疏的输入图像只能提供有限的3D线索，重建出的点云存在大面积的遮挡和缺失区域，并可能面临几何形变和点云噪声。这些问题限制了其在新视角合成上的应用。

点云渲染结果

2.2 视频扩散模型

在大规模视频数据集上训练的视频扩散模型能够深入理解3D物理世界，支持从单张图像或文本提示中生成符合物理规律和现实世界规则的视频内容。然而，现有的视频扩散模型缺乏显式的场景3D信息，因此在视频生成过程中难以实现精确的相机视角控制。

2.3 ViewCrafter：基于点云先验的可控视角视频生成

我们提出将视频扩散模型的生成能力与点云表征提供的显式3D先验相结合，以实现相机精准可控的任意场景高保真度新视角视频生成。

方法流程图

如图所示, 给定单张或稀疏视角输入图像，我们首先使用快速多视图stereo方法构建其点云表征，以实现精准地移动相机进行自由视角渲染。随后，为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影，我们训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器，在粗糙的点云渲染结果的基础上进一步生成具有高保真度和3D一致性的新视角。

视频扩散模型主要由三个模块组成。我们采用一对继承自Stable Diffusion的VAE编码器和解码器对点云渲染结果进行压缩，以降低模型开销。此外，我们利用CLIP图像编码器处理参考图像，以使得模型获得对输入图像的语义关系的理解。模型的核心是一个去噪U-Net,他接受压缩后的点云渲染结果和噪声作为输入，将其逐步去噪成具有高保真度的新视角。在训练过程中，我们只训练去噪U-Net的权重，冻结其他模块的参数，并在RealEstate10K和DL3DV这两个大规模多视角数据集上进行训练。

在推理过程中，通过结合点云提供的显式3D信息以及视频扩散模型的强大生成能力，我们的方法能够在视频生成过程中实现6自由度的精准相机位姿控制，并生成高保真度、一致性强的新视角视频。

2.4 应用：稀疏视角3D高斯重建，图生3D和文生3D

基于ViewCrafter和我们提出的迭代式新视角生成算法,我们可以从单张图像/稀疏视角甚至一段文字描述中进行3D高斯重建，以支持实时渲染和沉浸式3D体验。

三、对比实验

3.1 新视角生成

我们在Tanks-and-Temples,CO3D, RealEstate10K这三个真实世界数据集上与SOTA方法进行了定量和定性比较，实验结果证明我们的方法在相机位姿控制的精准程度，以及生成新视角的视觉质量上都大幅超过对比方法

3.2 场景重建

我们在Tanks-and-Temples数据集上与稀疏视角重建领域的SOTA方法进行了定量和定性比较，实验结果证明我们的方法在3D高斯重建渲染出的新视角的视觉质量上大幅超过对比方法

四、消融实验

4.1 利用点云先验作为视频扩散模型控制信号的有效性

一些同期工作采用普吕克坐标作为视频生成模型的控制信号，以实现相机可控的新视角生成。作为对比，为了验证点云控制信号的优越性，我们训练了一个以普吕克坐标为控制信号的新视角生成模型，并进行控制变量实验，保证除了控制信号外其他模型结构与ViewCrafter一致。两个模型在新视角生成任务上对比结果如下所示：

实验结果证明，不管是在新视角生成质量还是在相机控制的精准程度上，我们使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。

4.2 模型对粗糙点云的鲁棒性

如图所示，对于作为控制信号的点云具有严重几何形变的情况，我们的模型依然能够有效地进行几何纠错和空洞修补。这证明了我们的方法对点云控制信号的鲁棒性。

点云渲染和生成结果对比

五、未来计划

我们验证了ViewCrafter对于静态场景的强大新视角生成能力。在未来的工作中，我们将探索和单目视频深度估计方法结合，实现单目动态视频的新视角生成和4D重建。

一张图搞定3D视效！北大提出ViewCrafter：主打一个可控生成~

作者yinhua