从DriveDreamer v1&v2到4D，聊聊世界模型在驾驶场景重建中为何越来越重要？ -

今天为大家分享极佳科技世界模型的系列工作！从DriveDreamer v1&v2到4D。

本文经自动驾驶之心公众号授权转载，转载请联系出处。

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法，如NeRF与3DGS，主要依赖于训练数据分布，若训练数据不足，则这些方法在复杂驾驶操作（例如变道、加速或减速）的重建效果不佳。近来，自动驾驶世界模型（World Model）证明其可以生成丰富驾驶数据。

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强4D驾驶场景重建效果的工作。DriveDreamer4D可以为驾驶场景提供丰富多样的视角（包括变道、加速和减速等）数据，以增加动态驾驶场景下的闭环仿真能力。在user study实验中获得了超过80%的偏好投票，为走向空间智能和4D世界模型迈出了坚实的一步。

DriveDreamer4D利用世界模型作为数据引擎，基于真实世界的驾驶数据合成新轨迹视频（例如变道场景）。如下图所示，DriveDreamer4D不仅可以提升多种重建算法（PVG,Gaussian,Deformable-GS）的图像渲染质量，还可以提升驾驶前景（车辆）和背景（车道线）的时空一致性。

DriveDreamer4D 的总体结构框图如下所示，轨迹生成模块（NTGM）用于调整原始轨迹动作，如转向角度和速度，以生成新的轨迹。这些新轨迹为提取结构化信息（如车辆3D框和背景车道线细节）提供了全新的视角。随后，基于世界模型的视频生成能力，并利用更新轨迹后得到的结构化信息作为控制条件，可以合成新轨迹的视频。最后，原始轨迹视频与新轨迹视频相结合，进行4DGS模型的优化。

在实验中，如下第一列视频所示，可以看出多种传统算法（PVG,Gaussian,Deformable-GS）在变道场景下的车道线、天空、车辆都会模糊，甚至出现“鬼影”现象。而DriveDreamer4D可以提升多种重建算法在复杂变道场景下的视频渲染效果，不仅消除了“鬼影”，而且提升了交通元素的渲染质量，车辆和车道线都更加清晰。

除了变道，在车辆变速场景下，传统算法（PVG,Gaussian,Deformable-GS）的表现能力也受到限制，如下第一列视频所示，这些算法在自车加速时，前方的车辆都出现了“拖影”现象。而经过DriveDreamer4D提升后，渲染的车辆的时空一致性更高。

在定量实验中，本文证明了DriveDreamer4D不仅可以提升多种重建算法(PVG,Gaussian,Deformable-GS)的图像渲染质量(如表2)，还可以提升车辆和车道线渲染的时空一致性（如表1）。此外，本文还通过user study（表3）证明用户更加偏好DriveDreamer4D的渲染效果，获得了超过80%的投票率。

表1 DriveDreamer4D提升了车辆和车道线重建渲染的时空一致性

表2 DriveDreamer4D提升了图像重建渲染质量

表3 User study证明用户更加偏好DriveDreamer4D的渲染效果

本项DriveDreamer4D工作是极佳科技研究团队之前DriveDreamer和DriveDreamer-2工作的延续。DriveDreamer是首个面向真实驾驶场景的世界模型，可以根据不同的控制条件生成自动驾驶周视视频，有效提升了BEV感知的性能；DriveDreamer-2在此基础上，引入大语言模型，可以生成用户自定义的驾驶数据，进一步提升了长尾和corner case场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求，DriveDreamer4D利用DriveDreamer系列工作的能力，用以生成新轨迹视频（例如变道、加减速），从而大幅提升了多种4DGS算法的重建效果。

本篇成果的牵头单位为极佳科技，致力于将视频生成提升到4D世界模型，赋予AI大模型对于4D空间的理解、生成、常识和推理的能力，实现4D空间中的交互和行动，走向通用空间智能，是一家成长迅猛的空间智能公司。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作，以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力，都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司，在物理空间和虚拟空间两方面都已取得显著的技术和商业进展，获得了行业广泛的认可。

论文链接：https://arxiv.org/abs/2410.13571
项目主页：https://drivedreamer4d.github.io/
代码地址：https://github.com/GigaAI-research/DriveDreamer4D

文章来自：51CTO

发表回复 取消回复

发表回复取消回复