不到60秒就能生成3D「手办」，Meta发力3D生成，ChatGPT时刻要来了吗？ -

一直以来，创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。

然而，3D 生成具有独特而艰巨的挑战，这是图像和视频等其他生成内容所不具备的。

首先，3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准；
其次，与其他研究相比，可用的数据量少。虽然该领域有数十亿张图像和视频可供学习，但可用于训练的 3D 内容数量要少三到四个数量级。因此，现阶段的3D 生成还必须从非 3D 的图像和视频中学习，而且需要从部分 2D 观察中推断出 3D 信息；
传统方法生成的3D 资源通常难以实现逼真的照明和材质属性，从而限制了它们在专业工作流程中的实用性；
3D生成是一个非常耗费算力的过程，主要因为它涉及到复杂的计算和大量的数据处理，如实时渲染、细节处理。并且由于算力不够，可能会导致生成速度非常慢。

在生成式AI爆发的当下，很多研究者开始尝试针对以上问题提出解决方案。

刚刚，Meta发布了最新系统Meta 3D Gen (3DGen)，其用不到一分钟的时间，就能直接从文本生成3D资产。

论文地址：https://ai.meta.com/research/publications/meta-3d-gen/?cnotallow=24428397aaeb0cc6751570d48a532d36

3DGen支持基于物理的渲染 (PBR)，这是在实际应用中重新照明 3D 资产所必需的。此外，3DGen 还支持使用用户提供的额外文本输入对先前生成的（或艺术家创建的）3D 形状进行重新纹理化。

比如下面所展示的，借助3DGen，研究者渲染出了一只金属色的小狗：

未来感满满的机器人：

3DGen还能对生成的对象纹理进行进一步编辑和定制，同样的方法也可以应用于艺术家创建的3D网格纹理而不需要修改。如下所示，3DGen将艺术家创建的3D资产渲染成彩色的蝴蝶。

蝴蝶「变身」为用粉色和绿色纱线编织的蝴蝶玩具。

通过展示可以看出，即使是复杂的文本提示，3DGen也能很好地遵循指令，生成的3D形状和纹理质量也比较好。

以下是论文中的具体信息。

Meta 3D Gen基本原理

Meta 3D Gen 是一种两阶段方法，包括两个关键组件：用于创建 3D 网格的 Meta 3D AssetGen 和用于生成纹理的 Meta 3D TextureGen。

这些技术协同工作，可生成具有高分辨率纹理和PBR材质的 3D 资产。Meta表示，该流程的速度是现有解决方案的 3 到 10 倍。

第一阶段为3D 资产生成阶段。在这一阶段，根据用户提供的文本提示，Meta 3D AssetGen（简称 AssetGen）创建初始 3D 资产。此步骤生成具有纹理和 PBR 材质贴图的 3D 网格。推理时间约为 30 秒。

接下来是第二阶段。给定第一阶段生成的 3D 资产和用于生成的初始文本提示，第二阶段将基于该资产和提示生成更高质量的纹理和 PBR 贴图。第二阶段用到了文本到纹理生成器 Meta 3D TextureGen（简称为 TextureGen）。推理时间约为 20 秒。

此外，给定一个无纹理的 3D 网格和描述其所需外观的提示，第二阶段还可用于从头开始为该 3D 资产生成纹理（网格可以是先前生成的，也可以是艺术家创建的）。推理时间约为 20 秒。

下图为第一阶段和第二阶段可视化对比。后者往往具有更高的视觉美感，看起来更逼真，细节频率更高。

我们不难发现，3DGen 以 AssetGen 和 TextureGen 为基础，将3D 对象的三个关键信息进行了很好的互补：视图空间（对象的图像）、体积空间（3D 形状和外观）和 UV 空间（纹理）。

此过程从 AssetGen 开始，通过使用一个多视角和多通道的文本到图像生成器，生成关于物体的几个相对一致的视图。接着，AssetGen中的一个重建网络会在体积空间中提取出3D对象的第一个版本。此过程接着进行网格提取，建立对象的3D形状和其纹理的初步版本，这一系列步骤构成了从文本描述到3D模型的转换过程。最后，TextureGen 组件利用视图空间和 UV 空间生成的组合来重新生成纹理，提高纹理质量和分辨率，同时保持对初始提示的保真度。

实验对比

运行时间和功能上的对比

论文将3DGen的性能与业界领先的文本到3D生成模型进行了比较，包括 CSM、Tripo3D、Rodin Gen-1 V0.5、Meshy v3等。

在时间上，stage1最快的是Tripo3D（经过笔者实测，Tripo3D线上版本目前stage1为10秒，stage2是2分钟）；stage2最快的是Meta 3D Gen，Tripo3D紧随其后，Rodin Gen-1 V0.5排名第三，用了2-30分钟完成。

在功能上，除了Rodin支持重拓扑之外，笔者实测Tripo3D也支持retopology。

定量评测指标

表2主要表现了不同模型遵循 prompt的结果。主要关注text-to-3D，实验中用了来自2023 Google DreamFusion论文中的404个prompt，细分为物体(156)、角色(106) ，组合角色物体 (141)，难度由低到高。定量对比部分全部是user study（用户偏好）。

结果表明：在text-to-3D比较重要的prompt fidelity指标上：

综合排序为：Meta 3D Gen > Third-party T23D generator > Tripo3D > Meshy v3 > CSM Cube 2.0 > Rodin Gen-1 。其中前三名差距很小（3个点的差距，404个prompt中的12个）。CSM和Rodin相较其他方法有明显差异，Rodin和3DGen相比，两者相差 21.8个点。
分项评测方面，最简单的objects中表现最好的是Meshy v3。角色类和复杂组合概念的表现代表了技术水准，也是3D产业应用中最重要的部分，Meta在复杂组合上排名第一，Tripo3D则是难度越高表现越强，仅次于Meta，和第一名差距很小。