【AI论文】DeepMesh：基于强化学习的自回归艺术家网格创建

摘要：三角形网格在3D应用中扮演着至关重要的角色，能够实现高效的操作和渲染。虽然自回归方法通过预测离散的顶点标记来生成结构化的网格，但它们往往受到面数限制和网格不完整性的约束。为了应对这些挑战，我们提出了DeepMesh框架，该框架通过两项关键创新来优化网格生成：（1）一种高效的预训练策略，结合了新颖的标记化算法，以及在数据整理和处理方面的改进；（2）将强化学习（RL）引入3D网格生成中，通过直接偏好优化（DPO）实现与人类偏好的对齐。我们设计了一种结合人工评估和3D指标的评分标凈，以收集用于DPO的偏好对，从而确保生成的网格既具有视觉吸引力又具备几何准确性。在点云和图像作为条件的情况下，DeepMesh能够生成具有复杂细节和精确拓扑结构的网格，在精度和质量方面均优于最先进的方法。项目页面：DeepMesh。Huggingface链接：Paper page，论文链接：2503.15265

研究背景和目的

研究背景

三角形网格在三维（3D）资产表示中占据核心地位，广泛应用于虚拟现实、游戏开发、动画制作等多个领域。这些网格资产既可以通过艺术家手动创建，也可以通过应用诸如Marching Cubes等算法从体积场（如神经辐射场NeRF或符号距离场SDF）自动生成。艺术家手工创建的网格通常具有优化的拓扑结构，便于编辑、变形和纹理映射。然而，通过Marching Cubes算法生成的网格虽然几何精度较高，但往往缺乏最优的拓扑结构，导致网格过于密集且结构不规则。

近年来，自动生成艺术家风格网格的方法取得了显著进展。这些方法以从几何体提取的点云作为输入，通过自回归方式预测网格顶点和面，从而有效地保留了结构化和艺术优化的拓扑。尽管如此，现有的自回归网格生成方法仍面临两大挑战：

预训练难度大：将3D网格标记化以供Transformer模型处理，往往会导致序列过长，从而增加计算成本。此外，低质量的网格数据会破坏训练稳定性，导致损失值飙升。
缺乏与人类偏好的对齐机制：现有方法缺乏将输出与人类偏好对齐的机制，限制了其生成具有艺术精炼度的网格的能力。此外，生成的网格常常存在几何缺陷，如孔洞、缺失部分和冗余结构。

为了应对这些挑战，研究一种能够高效生成高质量、艺术家风格网格的方法显得尤为重要。这不仅能够推动3D内容创作领域的发展，还能为虚拟现实、游戏设计等领域提供更为丰富和精细的3D资产。

研究目的

本研究旨在提出一种新颖的DeepMesh框架，通过优化网格生成过程，解决现有自回归网格生成方法面临的挑战。具体研究目的包括：

开发一种高效的预训练策略，结合新颖的标记化算法，以及数据整理和处理方面的改进，提高自回归模型的训练效率和稳定性。
引入强化学习（RL）技术，特别是直接偏好优化（DPO），以实现3D网格生成与人类偏好的对齐，提升生成网格的视觉吸引力和几何准确性。
设计一种结合人工评估和3D指标的评分标凈，用于收集用于DPO的偏好对，确保生成的网格既符合人类的审美偏好，又具备精确的几何结构。
通过在点云和图像条件下生成具有复杂细节和精确拓扑结构的网格，验证DeepMesh框架在精度和质量方面的优越性，推动3D内容创作技术的发展。

研究方法

1. 高效的预训练策略

新颖的标记化算法：针对现有标记化算法在处理高分辨率网格时面临的序列过长问题，本研究提出了一种改进的标记化算法。该算法通过局部感知的面遍历和块索引坐标编码，显著缩短了序列长度，同时保留了网格的几何细节。具体实现中，算法首先将网格面划分为多个局部补丁，以减少冗余；然后对每个面中的顶点坐标进行量化和排序，形成完整的标记序列；最后，通过块索引和合并相邻索引值进一步缩短序列长度。
数据整理和处理改进：为了提高训练数据的质量，本研究提出了一种数据整理策略，用于过滤掉几何结构不规则、碎片化严重或几何复杂度过高的低质量网格。此外，还采用了截断训练策略，通过将输入标记序列划分为固定大小的上下文窗口，并应用滑动窗口机制逐步训练每个窗口段，以提高训练效率。

2. 强化学习与人类偏好的对齐

直接偏好优化（DPO）：为了将网格生成与人类偏好对齐，本研究引入了DPO方法。DPO是一种无需奖励模型的强化学习方法，通过训练模型在偏好对（即正样本和负样本）上最大化正样本的生成概率，从而实现与人类偏好的对齐。具体实现中，首先使用预训练模型生成偏好对，并通过人工评估和3D指标对它们进行标注；然后，使用DPO损失函数对模型进行微调，以提高生成网格的视觉吸引力和几何准确性。
评分标凈设计：为了收集用于DPO的偏好对，本研究设计了一种结合人工评估和3D指标的评分标凈。该标凈综合考虑了网格的几何完整性和视觉吸引力，确保收集到的偏好对既符合人类的审美偏好，又具备精确的几何结构。

3. DeepMesh框架的整体实现

模型架构：DeepMesh框架采用自回归Transformer模型作为核心结构，其中每层包含自注意力层和交叉注意力层。对于点云条件生成任务，还采用了一个联合训练的感知器编码器来提取点云特征，并通过交叉注意力层将其集成到Transformer模型中。为了提高训练效率，还采用了Hourglass Transformer架构，该架构可以在保持性能的同时节省50%的内存。
训练过程：在预训练阶段，使用改进的标记化算法和数据整理策略对模型进行训练。在微调阶段，使用DPO方法和收集到的偏好对对模型进行进一步训练，以提高生成网格的质量。

研究结果

1. 定性结果

点云条件生成：与最新的开源艺术家风格网格生成方法（如MeshAnythingv2和BPT）相比，DeepMesh能够生成具有更复杂细节和更高几何精度的网格。特别是在处理高分辨率网格时，DeepMesh能够生成具有更多面的网格，从而更好地保留原始几何体的细节。
图像条件生成：对于图像条件生成任务，DeepMesh首先使用TREL-LIS方法将图像转换为3D点云，然后利用点云条件生成能力生成高质量的网格。生成的网格不仅与输入图像高度一致，而且具有复杂的细节和精确的拓扑结构。
多样性：通过为相同的点云输入多次生成不同的网格，验证了DeepMesh的多样性生成能力。生成的网格在保持与输入点云一致性的同时，展现出不同的外观和细节，这对于需要多种设计选项和变体的应用来说至关重要。

2. 定量结果

几何相似性：与MeshAnythingv2和BPT方法相比，DeepMesh在Chamfer距离和Hausdorff距离等几何相似性指标上取得了更优的结果。这表明DeepMesh生成的网格与原始几何体之间的相似性更高。
用户研究：通过用户研究评估了生成网格的主观视觉吸引力。结果显示，用户更偏好DeepMesh生成的网格，进一步验证了其在质量方面的优越性。
标记化算法效率：与现有的标记化算法相比，DeepMesh采用的改进算法在压缩比、词汇表大小和训练时间等方面均表现出色。这表明DeepMesh的标记化算法在高效性和紧凑性方面均优于现有方法。

研究局限

尽管DeepMesh在3D网格生成方面取得了显著进展，但仍存在一些局限性：

点云条件限制：DeepMesh的性能受到点云输入质量的限制。低质量的点云可能导致生成的网格存在缺陷或细节丢失。未来工作可以探索如何增强点云编码器的能力，以更好地处理低质量点云输入。
数据集规模：目前用于训练DeepMesh的数据集规模相对有限。这限制了模型在更广泛场景下的泛化能力。未来工作可以收集更多样化的3D数据，以进一步提高模型的泛化性和鲁棒性。
计算资源需求：DeepMesh的训练和推理过程需要较高的计算资源。这限制了其在资源受限环境中的应用。未来工作可以探索如何优化模型架构和训练策略，以降低计算资源需求并提高模型效率。

未来研究方向

增强点云处理能力：开发更强大的点云编码器，以提高DeepMesh处理低质量点云输入的能力。这可以通过引入更复杂的卷积神经网络（CNN）架构或结合图神经网络（GNN）来实现。
扩大数据集规模：收集更多样化的3D数据，以训练更具泛化性和鲁棒性的DeepMesh模型。这可以通过与其他研究机构合作或利用在线资源来实现。
优化模型架构和训练策略：探索更高效的模型架构和训练策略，以降低DeepMesh的计算资源需求并提高模型效率。这可以通过引入轻量化网络架构、剪枝和量化技术或采用分布式训练策略来实现。
多模态融合：研究如何将DeepMesh扩展到处理多模态输入（如点云、图像和文本），以实现更灵活的3D内容创作。这可以通过引入多模态Transformer模型或结合其他深度学习技术来实现。
实时生成能力：开发具有实时生成能力的DeepMesh版本，以满足实时3D内容创作和渲染的需求。这可以通过优化模型架构、采用更高效的推理算法或利用硬件加速技术来实现。