摘要:三角形网格在3D应用中扮演着至关重要的角色,能够实现高效的操作和渲染。虽然自回归方法通过预测离散的顶点标记来生成结构化的网格,但它们往往受到面数限制和网格不完整性的约束。为了应对这些挑战,我们提出了DeepMesh框架,该框架通过两项关键创新来优化网格生成:(1)一种高效的预训练策略,结合了新颖的标记化算法,以及在数据整理和处理方面的改进;(2)将强化学习(RL)引入3D网格生成中,通过直接偏好优化(DPO)实现与人类偏好的对齐。我们设计了一种结合人工评估和3D指标的评分标凈,以收集用于DPO的偏好对,从而确保生成的网格既具有视觉吸引力又具备几何准确性。在点云和图像作为条件的情况下,DeepMesh能够生成具有复杂细节和精确拓扑结构的网格,在精度和质量方面均优于最先进的方法。项目页面:DeepMesh。Huggingface链接:Paper page,论文链接:2503.15265
研究背景和目的
研究背景
三角形网格在三维(3D)资产表示中占据核心地位,广泛应用于虚拟现实、游戏开发、动画制作等多个领域。这些网格资产既可以通过艺术家手动创建,也可以通过应用诸如Marching Cubes等算法从体积场(如神经辐射场NeRF或符号距离场SDF)自动生成。艺术家手工创建的网格通常具有优化的拓扑结构,便于编辑、变形和纹理映射。然而,通过Marching Cubes算法生成的网格虽然几何精度较高,但往往缺乏最优的拓扑结构,导致网格过于密集且结构不规则。
近年来,自动生成艺术家风格网格的方法取得了显著进展。这些方法以从几何体提取的点云作为输入,通过自回归方式预测网格顶点和面,从而有效地保留了结构化和艺术优化的拓扑。尽管如此,现有的自回归网格生成方法仍面临两大挑战:
-
预训练难度大:将3D网格标记化以供Transformer模型处理,往往会导致序列过长,从而增加计算成本。此外,低质量的网格数据会破坏训练稳定性,导致损失值飙升。
-
缺乏与人类偏好的对齐机制:现有方法缺乏将输出与人类偏好对齐的机制,限制了其生成具有艺术精炼度的网格的能力。此外,生成的网格常常存在几何缺陷,如孔洞、缺失部分和冗余结构。
为了应对这些挑战,研究一种能够高效生成高质量、艺术家风格网格的方法显得尤为重要。这不仅能够推动3D内容创作领域的发展,还能为虚拟现实、游戏设计等领域提供更为丰富和精细的3D资产。
研究目的
本研究旨在提出一种新颖的DeepMesh框架,通过优化网格生成过程,解决现有自回归网格生成方法面临的挑战。具体研究目的包括:
-
开发一种高效的预训练策略,结合新颖的标记化算法,以及数据整理和处理方面的改进,提高自回归模型的训练效率和稳定性。
-
引入强化学习(RL)技术,特别是直接偏好优化(DPO),以实现3D网格生成与人类偏好的对齐,提升生成网格的视觉吸引力和几何准确性。
-
设计一种结合人工评估和3D指标的评分标凈,用于收集用于DPO的偏好对,确保生成的网格既符合人类的审美偏好,又具备精确的几何结构。
-
通过在点云和图像条件下生成具有复杂细节和精确拓扑结构的网格,验证DeepMesh框架在精度和质量方面的优越性,推动3D内容创作技术的发展。
研究方法
1. 高效的预训练策略
-
新颖的标记化算法:针对现有标记化算法在处理高分辨率网格时面临的序列过长问题,本研究提出了一种改进的标记化算法。该算法通过局部感知的面遍历和块索引坐标编码,显著缩短了序列长度,同时保留了网格的几何细节。具体实现中,算法首先将网格面划分为多个局部补丁,以减少冗余;然后对每个面中的顶点坐标进行量化和排序,形成完整的标记序列;最后,通过块索引和合并相邻索引值进一步缩短序列长度。
-
数据整理和处理改进:为了提高训练数据的质量,本研究提出了一种数据整理策略,用于过滤掉几何结构不规则、碎片化严重或几何复杂度过高的低质量网格。此外,还采用了截断训练策略,通过将输入标记序列划分为固定大小的上下文窗口,并应用滑动窗口机制逐步训练每个窗口段,以提高训练效率。
2. 强化学习与人类偏好的对齐
-
直接偏好优化(DPO):为了将网格生成与人类偏好对齐,本研究引入了DPO方法。DPO是一种无需奖励模型的强化学习方法,通过训练模型在偏好对(即正样本和负样本)上最大化正样本的生成概率,从而实现与人类偏好的对齐。具体实现中,首先使用预训练模型生成偏好对,并通过人工评估和3D指标对它们进行标注;然后,使用DPO损失函数对模型进行微调,以提高生成网格的视觉吸引力和几何准确性。
-
评分标凈设计:为了收集用于DPO的偏好对,本研究设计了一种结合人工评估和3D指标的评分标凈。该标凈综合考虑了网格的几何完整性和视觉吸引力,确保收集到的偏好对既符合人类的审美偏好,又具备精确的几何结构。
3. DeepMesh框架的整体实现
-
模型架构:DeepMesh框架采用自回归Transformer模型作为核心结构,其中每层包含自注意力层和交叉注意力层。对于点云条件生成任务,还采用了一个联合训练的感知器编码器来提取点云特征,并通过交叉注意力层将其集成到Transformer模型中。为了提高训练效率,还采用了Hourglass Transformer架构,该架构可以在保持性能的同时节省50%的内存。
-
训练过程:在预训练阶段,使用改进的标记化算法和数据整理策略对模型进行训练。在微调阶段,使用DPO方法和收集到的偏好对对模型进行进一步训练,以提高生成网格的质量。
研究结果
1. 定性结果
-
点云条件生成:与最新的开源艺术家风格网格生成方法(如MeshAnythingv2和BPT)相比,DeepMesh能够生成具有更复杂细节和更高几何精度的网格。特别是在处理高分辨率网格时,DeepMesh能够生成具有更多面的网格,从而更好地保留原始几何体的细节。
-
图像条件生成:对于图像条件生成任务,DeepMesh首先使用TREL-LIS方法将图像转换为3D点云,然后利用点云条件生成能力生成高质量的网格。生成的网格不仅与输入图像高度一致,而且具有复杂的细节和精确的拓扑结构。
-
多样性:通过为相同的点云输入多次生成不同的网格,验证了DeepMesh的多样性生成能力。生成的网格在保持与输入点云一致性的同时,展现出不同的外观和细节,这对于需要多种设计选项和变体的应用来说至关重要。
2. 定量结果
-
几何相似性:与MeshAnythingv2和BPT方法相比,DeepMesh在Chamfer距离和Hausdorff距离等几何相似性指标上取得了更优的结果。这表明DeepMesh生成的网格与原始几何体之间的相似性更高。
-
用户研究:通过用户研究评估了生成网格的主观视觉吸引力。结果显示,用户更偏好DeepMesh生成的网格,进一步验证了其在质量方面的优越性。
-
标记化算法效率:与现有的标记化算法相比,DeepMesh采用的改进算法在压缩比、词汇表大小和训练时间等方面均表现出色。这表明DeepMesh的标记化算法在高效性和紧凑性方面均优于现有方法。
研究局限
尽管DeepMesh在3D网格生成方面取得了显著进展,但仍存在一些局限性:
-
点云条件限制:DeepMesh的性能受到点云输入质量的限制。低质量的点云可能导致生成的网格存在缺陷或细节丢失。未来工作可以探索如何增强点云编码器的能力,以更好地处理低质量点云输入。
-
数据集规模:目前用于训练DeepMesh的数据集规模相对有限。这限制了模型在更广泛场景下的泛化能力。未来工作可以收集更多样化的3D数据,以进一步提高模型的泛化性和鲁棒性。
-
计算资源需求:DeepMesh的训练和推理过程需要较高的计算资源。这限制了其在资源受限环境中的应用。未来工作可以探索如何优化模型架构和训练策略,以降低计算资源需求并提高模型效率。
未来研究方向
-
增强点云处理能力:开发更强大的点云编码器,以提高DeepMesh处理低质量点云输入的能力。这可以通过引入更复杂的卷积神经网络(CNN)架构或结合图神经网络(GNN)来实现。
-
扩大数据集规模:收集更多样化的3D数据,以训练更具泛化性和鲁棒性的DeepMesh模型。这可以通过与其他研究机构合作或利用在线资源来实现。
-
优化模型架构和训练策略:探索更高效的模型架构和训练策略,以降低DeepMesh的计算资源需求并提高模型效率。这可以通过引入轻量化网络架构、剪枝和量化技术或采用分布式训练策略来实现。
-
多模态融合:研究如何将DeepMesh扩展到处理多模态输入(如点云、图像和文本),以实现更灵活的3D内容创作。这可以通过引入多模态Transformer模型或结合其他深度学习技术来实现。
-
实时生成能力:开发具有实时生成能力的DeepMesh版本,以满足实时3D内容创作和渲染的需求。这可以通过优化模型架构、采用更高效的推理算法或利用硬件加速技术来实现。