【AI论文】DeepMesh:基于强化学习的自回归艺术家网格创建

摘要:三角形网格在3D应用中扮演着至关重要的角色,能够实现高效的操作和渲染。虽然自回归方法通过预测离散的顶点标记来生成结构化的网格,但它们往往受到面数限制和网格不完整性的约束。为了应对这些挑战,我们提出了DeepMesh框架,该框架通过两项关键创新来优化网格生成:(1)一种高效的预训练策略,结合了新颖的标记化算法,以及在数据整理和处理方面的改进;(2)将强化学习(RL)引入3D网格生成中,通过直接偏好优化(DPO)实现与人类偏好的对齐。我们设计了一种结合人工评估和3D指标的评分标凈,以收集用于DPO的偏好对,从而确保生成的网格既具有视觉吸引力又具备几何准确性。在点云和图像作为条件的情况下,DeepMesh能够生成具有复杂细节和精确拓扑结构的网格,在精度和质量方面均优于最先进的方法。项目页面:DeepMesh。Huggingface链接:Paper page,论文链接:2503.15265

研究背景和目的

研究背景

三角形网格在三维(3D)资产表示中占据核心地位,广泛应用于虚拟现实、游戏开发、动画制作等多个领域。这些网格资产既可以通过艺术家手动创建,也可以通过应用诸如Marching Cubes等算法从体积场(如神经辐射场NeRF或符号距离场SDF)自动生成。艺术家手工创建的网格通常具有优化的拓扑结构,便于编辑、变形和纹理映射。然而,通过Marching Cubes算法生成的网格虽然几何精度较高,但往往缺乏最优的拓扑结构,导致网格过于密集且结构不规则。

近年来,自动生成艺术家风格网格的方法取得了显著进展。这些方法以从几何体提取的点云作为输入,通过自回归方式预测网格顶点和面,从而有效地保留了结构化和艺术优化的拓扑。尽管如此,现有的自回归网格生成方法仍面临两大挑战:

  1. 预训练难度大:将3D网格标记化以供Transformer模型处理,往往会导致序列过长,从而增加计算成本。此外,低质量的网格数据会破坏训练稳定性,导致损失值飙升。

  2. 缺乏与人类偏好的对齐机制:现有方法缺乏将输出与人类偏好对齐的机制,限制了其生成具有艺术精炼度的网格的能力。此外,生成的网格常常存在几何缺陷,如孔洞、缺失部分和冗余结构。

为了应对这些挑战,研究一种能够高效生成高质量、艺术家风格网格的方法显得尤为重要。这不仅能够推动3D内容创作领域的发展,还能为虚拟现实、游戏设计等领域提供更为丰富和精细的3D资产。

研究目的

本研究旨在提出一种新颖的DeepMesh框架,通过优化网格生成过程,解决现有自回归网格生成方法面临的挑战。具体研究目的包括:

  1. 开发一种高效的预训练策略,结合新颖的标记化算法,以及数据整理和处理方面的改进,提高自回归模型的训练效率和稳定性。

  2. 引入强化学习(RL)技术,特别是直接偏好优化(DPO),以实现3D网格生成与人类偏好的对齐,提升生成网格的视觉吸引力和几何准确性。

  3. 设计一种结合人工评估和3D指标的评分标凈,用于收集用于DPO的偏好对,确保生成的网格既符合人类的审美偏好,又具备精确的几何结构。

  4. 通过在点云和图像条件下生成具有复杂细节和精确拓扑结构的网格,验证DeepMesh框架在精度和质量方面的优越性,推动3D内容创作技术的发展。

研究方法

1. 高效的预训练策略

  • 新颖的标记化算法:针对现有标记化算法在处理高分辨率网格时面临的序列过长问题,本研究提出了一种改进的标记化算法。该算法通过局部感知的面遍历和块索引坐标编码,显著缩短了序列长度,同时保留了网格的几何细节。具体实现中,算法首先将网格面划分为多个局部补丁,以减少冗余;然后对每个面中的顶点坐标进行量化和排序,形成完整的标记序列;最后,通过块索引和合并相邻索引值进一步缩短序列长度。

  • 数据整理和处理改进:为了提高训练数据的质量,本研究提出了一种数据整理策略,用于过滤掉几何结构不规则、碎片化严重或几何复杂度过高的低质量网格。此外,还采用了截断训练策略,通过将输入标记序列划分为固定大小的上下文窗口,并应用滑动窗口机制逐步训练每个窗口段,以提高训练效率。

2. 强化学习与人类偏好的对齐

  • 直接偏好优化(DPO):为了将网格生成与人类偏好对齐,本研究引入了DPO方法。DPO是一种无需奖励模型的强化学习方法,通过训练模型在偏好对(即正样本和负样本)上最大化正样本的生成概率,从而实现与人类偏好的对齐。具体实现中,首先使用预训练模型生成偏好对,并通过人工评估和3D指标对它们进行标注;然后,使用DPO损失函数对模型进行微调,以提高生成网格的视觉吸引力和几何准确性。

  • 评分标凈设计:为了收集用于DPO的偏好对,本研究设计了一种结合人工评估和3D指标的评分标凈。该标凈综合考虑了网格的几何完整性和视觉吸引力,确保收集到的偏好对既符合人类的审美偏好,又具备精确的几何结构。

3. DeepMesh框架的整体实现

  • 模型架构:DeepMesh框架采用自回归Transformer模型作为核心结构,其中每层包含自注意力层和交叉注意力层。对于点云条件生成任务,还采用了一个联合训练的感知器编码器来提取点云特征,并通过交叉注意力层将其集成到Transformer模型中。为了提高训练效率,还采用了Hourglass Transformer架构,该架构可以在保持性能的同时节省50%的内存。

  • 训练过程:在预训练阶段,使用改进的标记化算法和数据整理策略对模型进行训练。在微调阶段,使用DPO方法和收集到的偏好对对模型进行进一步训练,以提高生成网格的质量。

研究结果

1. 定性结果

  • 点云条件生成:与最新的开源艺术家风格网格生成方法(如MeshAnythingv2和BPT)相比,DeepMesh能够生成具有更复杂细节和更高几何精度的网格。特别是在处理高分辨率网格时,DeepMesh能够生成具有更多面的网格,从而更好地保留原始几何体的细节。

  • 图像条件生成:对于图像条件生成任务,DeepMesh首先使用TREL-LIS方法将图像转换为3D点云,然后利用点云条件生成能力生成高质量的网格。生成的网格不仅与输入图像高度一致,而且具有复杂的细节和精确的拓扑结构。

  • 多样性:通过为相同的点云输入多次生成不同的网格,验证了DeepMesh的多样性生成能力。生成的网格在保持与输入点云一致性的同时,展现出不同的外观和细节,这对于需要多种设计选项和变体的应用来说至关重要。

2. 定量结果

  • 几何相似性:与MeshAnythingv2和BPT方法相比,DeepMesh在Chamfer距离和Hausdorff距离等几何相似性指标上取得了更优的结果。这表明DeepMesh生成的网格与原始几何体之间的相似性更高。

  • 用户研究:通过用户研究评估了生成网格的主观视觉吸引力。结果显示,用户更偏好DeepMesh生成的网格,进一步验证了其在质量方面的优越性。

  • 标记化算法效率:与现有的标记化算法相比,DeepMesh采用的改进算法在压缩比、词汇表大小和训练时间等方面均表现出色。这表明DeepMesh的标记化算法在高效性和紧凑性方面均优于现有方法。

研究局限

尽管DeepMesh在3D网格生成方面取得了显著进展,但仍存在一些局限性:

  1. 点云条件限制:DeepMesh的性能受到点云输入质量的限制。低质量的点云可能导致生成的网格存在缺陷或细节丢失。未来工作可以探索如何增强点云编码器的能力,以更好地处理低质量点云输入。

  2. 数据集规模:目前用于训练DeepMesh的数据集规模相对有限。这限制了模型在更广泛场景下的泛化能力。未来工作可以收集更多样化的3D数据,以进一步提高模型的泛化性和鲁棒性。

  3. 计算资源需求:DeepMesh的训练和推理过程需要较高的计算资源。这限制了其在资源受限环境中的应用。未来工作可以探索如何优化模型架构和训练策略,以降低计算资源需求并提高模型效率。

未来研究方向

  1. 增强点云处理能力:开发更强大的点云编码器,以提高DeepMesh处理低质量点云输入的能力。这可以通过引入更复杂的卷积神经网络(CNN)架构或结合图神经网络(GNN)来实现。

  2. 扩大数据集规模:收集更多样化的3D数据,以训练更具泛化性和鲁棒性的DeepMesh模型。这可以通过与其他研究机构合作或利用在线资源来实现。

  3. 优化模型架构和训练策略:探索更高效的模型架构和训练策略,以降低DeepMesh的计算资源需求并提高模型效率。这可以通过引入轻量化网络架构、剪枝和量化技术或采用分布式训练策略来实现。

  4. 多模态融合:研究如何将DeepMesh扩展到处理多模态输入(如点云、图像和文本),以实现更灵活的3D内容创作。这可以通过引入多模态Transformer模型或结合其他深度学习技术来实现。

  5. 实时生成能力:开发具有实时生成能力的DeepMesh版本,以满足实时3D内容创作和渲染的需求。这可以通过优化模型架构、采用更高效的推理算法或利用硬件加速技术来实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37420.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ArcGIS和ETOPO-2022 DEM数据分层绘制全球海陆分布

第〇部分 前言 一幅带有地理空间参考、且包含海陆分布的DEM图像在研究区的绘制中非常常见,本文将实现以下图像的绘制 关键步骤: (1)NOAA-NCEI官方下载最新的ETOPO-2022 DEM数据 (2)在ArcGIS(…

Unity | 游戏数据配置

目录 一、ScriptableObject 1.创建ScriptableObject 2.创建asset资源 3.asset资源的读取与保存 二、Excel转JSON 1.Excel格式 2.导表工具 (1)处理A格式Excel (2)处理B格式Excel 三、解析Json文件 1.读取test.json文件 四、相关插件 在游戏开发中,策划…

docker模拟Dos_SYN Flood拒绝服务攻击 (Ubuntu20.04)

目录 ✅ 一、实验环境准备(3 个终端) 👉 所以最终推荐做法: 2️⃣ 配置 seed-attacker 为攻击者,开启 telnet 服务: 3️⃣ 配置 victim-10.9.0.5 为受害者服务器,开启 telnet 客户端并监听&…

场外个股期权是什么?场外个股期权还能做吗?

场外个股期权指在非正式的交易场所,即场外市场上,老板们与特定对手方直接进行的个股期权交易。 场外期权为何被严监管? 场外个股期权指在非正式的交易场所,即场外市场上,老板们与特定对手方直接进行的个股期权交易&am…

vulnhub靶场【billu系列】之billu_b0x2靶机

前言 靶机:billu_b0x2靶机,IP地址为192.168.10.10 攻击:kali,IP地址为192.168.10.6 靶机和攻击机都采用VMware虚拟机,都采用桥接网卡模式 文章涉及的靶机及工具,都可以自行访问官网或者项目地址进行获取…

高性能边缘计算网关-高算力web组态PLC网关

高性能EG8200Pro边缘计算算力网关-超强处理能力 样机申请测试:免费测试超30天(https://www.iotrouter.com/prototype/) 产品主要特点和特色功能 设备概览与连接能力 设备型号:EG8200P。主要特点: 支持多种工业协议&am…

数据可信安全流通实战,隐语开源社区Meetup武汉站开放报名

隐语开源社区 Meetup 系列再出发!2025 年将以武汉为始发站,聚焦"技术赋能场景驱动",希望将先进技术深度融入数据要素流转的各个环节,推动其在实际应用场景中落地生根,助力释放数据要素的最大潜能&#xff01…

避坑指南 | 阿里云服务器centos7上MySQL部署优化指南

目录 1 检查阿里云是否安装mysql 1.1使用 rpm 命令 1.2检查 MySQL 服务状态 2 卸载mysql 2.1停止 MySQL 服务 2.2 检查已安装的 MySQL 包 2.3 卸载 MySQL 包 2.4 删除 MySQL 数据和配置文件 2.5 清理残留的依赖包 2.6 验证卸载 2.7 (可选)删除…

位运算--求二进制中1的个数

位运算–求二进制中1的个数 给定一个长度为 n 的数列,请你求出数列中每个数的二进制表示中 1 的个数。 输入格式 第一行包含整数 n。 第二行包含 n 个整数,表示整个数列。 输出格式 共一行,包含 n 个整数,其中的第 i 个数表…

Go语言的基础类型

一基础数据类型 一、布尔型(Bool) 定义:表示逻辑真 / 假,仅有两个值:true 和 false内存占用:1 字节使用场景:条件判断、逻辑运算 二、数值型(Numeric) 1. 整数类型&…

SpringBoot整合MQTT最详细版(亲测有效)

一、导入pom.xml依赖 <!--mqtt依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-integration</artifactId></dependency><dependency><groupId>org.springframework.in…

记一次发短信接口分析

忘记密码接口 数据包 GET /api/weatherforcast/user/send/17777777777 HTTP/2 Host: Cookie: SECKEY_ABVKd1GnERPtEFYSs7fL9W7VzoxAG0rjit7K8hAiMGIySpo522Wig70mdKRZQlvXNuqUTh9sBTWXG6XJ7miFZtA%3D%3D; Hm_lvt_018467e59f9d76a72cdbed870456819b1742445251,1742456927,1742…

dfs刷题排列问题 + 子集问题 + 组和问题总结

文章目录 一、排列问题全排列II题解代码 优美的排列题解代码 二、子集问题字母大小写全排列题解代码 找出所有子集的异或总和再求和题解代码 三、组合问题电话号码的字母组合题解代码 括号生成题解代码 组合题解代码 目标和题解代码 组合总和题解代码 总结 一、排列问题 全排列…

【AVRCP】蓝牙链路控制器(LC)与AVRCP互操作性要求深度解析

目录 一 、Link Controller&#xff08;LC&#xff09;概述 1.1 LC的定义与功能 1.2 LC在蓝牙技术中的重要性 二、Link Controller&#xff08;LC&#xff09;互操作性要求 2.1 互操作性要求概述 2.2 物理层互操作性要求 2.3 链路管理互操作性要求 2.4 其他互操作性要求…

go + vscode + cline +qwen 快速构建 MCP Server

go 编译自定义 mcp tool current time tool 代码 package mainimport ("context""fmt""time""github.com/mark3labs/mcp-go/mcp""github.com/mark3labs/mcp-go/server" )func main() {// Create MCP servers : server.New…

C语言-动态内存管理

1.为什么要有动态内存分配 我们现如今已经掌握的内存开辟方式有 int main() {int a 0;int arr[30] { 0 };return 0; } 这两种方式&#xff0c;但是这种开辟空间的方式有两个特点&#xff1a; 1.空间开辟大小是固定的 2.数组在申明的时候&#xff0c;必须指定数组的长度&…

Java复习

在开篇前首先申明一下&#xff0c;本文虽不够系统&#xff0c;但复习够用&#xff0c;尤其是快速回忆( •̀ ω •́ )✧与提问。 主打一个速度。 本文将会从Java的基础语法、面向对象、API、字符串、集合、进阶...等六方面讲起。 一、Java的基础语法&#xff1a; 1、Java入门…

Vue+ElementUI 字符串数组标签化展示组件

一. 效果 数据&#xff1a;‘[“苹果”,“香蕉”]’ 可添加&#xff0c;编辑&#xff0c;删除。 二. 组件源码 <template><div><div v-for"(item, index) in items":key"index"><el-inputv-if"inputVisible && ed…

识别并脱敏上传到deepseek/chatgpt的文本文件中的身份证/手机号

本文将介绍一种简单高效的方法解决用户在上传文件到DeepSeek、ChatGPT,文心一言,AI等大语言模型平台过程中的身份证号以及手机号等敏感数据识别和脱敏问题。 DeepSeek、ChatGPT,Qwen,Claude等AI平台工具快速的被接受和使用,用户每天上传的文本数据中潜藏着大量敏感信息,…

UR5e机器人位姿

UR5e 作为一款 6 自由度协作机器人&#xff0c;其末端执行器的位姿&#xff08;位置与姿态的组合&#xff09;控制是实现精准操作的核心。在笛卡尔坐标系中&#xff0c;位姿通常用齐次变换矩阵表示&#xff0c;包含末端的三维位置&#xff08;x, y, z&#xff09;和三维姿态&am…