LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 论文解读

目录

一、概述

二、相关工作

1、LLMs到多模态

2、3D对象生成

3、自回归的Mesh生成

三、LLaMA-Mesh

1、3D表示

2、预训练模型

3、有监督的微调数据集

4、数据集演示

四、实验

1、生成的多样性

2、不同模型text-to-Mesh的比较

3、通用语境的评估


一、概述

        该论文首次提出了一个通过大语言模型(LLM)来生成3D对象的模型LLaMA-Mesh,扩展了在文本上预训练的LLM的能力,来生成一个3D Mesh,有效地统一了3D和文本,并且仍然保持了原有LLaMA的文本生成性能。

(1)将3D Mesh表示为纯文本形式,实现LLM与3D Mesh的直接集成,避免了量化带来的几何细节损失,使LLM能够直接处理和生成3D Mesh。

(2)构建了包含3D Mesh生成、理解和文本生成任务的有监督微调(SFT)数据集,使得预训练的LLM能够学习复杂的空间知识,实现文本到3D网格的统一生成。

(3)在微调LLM以进行3D Mesh生成的同时,也保持了模型在文本生成任务上的优秀性能,实现了两种模态的统一。

二、相关工作

1、LLMs到多模态

        将LLM扩展到一个统一的模型处理和生成多模态信息,例如视觉和语言,近期的大模型工作包括多模态的理解视觉如Qwen,Blip,Vila等,使用视觉分词器来统一图像和文本的生成例如Emu3,Chameleon等。而该论文考虑修改分词器,来实现生成3D模型。

        以往的LLM只有生成预定义对象的布局方式(类似于编辑),而本论文是第一个允许LLM直接生成3D Mesh作为OBJ文件。

2、3D对象生成

        DreamFusion、Magic3D、ProlificDreamer等考虑使用SDS来实现文本到3D对象。

        LRM、CRM、InstantMesh等考虑使用前馈方法无需测试是优化来生成3D对象。

        但是这些方法通常将3D对象转变为数值场,并通过marching cubes或者其他类似变体来提取mesh,但不容易引入分词器作为离散标记。

3、自回归的Mesh生成

        类似于PolyGen、MeshGPT、MeshXL等奖3D对象表示为一个标记坐标的离散序列,并使用自回归transformer来生成具有艺术性的对象。

        MeshAnything、PivotMesh、EdgeRunner通过点云作为输入特征来优化限制,但这些工作都从0开始训练,缺乏语言能力。

三、LLaMA-Mesh

        LLaMA-Mesh模型分为三个模块:将3D Mesh转换为文本,预训练带有3D对象多模态的LLaMA-Mesh,创建有监督的3D对话数据集。

1、3D表示

        LLaMA-Mesh采用obj文件格式来表示3D网格模型,obj文件包含顶点(v)坐标和面(f)定义两个信息,如下图左侧的表示,顶点v就是x,y,z坐标,f就是v_1,v_2,v_3三个顶点坐标索引。

        对于坐标存在浮点数的问题,由于超出LLM上下文,所以论文进行量化,通过定义一个固定的[0,64]的范围,每一个顶点都在整数点上,降低了精度但保证了能够进行正常训练,提供可行性。

2、预训练模型

        使用LLaMA3.1-8B-Instruct作为基础模型,但原有的模型效果不佳,缺少对3D对象的理解,所以我们考虑在自己创建的数据集上进行微调,实现模型能够学习OBJ格式的模式和语义,生成文本描述的有效3D网格。下图为ChatGPT 4o和LLaMA的预训练模型对3D OBJ文件的固有理解。

3、有监督的微调数据集

        对于建立有监督微调(SFT)数据集用于训练,使用Objaverse数据集中的mesh,一个可描述的通用3D数据集。并且过滤Objaverse数据集选择最多500个面的网格,并且转换为Obj格式,并将顶点坐标量化到64个箱子。文本使用Cap3D来生成每个网格的文本描述,并在[0^o,90^o,180^o,270^o]四个角度进行随机旋转。并且将Obj文件中的格式为[z,y,x],顶点坐标按照顶点低到高排序,面按照顶点索引从低到高排序,将LLM长度设置为8K个token。

        为了建立对话数据集,引入两种方法,基于规则的方法和基于LLM的增强

        基于规则的方法中设计了一些简单的模式,如用于理解3D模型:“(user) {obj} What is this?(assistant){caption}."  用于创造3D模型:“(user)Create a 3D model of {caption}.(assistant) {obj}” 对于每个对象随机选择一个模式,学习文本到3D表示之间的对应关系。

        对于增强方法,我们设计了复杂对话,实现3D to text的交错对话。

        这个对话包括了:3D模型创建和理解,数学理解,代码生成和物体的分解等工作。

        最后我们随机选择这两种方法,来随机构建对话,并且使用UltraChat创建通用对话数据集。

4、数据集演示

四、实验

1、生成的多样性

2、不同模型text-to-Mesh的比较

         其实LLaMA-Mesh的生成还是很 抽象的,由于使用网格生成而导致对于过于形象的物体会产生失真。

3、通用语境的评估

        再经过text-to-Mesh后,不可避免的就是对于原有的语境的性能下降,LLaMA-Mesh更适应对话3D对象问题,而对于原有的数学能力,常识推理等能力有所下降,但相比于LLaMA3.2(3B)更优,为什么不试8B?(hhhhh)

         对于上面的测试Metric的解释:

  • MMLU (Massive Multitask Language Understanding) 是一个评估模型一般知识的基准测试集。
  • PIQA (Physical Intuition QA) 是一个评估模型常识推理能力的基准测试集。
  • HellaSwag 是一个评估模型常识推理能力的基准测试集。
  • GSM8K (Grade School Math) 是一个评估模型数学问题解决能力的基准测试集。

参考文献:LLaMA-Mesh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/478014.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据学习 | Spark-Core】Spark提交及运行流程

spark的集群运行结构 我们要选择第一种使用方式 命令组成结构 spark-submit [选项] jar包 参数 standalone集群能够使用的选项。 --master MASTER_URL #集群地址 --class class_name #jar包中的类 --executor-memory MEM #executor的内存 --executor-cores NUM # executor的…

ES6 、ESNext 规范、编译工具babel

ES6 、ESNext 规范、编译工具简介 ES6ES(ECMAScript) vs JS常量进一步探讨 obj对象的扩展面试:使对象属性也不能更改——Object.freeze(obj) 解构deconstruction变量的解构赋值:数组解构赋值:对象解构赋值:…

【MyBatis】全局配置文件—mybatis.xml 创建xml模板

文章目录 模板文件配置元素typeAliasessettings 模板文件 创建模板 按照顺序打开【File】–>【settings】–>【Editor】–>【File and Code Templates】&#xff08;或直接搜索&#xff09; <?xml version"1.0" encoding"UTF-8" ?> <…

小程序免备案:快速部署与优化的全攻略

小程序免备案为开发者提供了便捷高效的解决方案&#xff0c;省去繁琐的备案流程&#xff0c;同时通过优化网络性能和数据传输&#xff0c;保障用户体验。本文从部署策略、应用场景到技术实现&#xff0c;全面解析小程序免备案的核心优势。 小程序免备案&#xff1a;快速部署与优…

【数据结构】—— 线索二叉树

引入 我们现在提倡节约型杜会&#xff0c; 一切都应该节约为本。对待我们的程序当然也不例外&#xff0c;能不浪费的时间或空间&#xff0c;都应该考虑节省。我们再观察团下图的二叉树&#xff08;链式存储结构)&#xff0c;会发现指针域并不是都充分的利用了&#xff0c;有许…

Outlook for Mac同步错误:The total attachment size exceeds the limit.

现象 mac一直弹出同步错误提示&#xff1a;The total attachment size exceeds the limit. 怎么也去不掉 解决办法 ①清除收件箱和已发送邮件的缓存 ②删除邮箱账号再重新添加

IT服务团队建设与管理

在 IT 服务团队中&#xff0c;需要明确各种角色。例如系统管理员负责服务器和网络设备的维护与管理&#xff1b;软件工程师专注于软件的开发、测试和维护&#xff1b;运维工程师则保障系统的稳定运行&#xff0c;包括监控、故障排除等。通过清晰地定义每个角色的职责&#xff0…

使用树莓派安装shairport-sync使老音响变身AirPlay音响

借助shairport-sync&#xff0c;可以让普通音响变成AirPlay无线音响&#xff0c;由于树莓派天生的低功耗&#xff0c;做这种事情最适合。所以架构就是树莓派安装Ubuntu24.04&#xff0c;在树莓派上安装shairport-sync&#xff0c;树莓派再通过3.5mm线连接音响。 安装Ubuntu24.…

全志T113双核异构处理器的使用基于Tina Linux5.0——RTOS系统定制开发

8、RTOS系统定制开发 此处以在rtos/components/aw目录下创建一个简单的软件包为例&#xff0c;帮助客户了解RTOS环境&#xff0c;为RTOS系统定制开发提供基础。 RTOS环境下的软件包主要由三部分组成&#xff0c;源文件&#xff0c;Makefile&#xff0c;Kconfig&#xff0c;如下…

用CAXA CAD电子图板导入图框、标题栏并导出pdf的方法

1.导入图框&#xff1a; 点击调入图框->出现读入图框文件 一个一个点击&#xff0c;选择合适的图框 然后点击导入 2.导入标题栏&#xff1a; 调入标题栏->出现读入标题栏文件 一个一个点击&#xff0c;选择合适的标题栏&#xff0c;然后点击导入 3.导出pdf&#x…

【Linux 篇】Docker 启动和停止的精准掌舵:操控指南

文章目录 【Linux 篇】Docker 启动和停止的精准掌舵&#xff1a;操控指南前言docker基本命令1. 帮助手册 2. 指令介绍 常用命令1. 查看镜像2. 搜索镜像3. 拉取镜像4. 删除镜像5. 从Docker Hub拉取 容器的相关命令1. 查看容器2. 创建与启动容器3. 查看镜像4. 启动容器5. 查看容…

Java---反射机制

JAVA反射机制是在运行状态中&#xff0c;对于任意一个类&#xff0c;都能够知道这个类的所有属性和方法&#xff1b;对于任意一个对象&#xff0c; 都能够调用它的任意方法和属性&#xff1b;这种动态获取信息以及动态调用对象方法的功能称为java语言的反射机制。 在编译后产生…

Mac配置maven环境及在IDEA中配置Maven

Mac配置maven环境及在IDEA中配置Maven 1. 介绍 Maven是一款广泛用于Java等JVM语言项目的工具&#xff0c;它以项目对象模型&#xff08;POM&#xff09;为基础进行项目管理&#xff0c;通过POM文件来定义项目信息和依赖关系。同时&#xff0c;它也是构建自动化工具&#xff0…

知乎日报——第二周

知乎日报——第二周 文章目录 知乎日报——第二周本周总结ModelViewController无限右滑预加载 总结 本周总结 本周主要完成了知乎日报的详情页面&#xff0c;实现了无限右滑和动态申请详情页的内容&#xff0c;实现了预先加载。以及通过位置获取相应的格外信息&#xff0c;使用…

非常简单实用的前后端分离项目-仓库管理系统(Springboot+Vue)part 2

七、创建前端项目 你下载了nodejs吗&#xff1f;从cn官网下载&#xff1a;http://nodejs.cn/download/&#xff0c;或者从一个国外org网站下载&#xff0c;选择自己想要的版本https://nodejs.org/download/release/&#xff0c;双击下载好的安装文件&#xff0c;选择安装路径安…

Windows 软件之 FFmpeg

文章目录 前言1 FFmpeg 视频处理1.1 编解码1.2 其它视频编辑命令1.3 视频抽帧 2 FFmpeg 音频处理3 FFmpeg 图片处理3.1 编解码3.2 拼接图片3.3 图片合成视频 附录1&#xff1a;mediainfo.ps1 前言 FFmpeg 是一套可以用来记录、转换数字音频、视频&#xff0c;并能将其转化为流的…

Docker1:认识docker、在Linux中安装docker

欢迎来到“雪碧聊技术”CSDN博客&#xff01; 在这里&#xff0c;您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者&#xff0c;还是具有一定经验的开发者&#xff0c;相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导&#xff0c;我将…

MATLAB的addpath和rmpath函数增加或删除路径

在进行MBD建模开发时&#xff0c;模型生成代码时常需要加载一些其他的文件&#xff0c;例如代码生成模版文件cgt文件、模型所涉及的头文件&#xff0c;这个时候可以在模型的回调函数中使用addpath和rmpath函数加载和删除路径&#xff0c;例如设置模型的加载之前的回调函数在模型…

【FPGA开发】Vivado自定义封装IP核,绑定总线

支持单个文件的封装、整个工程的封装&#xff0c;这里用单个文件举例。 在文件工程目录下&#xff0c;自建一个文件夹&#xff0c;里面放上需要封装的verilog文件。 选择第三个&#xff0c;指定路径封装&#xff0c;找到文件所在目录 取个名&#xff0c;选择封装IP的路径 会…