一个值得关注的3D生成新算法:速度和图像生成平齐,能生成合理的展开贴图和高质量mesh

今天跟大家介绍的GIMDiffusion是一种新的Text-to-3D模型,利用几何图像(Geometry Images)来高效地表示3D形状,避免了复杂的3D架构。通过结合现有的Text-to-Image模型如Stable Diffusion的2D先验知识,GIMDiffusion能够在有限的3D数据下实现强大的泛化能力,生成包含语义意义和内部结构的3D对象,同时保持高效的速度。 一起来看下他的3D生成效果~

GIMDiffusion生成的网格。 对于每个对象显示生成的反照率纹理、纹理网格、无纹理网格和相应的文本提示。对象完全使用GIMDiffusion生成:UV 贴图的结构、纹理和布局都是完全从头生成的。

GIMDiffusion 的优势包括:

  • 基于图像:通过利用现有基于图像的 2D 模型,简化了模型设计和训练。

  • 快速生成:在每个对象 10 秒内生成定义明确的 3D 网格。

  • 泛化:通过协作控制重复使用预先训练的文本到图像先验,能在有限训练数据之外进行泛化。

  • 独立部分:GIMDiffusion 创建的资产由可分离部分组成,可以轻松地操作和编辑单个组件。

  • 反照率纹理:GIMDiffusion 生成的 3D 资产没有内置的灯光效果,因此适用于各种环境。

  • 简单的后期处理:3D资产不需要应用等值面提取算法或 UV 展开。

相关链接

论文链接:https://arxiv.org/pdf/2409.03718

代码链接:(即将开源)

论文阅读

GIMDiffusion:基于图像的表面表示的快速且数据高效的文本到 3D 转换

摘要

由于计算成本、3D 数据稀缺性和复杂的 3D 表示,从文本描述生成高质量 3D 对象仍然是一个具有挑战性的问题。我们引入了几何图像扩散 (GIMDiffusion),这是一种新颖的文本到 3D 模型,它利用几何图像有效地使用 2D 图像表示 3D 形状,从而避免了对复杂的 3D 感知架构的需求。通过集成协作控制机制,我们利用了现有文本到图像模型(如稳定扩散)的丰富 2D 先验。这即使在有限的 3D 训练数据(允许我们仅使用高质量的训练数据)的情况下也能实现强大的泛化,并保持与 IPAdapter 等引导技术的兼容性。简而言之,GIMDiffusion 能够以与当前文本到图像模型相当的速度生成 3D 资产。生成的对象由语义上有意义的、独立的部分组成,并包含内部结构,从而增强了可用性和多功能性。

方法

协同控制方案应用于GIMDiffusion,其中分别产生两个独立的扩散模型反照率纹理和几何图像。前者是一个冻结的预训练模型,而后者是一个从头开始训练的架构克隆。

在多图表几何图像创建过程中使用接缝检测来隔离 UV 映射的局部可逆区域。(左)如果两个相邻的网格区域对应于 UV 映射中的两个不同图表,则边界上的顶点将重复并具有不同的 UV 坐标。(右)如果 UV 映射循环回到自身,则 UV 访问热图中将出现局部最小值,我们将接缝沿着 UV 度最小的线放置,以有效地分离这些区域。

由于训练数据集中几何图像的面积保留特性,我们生成的对象的三角剖分结果在表面上几乎是均匀的。

实验

数据集

在 Objaverse 数据集上训练模型。通过过滤掉 3D 扫描和低多边形模型来整理此数据集,使其仅包含具有高质量结构和语义上有意义的 UV 图的对象。最终数据集包含大约 100,000 个对象。每个数据条目都附有 Cap3D 和 Hong 等人提供的标题。在训练期间,从这些标题中随机抽样,并对提取的纹理图集应用 90、180 或 270 度的随机旋转。现在讨论如何将这些网格转换为几何图像并转回:整个预处理是在消费级 PC 硬件(AMD Ryzen 9 7950X、GeForce RTX 3090、64 GB RAM)上执行的,大约需要 20 个小时。

(a)真实几何图形、(b)几何图像、(c)来自数据预处理的反照率、(d)使用专用的 VAE 进行的重建。真实对象的高度可分离性,它被分成小部分。

GIMDiffusion 的样本多样性用于对提示进行微小更改或对初始高斯噪声使用不同的随机种子。 很明显,生成的变化不仅在外观和结构上存在很大差异,而且在纹理的图集布局上也存在很大差异。这在实际应用中非常有价值,因为用户通常会生成多个选项并选择最佳选项。

GIMDiffusion 得益于基础模型强大的自然图像先验与协同控制方案的结合,能够很好地超越 Objaverse 训练数据的“原始”性质。

可以通过将预先训练的 IPAdapter 应用于冻结的基础模型生成反照率纹理,以风格化的方式指导逆向过程。这在资产需要与现有“感觉”相匹配的应用中非常有价值。

生成的图像保留了纹理图集中图表的语义上有意义的分离。我们在这里通过展示生成的“毒蝇伞蘑菇”的分解图来说明这一点。很明显,蘑菇的各个部分像人类一样被分开,而且该方法甚至能够模拟形状的内部部分。

结论

在本文跟大家介绍了几何图像扩散(GIMDiffusion),这是一种新颖的文本到 3D 生成范例,它利用几何图像作为其核心 3D 表示,并结合预先训练的扩散模型形式的强大自然图像先验。

GIMDiffusion 可以像现有的文本到图像方法生成普通图像一样高效地生成可重新点亮的 3D 资产,同时避免了对复杂的自定义 3Daware 架构的需求。该研究为文本到 3D 生成的新方向奠定了基础。进一步的质量改进包括解决图表间对齐和消除可见裂缝等问题。此外,结合拓扑预测和对特定多边形预算的调节将增强对生成的 3D 对象的控制,使其更适合用于游戏和其他图形管道。GIMDiffusion 在动画或文本到视频生成等相关领域的潜力同样有希望。

局限性。 最常见的问题是生成的网格中出现可见的裂缝。虽然目前没有将图表的接缝缝合在一起,这可以提高生成的网格的视觉质量,但 VAE 的潜在压缩进一步加剧了这个问题。小于 8×8 像素的区域基本上低于 VAE 的潜在分辨率,从而导致视觉问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/440156.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】【链表代码】相交链表

/*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/typedef struct ListNode ListNode; struct ListNode *getIntersectionNode(struct ListNode *headA, struct ListNode *headB) {//先求出两个链表的长度ListNode…

Unity 编辑器多开

开发多人联机的功能时大多数会遇到测试机不方便的问题。想多开同一个项目Uinty又禁止。。。因为在使用Unity Editor打开一个项目时,Unity Editor会在项目目录建立一个Temp目录,同时对里面的一个UnityLockfile文件进行加锁。SO...可以使用以下方法进行多开…

【easypoi 一对多导入解决方案】

easypoi 一对多导入解决方案 1.需求2.复现问题2.1校验时获取不到一对多中多的完整数据2.2控制台报错 Cannot add merged region B5:B7 to sheet because it overlaps with an existing merged region (B3:B5). 3.如何解决第二个问题处理: Cannot add merged region …

ISO IEC 18004 2015 PDF 文字版下载

ISO_IEC_18004_2015_en-US - 道客巴巴 (doc88.com)https://www.doc88.com/p-67816330893254.html

Kafka和RabbitMQ区别

RabbitMQ的消息延迟是微秒级,Kafka是毫秒级(1毫秒1000微秒) 延迟消息是指生产者发送消息发送消息后,不能立刻被消费者消费,需要等待指定的时间后才可以被消费。 Kafka的单机呑吐量是十万级,RabbitMQ是万级…

vSAN02:容错、存储策略、文件服务、快照与备份、iSCSI

目录 vSAN容错条带化存储策略1. 创建新策略2. 应用存储策略 vSAN文件服务文件服务快照与备份 vSAN iSCSI目标服务 vSAN容错 FTT:Fault to Tolerance 允许故障数 故障域:每一台vSAN主机是一个故障域 - 假设3台超融合(3计算1存储)&…

【Kubernetes】常见面试题汇总(五十四)

目录 120.创建 init C 容器后,其状态不正常? 特别说明: 题目 1-68 属于【Kubernetes】的常规概念题,即 “ 汇总(一)~(二十二)” 。 题目 69-113 属于【Kubernetes】的生产…

【Spring Boot 入门一】构建你的第一个Spring Boot应用

一、引言 在当今的软件开发领域,Java一直占据着重要的地位。而Spring Boot作为Spring框架的延伸,为Java开发者提供了一种更加便捷、高效的开发方式。它简化了Spring应用的搭建和配置过程,让开发者能够专注于业务逻辑的实现。无论是构建小型的…

Windows搭建RTMP服务器

这里写自定义目录标题 1 Nginx-RTMP服务器搭建1.1 下载Nginx1.2 下载Nginx的RTMP扩展包1.3 配置Nginx1.4 启动Nginx1.5 查看Nginx状态 2 FFmpeg推流2.1 下载FFmpeg2.2 配置FFmpeg环境变量2.3 验证FFmpeg配置 3 视频推流3.1 OBS推流3.2 FFmpeg推流 4 VLC拉流4.1 VLC4.2 打开网络…

4款专业电脑数据恢复软件,帮你保障数据安全。

电脑里面会出现的数据丢失场景有很多,像硬盘故障、回收站清空、电脑格式化、系统崩溃、病毒入侵等等;如果发现数据丢失后,建议应停止使用电脑,避免新的数据写入覆盖丢失的数据。然后再尝试进行数据找回,如果想自己进行…

合肥企业参访:走进联想合肥智能制造基地参观学习

跟随华研标杆游学高丽华高老师去到联想参观游学 联想合肥智能制造基地成立于2011年,是联想集团全球蕞大的PC研发和制造基地,也是智能制造示范基地。基地占地约500亩,拥有全球PC制造业蕞大的单体厂房以及业界主板、整机生产线。在这里&#xf…

RTSP作为客户端 推流 拉流的过程分析

之前写过一个 rtsp server 作为服务端的简单demo 这次分析下 rtsp作为客户端 推流和拉流时候的过 A.作为客户端拉流 TCP方式 1.Client发送OPTIONS方法 Server回应告诉支持的方法 2.Client发送DESCRIPE方法 这里是从海康摄像机拉流并且设置了用户名密码 Server回复未认证 3.客…

数据结构-3.5.队列的顺序实现

一.队列的顺序实现&#xff0c;初始化操作以及判断队列是否为空&#xff1a; 1.图解&#xff1a; 2.代码&#xff1a; #include<stdio.h> #define MaxSize 10 //定义一个队列最多存储的元素个数 ​ typedef struct {int data[MaxSize]; //用静态数组存放队列元素int f…

使用Buildpacks构建Docker镜像

## 使用Buildpacks构建Docker镜像 ![](../assets/运维手册-Buildpacks-Buildpacks.io.png) ### Buildpacks简介 与Dockerfile相比&#xff0c;Buildpacks为构建应用程序提供了更高层次的抽象。具体来说&#xff0c;Buildpacks&#xff1a; * 提供一个平衡的控制&#xff0c;…

emp.dll丢失损坏怎么办,总结6个解决emp.dll丢失的方法

我们在用电脑的时候&#xff0c;经常会碰到各种各样的问题&#xff0c;其中一个就是emp.dll丢失或缺失。这个东东可是Windows操作系统中非常重要的一个动态链接库文件哦&#xff0c;它是负责管理一些重要系统功能的。假如这个文件丢了&#xff0c;很可能会导致程序无法正常运行…

小程序图片资源等使用阿里服务链接更新问题

同名更换图片&#xff0c;小程序无需发版本更新&#xff0c;存在图片缓存问题解决方法 修改Cache-Control参数即可

深度解析:Python蓝桥杯青少组精英赛道与高端题型概览

目录 一、蓝桥杯青少组简介二、赛项组别与年龄范围三、比赛内容与题型1. 基础知识范围2. 题型设置2.1 选择题2.2 编程题 3. 考试时长 四、奖项设置与激励措施五、总结 一、蓝桥杯青少组简介 蓝桥杯全国软件和信息技术专业人才大赛&#xff08;简称“蓝桥杯”&#xff09;是由工…

【Qt+Python项目构建】- 01-首次配置 Qt Creator 14.01 for Python

前言&#xff1a; 如何用QT实现Python的配置的交互界面。本文从0开始&#xff0c;进行实践的介绍。 在上一节里面&#xff0c;我们做了社区版本的配置&#xff1a; https://blog.csdn.net/yellow_hill/article/details/142597007?spm1001.2014.3001.5501 这一节&#xff0…

【C++11】新特性

前言&#xff1a; C11 是C编程语言的一个重要版本&#xff0c;于2011年发布。它带来了数量可观的变化&#xff0c;包含约 140 个新特性&#xff0c;以及对 C03 标准中约600个缺陷的修正&#xff0c;更像是从 C98/03 中孕育出的新语言 列表初始化 C11 中的列表初始化&#xff0…

探索Kimi:用Spring Boot + Vue打造现代网站

在数字化时代&#xff0c;网站成为了企业和个人展示自己的窗口。今天&#xff0c;我将带你一起探索如何利用Spring Boot和Vue.js这两个强大的技术栈&#xff0c;结合Kimi的智能助手功能&#xff0c;来构建一个现代的网站。这不仅是一个技术分享&#xff0c;更是一次实战演示&am…