ChatGPT母公司OpenAI发布了最新开源项目Shap-E,通过文本就能生成3D模型。目前github已经突破2000颗星。
(开源地址:https://github.com/openai/shap-e)
据悉,Shap-E采用了3D模型领域创新的隐式神经表示(INR),支持神经辐射场 (NeRF)和纹理网格(DMTet)两种方法。也就是说,Shap-E模型可以直接生成隐式函数,更好的捕捉细粒度的形状和纹理,突破了传统的局限性,从而更准确、快速地生成3D模型。
(论文:https://arxiv.org/abs/2305.02463)
其实去年12月,OpenAI就已经开源了一款名叫Point-E的模型,也是通过文本就能快速生成3D模型,但采用的是传统的扩散模型与DALL-E 2、Midjourney类似,生成效果、效率方面比Shap-E差很多。
Shap-E介绍
有人猜测,OpenAI连续发布两款文本生成3D模型,难道是为GPT-5做准备,下一阶段的ChatGPT可直接生成3D模型?
Shap-E的核心技术NeRF
从OpenAI发布的论文来看,NeRF成为本次新开源项目Shap-E的核心技术之一,突破了传统的扩散模型的局限性。「AIGC开放社区」先为大家简单介绍一下NeRF这项技术,以便更好的了解Shap-E模型的技术特性。
NeRF(Neural Radiance Field )是由谷歌高级研究科学家Jon Barron在2020年开发的一种用于三维场景重建的深度学习方法。
NeRF可以通过学习2D照片生成3D场景,同时可以兼顾物体表面的颜色和光照,以便可以从任意视角生成高质量的渲染3D模型。
NeRF技术介绍
NeRF 的主要技术优势是可以从有限数量的图像中学习连续、高质量的三维场景表示。
相比传统的基于几何的重建方法,NeRF 在处理复杂光照、遮挡和反射等问题时表现出更强的性能。但NeRF也有明显的缺点,算力消耗巨大生成图像较慢。
2022年3月5日,NVIDIA在NeRF基础之上推出了“ Instant NeRF”解决了训练、生成模型慢的难题。相比之前, Instant NeRF的训练效率提升了1000倍,只需几秒钟就能训练几十张静态图片,在几十毫秒内就能生成3D场景。
因此,Shap-E吸取了NVIDIA优秀的训练方法,分为两个阶段进行。首先,通过训练基于 Transformer(开发ChatGPT的核心技术)的编码器来生成3D资源的INR参数。
其次,在编码器的输出上训练扩散模型。与以前的方法不同,可同时生成代表NeRF和纹理网格的INR允许它们以多种方式呈现。也就是说Shap-E使用了向量序列替代了之前Point-E的点云模式。
OpenAI发现,用新方法训练的Shap-E模型比之前推出的Point-E,在推理、生成效果等方面强了几个数量级,极大提升了3D模型的生成效率,也降低了整体算力成本。
OpenAI给出了几个通过Shap-E生成的实际案例,例如,一架看起来像香蕉的飞机;一只绿色的靴子;一架宇宙飞船;一只企鹅;一碗蔬菜等,都精准、快速地生成了3D模型。不过细节方面还是略显粗糙,有很大的优化空间。
在场景化落地方面,Shap-E高效生成3D模型的能力在商业应用方面非常广泛,例如,元宇宙、VR/AR、工业设计、影视制作、游戏开发、3D打印、教育等。尤其是在VR/AR领域Shap-E具有颠覆性作用,可以加速3D场景的构建效率。
总体来说,Shap-E是Point-E模型的增强版,采用了扩散模型+ NeRF+ DMTet的混合方法,进一步提升了3D模型的生成效果、效率并降低了算力成本。