绝!OpenAI 年底上新,单卡 1 分钟生成 3D 点云,text-to 3D 告别高算力消耗时代

内容一览:继 DALL-E、ChatGPT 之后,OpenAI 再发力,于近日发布 Point·E,可以依据文本提示直接生成 3D 点云。

关键词:OpenAI   3D 点云   Point·E   

OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 Point·E。

 text-to-3D:用对方法,一个顶俩

3D 建模想必大家都不陌生,近年来,在电影制作、视频游戏、工业设计、VR 及 AR 等领域中,都可以看到 3D 建模的影子。

然而,借助人工智能创建逼真的 3D 图像,仍然是一个耗时耗力的过程,以 Google DreamFusion 为例,给定文本生成 3D 图像通常需要多个 GPU、运行数小时。

给定一个描述,DreamFusion 生成高保真 3D 物体

通常意义上,文本到 3D 合成的方法分为两类:

方法 1:直接在成对的 (text, 3D) 数据或无标签的 3D 数据上训练生成模型。

此类方法虽然可以利用现有的生成模型方法,有效地生成样本,但由于缺乏大规模 3D 数据集,因此很难扩展到复杂的文本提示。

方法 2:利用预先训练好的 text-to-image 模型,优化可区分的 3D 表征。

此类方法通常能够处理复杂多样的文本提示,但每个样本的优化过程都代价高昂。此外,由于缺乏强大的 3D prior,此类方法可能会陷入 local minima(无法与有意义或连贯的 3D 目标一一对应)。

Point·E 结合了 text-to-image 模型以及 image-to-3D 模型,综合以上两种方法的优势,进一步提升了 3D 建模的效率,只需要一个 GPU、一两分钟即可完成文本到 3D 点云的转换。

 原理解析:3 步生成 3D 点云

Point·E 中,text-to-image 模型利用了大型语料库 (text, image pair),使其对复杂的文本提示也能处理得当;image-to-3D 模型则是在一个较小的数据集 (image, 3D pair) 上训练的。

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤:

1、依据文本提示,生成一个合成视图 (synthetic view)

2、依据合成视图,生成 coarse point cloud (1024 point)

3、基于低分辨率点云和合成视图,生成 fine point cloud (4096 Point)

Point·E 流程概览

由于数据格式和数据质量对训练结果影响巨大,Point·E 借助 Blender,将所有训练数据都转换为了通用格式。

Blender 支持多种 3D 格式,并配有优化的渲染 engine。Blender 脚本将模型统一为一个 bounding cube,配置一个标准的 lighting 设置,最后使用 Blender 内置的实时渲染 engine 导出 RGBAD 图像。 

"""
Script to run within Blender to render a 3D model as RGBAD images.Example usageblender -b -P blender_script.py -- \--input_path ../../examples/example_data/corgi.ply \--output_path render_outPass `--camera_pose z-circular-elevated` for the rendering used to compute
CLIP R-Precision results.The output directory will include metadata json files for each rendered view,
as well as a global metadata file for the render. Each image will be saved as
a collection of 16-bit PNG files for each channel (rgbad), as well as a full
grayscale render of the view.
"""

Blender 脚本部分代码

通过运行脚本,将 3D 模型统一渲染为 RGBAD 图像

完整脚本详见:

https://github.com/openai/point-e/blob/main/point_e/evals/scripts/blender_script.py

 过往 text-to-3D AI 横向对比

近两年来,涌现了众多关于 text-to-3D 模型生成的相关探索,Google、NVIDIA 等大厂也纷纷推出了自己的 AI。

我们收集汇总了 3 个 text-to-3D 合成的 AI,供大家横向对比差异。

DreamFields

发布机构:Google

发布时间:2021 年 12 月

项目地址:https://ajayj.com/dreamfields

DreamFields 结合了神经渲染 (neural rendering) 与多模态图像及文本表征,仅依据文本描述,就可以可以在没有 3D 监督的情况下,生成各种各样 3D 物体的形状和颜色。

DreamFields 从 4 个视角分别渲染的示例

DreamFields 生成 3D 物体的过程中,借鉴了在大型文本图像数据集上预训练过的 image-text model,并对源自多视角的 Neural Radiance Field 进行了优化,这使得预训练 CLIP 模型渲染的图像,在目标文本下取得了良好的效果。

DreamFusion

发布机构:Google

发布时间:2022 年 9 月

项目地址:https://dreamfusion3d.github.io/

DreamFusion 可以借助预训练 2D text-to-image diffusion model,实现 text-to-3D synthesis。

DreamFusion 引入了一个基于概率分布蒸馏 (probability density distillation) 的 loss,使 2D diffusion model 能够作为参数图像生成器 (parametric image generator) 优化的 prior。

输入文本提示
a DSLR photo of a peacock on a surfboard
DreamFusion 生成 3D 物体

通过在与 DeepDream 类似的程序中应用该 loss,Dreamfusion 优化了一个随机初始化的 3D 模型(一个 Neural Radiance Field 或者 NeRF),通过梯度下降法使其从随机角度的 2D 渲染达到一个相对较低的 loss。

Dreamfusion 不需要 3D 训练数据,也无需修改 image diffusion model,证明了预训练 image diffusion model 作为 prior 的有效性。

Magic3D

发布机构:NVIDIA

发布时间:2022 年 11 月

项目地址:deepimagination.cc/Magic3D/

Magic3D 是一个 text-to-3D 内容的创建工具,可用于创建高质量的 3D mesh model。利用 image conditioning 技术以及基于文本提示的编辑方法,Magic3D 提供了控制 3D 合成的新方法,为各种创意应用开辟了新的途径。

Magic3D 结构概述
以 coarse-to-fine 的方式
依据输入的文本提示,生成高分辨率的 3D 内容

过程包括两个阶段:

阶段 1:使用低分辨率的 diffusion prior 获得一个 coarse model,并用 hash grid 和 sparse acceleration structure 进行加速。

阶段 2:使用从粗略神经表征 (coarse neural representation) 初始化的 textured mesh model,通过高效的可微分渲染器与高分辨率的 latent diffusion 模型交互进行优化。

 技术进步仍需突破局限

text-to 3D 的 AI 陆续面世,但基于文本生成 3D 合成尚处于早期发展阶段,业内还没有一套公认的 Benchmark,能用来更公正地评估相关任务。

Point·E 对于 fast text-to 3D 合成而言,具有重大意义,它极大提升了处理效率,降低了算力消耗。

但不可否认,Point·E 仍然具有一定的局限性,比如 pipeline 需要合成渲染,生成的 3D 点云分辨率较低,不足以捕捉细粒度的形状或纹理等。

关于 text-to 3D 合成的未来,你怎么看?未来的发展趋势又会怎样?欢迎评论区留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21343.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MIKE水动力】MIKE11基本原理

Mike11软件包由水动力、对流~扩散、水质、降雨~径流、洪水预报等模块组成,核心模块为水动力模块。Mike11水动力模块采用6点Abbott~Ionescu有限差分格式对圣维南方程组求解。 一、圣维南方程组 1、基本要素与假设条件 Mike11模型…

ChatGPT 上线联网和插件功能,Plus 用户下周可使用

OpenAI 宣布将在下周向所有 ChatGPT Plus 用户推出联网和插件功能。OpenAI 表示,位于 Alpha 和 Beta 通道的 ChatGPT Plus 用户都能使用联网功能以及 70 多个已上线的插件。 OpenAI CEO Sam Altman 转发这一推文并表示:"希望你们喜欢"。 此次更…

70多种插件加持,联网版ChatGPT值得拥有

自 ChatGPT 推出以来,大语言模型充斥着新闻版面。很多公司都在试图追赶 OpenAI,但作为先行者,ChatGPT 显得一骑绝尘。 上周六,OpenAI CEO 奥特曼宣布 ChatGPT 的联网和插件功能上线在即,所有买了基于 GPT-4 的 ChatGP…

70多种插件加持,联网版ChatGPT评测来了

来源 | 机器之心 编辑 | 泽南、陈萍 【导读】说不上无所不能,但也可以说是上天入地。 自 ChatGPT 推出以来,大语言模型充斥着新闻版面。很多公司都在试图追赶 OpenAI,但作为先行者,ChatGPT 显得一骑绝尘。 上周六&#xff0c…

Wolfram 接入 GPT点燃了普罗米修斯之火

今天读到了这个新闻,心情非常兴奋、复杂。ChatGPT全宇宙大爆炸!开启联网解除封印,无敌插件彻底颠覆体验 作为一个见证人类技术发展的工程师,我感到非常兴奋。而考虑到我们在基础软件领域全面的短板,在未来的发展中&am…

研究报告 | 把握新变量与新机会,2023年KOL营销七大趋势预测

还记得去年年初有张同学的爆火,有靠着 “毽子操”刷新抖音平台涨粉最快纪录的刘畊宏;年中,我们与东方甄选双向奔赴,感受从诗词歌赋到人生哲学的直播间魅力;紧接着,“消失”109天的李佳琦低调回归&#xff0…

OpenAI官方的AutoGPT要来了!实测效果很优秀

点击上方“Java基基”,选择“设为星标” 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~中文详细注释的开源项目RPC 框架 Dubbo 源码解析网络应…

成功转行Python工程师,年薪30W+,经验总结都在这!

这是给转行做Python的小白的参考,无论是从零开始,或者是转行的朋友来说,这都是值得一看的,也是可以作为一种借鉴。 而且我决定转行IT(互联网)行业(已转好几年),其实理由…

完全免费白嫖 GPT-4 的终极方案!

GPT-4 目前是世界上最强的多模态大模型,能力甩 GPT-3.5 好几条街。 大家都希望早日用上 GPT-4,不过目前体验 GPT-4 的渠道非常有限,要么就是开通 ChatGPT 尊贵的 Plus 会员,即使你开了会员,也是有限制的,每…

玩“爬虫”可能触犯的三宗罪

最近网上流传一个顺口溜:爬虫玩得好,监狱进得早。数据玩得溜,牢饭吃个够。 自2019年9月以来,多家知名公司相关人员被抓或被调查,这些机构均涉及大数据风控业务和爬虫技术的应用。由此,大数据业务的合规合法…

偷偷曝光下国内软件外包公司!(2023 最新版,很全!)

点击关注公众号,Java干货及时送达 推荐阅读: 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 欢迎大家加入《ChatGPT 小密圈》知识星球,现在加入,免费送一个手工注册的 ChatGP…

孙子漏洞!ChatGPT又百依百顺了;程序员的LLM世界生存技巧;UI+MJ入门必读手册;吴恩达LangChain实践课 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 继「奶奶漏洞」之后再现「孙子漏洞」,装成孩子让 ChatGPT 千依百顺 前几天,网友发现了 ChatGPT 的新鲜玩法&am…

使用Python实现微信自动回复,操作简单,小白也会使用!秒回女朋友消息 泰裤辣!

文章目录 一、安装itchat库二、登录微信三、实现自动回复四、实现关键词回复五、实现图灵机器人回复总结 Python精品助学大礼包 一、安装itchat库 首先,我们需要安装itchat库,它是一个用于微信个人号的微信Python API,可以用于实现微信自动回…

超火的chartGPT到底是什么?没有账号我能使用吗

什么是OpenAI? OpenAl是一家人工智能研究公司,成立于2015年,总部位于美国加利福尼亚州旧金山。公司的目标是建立一种通用人工智能技术,并将其让普通人能够轻松使用。OpenAl的研究领域包括机器学习、自然语言处理和强化学习等。其中,GPT-3是OpenAl开发的一种大型语言…

ChatGPT外挂,Link Reader 快速阅读网页、PDF内容还能翻译

在现今什么都讲求快速的时代里,很多人都没有耐心一字一句阅读落落长的文章了,所以今天我们就要跟大家分享一个好用的ChatGPT Plugins 外挂,可以帮你阅读网站的内容,并且告诉你文章到底在讲什么。 先要拥有 ChatGPT Plus 帐号&…

史上最小 x86 Linux 模拟器「GitHub 热点速览 v.22.50」

作者:HelloGitHub-小鱼干 本周 GitHub Trending 略显冷清,大概是国内的人们开始在养病,而国外的人们开始过圣诞、元旦双节。热度不减的 ChatGPT 依旧占据了本周大半的 GitHub 热点项目,不过本周的特推和周榜并未重复收录这些。不过…

德勤:2023技术趋势报告(附下载链接)

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年1月份热门报告盘点 罗振宇2023年跨年演讲PPT原稿 吴晓波2022年年终秀演讲PPT原稿 《底层逻辑》高清配图 华为2021数字化转型:从战略到执行.pdf华为项目管理…

图解NLP模型发展:从RNN到Transformer

图解NLP模型发展:从RNN到Transformer 自然语言处理 (NLP) 是深度学习中一个颇具挑战的问题,与图像识别和计算机视觉问题不同,自然语言本身没有良好的向量或矩阵结构,且原始单词的含义也不像像素值那么确定和容易表示。一般我们需…

一图看懂 openai 模块:ChatGPT的API python库, 资料整理+笔记(大全)

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 一图看懂 openai 模块:ChatGPT的API python库, 资料整理笔记(大全) 摘要模块图类关系图结束 摘要 全文介绍系统内置 openai ——ChatGPT的API pyt…

chatgpt赋能python:Python在量化交易中的应用

Python在量化交易中的应用 Python是一个高级的、动态类型的解释型编程语言,是量化金融领域中最常用的编程语言。Python语言易读易写、易学易用,丰富的第三方库支持使得Python在量化交易领域中有着广泛的应用和深远的影响。本文将介绍Python在量化交易中…