3D Diffusion模型来了!OpenAI出品,已开源

d83daefe4a5353dddf46ad4ae9b363f7.png

文|天于刀刀

2022年不愧是 AIGC 行业元年。

伴随着 ChatGPT 的大火使得谷歌一周之内改口“会认真评估 ChatGPT 对搜索引擎的影响”,OpenAI 在 3D 图像生成领域进一步放出了大招开源项目“Point-E” [1],可玩程度不下于 ChatGPT!

简单来说,用户可以输入一连串文字 prompt 内容,只需要短短 18 秒,模型就会生成一个 3D 点云图![2]

f779e50148a079286a7b0fe1bac42f72.png

这种快速出图极速反馈的特性使得 Point-E 成为了当下运行速度最快和对算力需求最小的生成模型。

想象一下之前 AI 作图也都需要以分钟级别进行等待,现在只需要毫秒级的等待就能获得一个 3D 模型,这不得不说是一次业界进步!

Point-E 详解

在文章中作者详细阐述了 Point-E 模型的工作原理,一共分为两步走:

  1. GLIDE [3] 负责根据文字提示生成平面图像( text-to-image );

  2. CLIP [4] 基于平面图像生成 3D 点云图 ( image-to-3D )。

这样的工程设计极大地减少了对于难以获取的 3D 数据集的依赖,同时也充分地利用了现有的强大的文字转图片模型,增加了系统的可复制性。

值得注意的是,GLIDE 和 CLIP 都是 OpenAI 之前在图像生成领域的明星开源项目,而 Point-E 则相当于是基于工具库的一个微创新,专门针对轻量级生成领域准备的手术刀式的模型。

287d2014ec8db616a728baac0fa19a4f.png

任何成功的深度学习模型都离不开一个优秀的训练集,作为一个 3D 生成模型的训练集,最终的训练集包含 2D 渲染图和 3D 点云图。

  1. 首先,收集几百万个不同质量不同格式的 3D 模型,通过一系列工作流(牵涉到 Blender 的使用)输出尽可能同样大小和光感的 3D 模型,并且每个模型都拥有20个不同角度的 2D 渲染图;

  2. 基于 2D 渲染图进一步生成 3D 点云图;

  3. 通过 CLIP 模型进行聚类分析,将过于平面的和低质量的模型删除后,得到模型训练集。

在得到训练集后,作者选择了 fine-tuning 现有的 GLIDE 模型处理文字转图片任务,以及基于 transformer 和 CLIP 模型处理图片转 3D 任务。

38b6a04a33e99718c557da0d9e401e3f.png

就像所有其他的扩散模型一样,Point-E 模型接受噪声向量并尝试对其进行降噪。输出直接作为输入反馈,直到满意为止。时间步长令牌也被输入以跟踪步数。

特别的,Point-E 的输出向量定义了点位置 (xyz) 和颜色 (rgb) 的 3D 点云。

此外,与其他扩散模型一样,Point-E 首先构建一个低分辨率的点云输出,随后由具有类似架构的升级模型对输出进行升级。

这也就意味着 Point-E 的输出精度可以随着输出点的增加而增加,作者希望最终该模型的输出精度可以达到“3D 打印”级别,从而成为一个真正的生产力工具

922a1ad9cff0fd085145f3538bbd0c53.png

风起 Text-to-3D

之前火到破圈的 AI 作画让无数人看到了 AIGC 的潜力,一个自然而然的进阶想法就是,如果生成 3D 模型会怎样?

于是谷歌在去年推出了 Dream Fields [5],前段时间一位华人建筑学小哥蒙胜宇(Simon Meng)制作的 colab 友好版本的 dreamfields-3D 正是基于这个模型。

紧接着谷歌在今年进一步推出了 DreamFusion [6],同样是致力于解决三维合成大规模标注数据缺失的问题,先基于文本提示生成 2D 图像,在训练优化一个神经辐射场 NeRF 模型。

b3946c726f4f4096cecc8f99f830bb15.png7ba11ecb41dad40a3b5ba0bd81761b0c.png

bbb670d344c556034276ee58ede246f0.png

在这里我们不深究各个模型之间的优劣和技术之间的区别,单独聊一聊我对这一波 AIGC 浪潮的看法。

首先我认为这是一个不可避免,也无需避免的大趋势,正好比19世纪摄影技术的发展逐渐在艺术界引起艺术家们的讨论和反感一样,我们目前所处在的也正是这个科学技术发展而改变旧格局的时代。

当初为什么画家们反对摄影,因为当时画家谋生的一个重要手段就是给人们创作肖像画,而摄影技术的出现就是在砸他们的饭碗。

而现如今,我们回过头查看那段历史,我们可以发现照相机的出现彻底将绘画从为人们塑像的功能中解放了出来,艺术家们不需要考虑画面是否足够真实,相反画家们开始向人类的内心世界进发,从而造就了19世纪末到20世纪初印象画派杰出的艺术成就。

另一方面,随着摄影分离派在20世纪初纽约291艺廊的活动,摄影也逐渐被更广大的社会群体所接纳。至此,摄影与绘画的关系在这半个世纪的时间里从相爱相杀走向稳定的各自精彩,人类迎来了新时代。

b8cf64b08fcf16d4afbe87c0fc7877a7.png

AI 创作也不外乎于此,它们是“工具”。

我在试玩 ChatGPT 和 Point-E 的时候,常常抱着咖啡坐在屏幕前,傻呵呵地看着模型给出一个生成结果,然后再接着想一个新的 prompt 输入,此过程循环往复让我感到极为上瘾并乐此不疲。

这让我想到了小时候放学回家路上捡到了一根异常和手的树枝,一路上左挥右甩爱不释手,拿回家后交给老妈加工一下,这就是我家小木棍的来历。

垃圾满了捅一下,东西掉到床下扫一下,小孩皮了抽一下,大家用了都说好。

作为人类我们本质上就是要创造工具、利用工具。

我还没忘记所谓的“元宇宙”概念,如果我们拥有了批量低成本获得 3D 模型的方法,也许每个人都能构建一个属于自己的“元宇宙”。

OpenAI 和谷歌公司提供的这些模型就好比是一个一个不同用处的工具,伴随着 ChatGPT 的出现,我们可以看到 OpenAI 正在逐渐布局 toC 产业。

说不定在不远的将来,我们能够真正作为用户,去参与这一次新的工具改革的浪潮。

a16de0889f8a21de534373dfd30e4066.png

bb80deddb4506ea5a71baa30a59ee250.png

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

d0af145970cadc69438c89b2283809d0.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 4b51a866bed3931ca56ee87ca5095ad0.png

[1] Point cloud diffusion for 3D model synthesis, https://github.com/openai/point-e

[2]Point-E demo: text to 3D, https://huggingface.co/spaces/openai/point-e

[3] GLIDE: a diffusion-based text-conditional image synthesis model, https://github.com/openai/glide-text2im

[4]Contrastive Language-Image Pretraining, https://github.com/openai/CLIPngface.co/spaces/openai/point-e

[5]Zero-Shot Text-Guided Object Generation with Dream Fields, http://arxiv.org/abs/2112.01455

[6]DreamFusion: Text-to-3D using 2D Diffusion, https://arxiv.org/abs/2209.14988

[7]AI 会改变游戏美术吗?, https://www.gcores.com/radios/154838

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63678.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马斯克认怂重启推特收购,价格还是440亿美元,推特股价应声大涨

明敏 发自 凹非寺量子位 | 公众号 QbitAI 谁能想到马斯克和推特这场大型极限拉扯,先怂的是老马? 最新消息,马斯克重提推特收购计划,价格还是440亿美元。 消息一出推特股价暴涨停盘,涨幅超22%;特斯拉股价也一…

GPT总设计师:大型语言模型的未来

来源 | Stanford eCorner OneFlow编译 翻译 | 杨婷、宛子琳、贾川 回头来看,ChatGPT的横空出世验证了Ilya Sutskever此前预想的AI发展方向。 在OpenAI成立早期,强化学习大牛Pieter Abbeel曾与Ilya共事,在他看来,Ilya对AI的思考总是…

外包员工和正式员工有什么区别?为什么外包员工总受鄙视

圈子里外包员工似乎永远处于尴尬角色,姥姥不爱,舅舅不疼~ 正式员工>外聘>外包!!甚至有时候还会被正式员工鄙视~ 对于外包看看前辈们是建议的~~ 欢迎大家加入小编创建的Python行业交流群,有大牛答疑&…

某外包程序员炫耀:不用管绩效和代码质量,工作摸鱼,从不加班,没有pua,外包是真的舒服!

业界都说外包员工苦,但一个外包员工却用亲身经历 证明:外包员工完胜正式员工! 他说:外包不用管绩效和代码质量,有活就慢慢做,到点下班。工作时间刷手机,聊天,一个单表的crud做一周…

谷歌向全体员工发放万元红包:外包员工和实习生也不例外

12月9日消息,谷歌公司的一名发言人对媒体表示,谷歌将向位于全球各国的所有员工,发放1600美元(约人民币一万元)或等值的一次性现金奖金,其中包括公司额外聘请的员工和实习生。 不过,该发言人没有…

程序员:外包公司好不好?

之前谈到了技术全栈程序员是香饽饽,很多人都想成为香饽饽,给大家分享一个香饽饽速成小秘诀——加入外包公司。网上有很多对于外包公司的偏见,所以我先不去评价外包公司好不好,先讲讲加入外包公司对我们未来发展有什么作用。 外包公…

从腾讯外包到正式员工,我只用了一年时间。。。

我发现很多程序员在找工作的时候,基本是 99% 的人都在尽力躲开外包岗。 确实,很多人都不想被套上外包岗的标签,但事实上,外包公司真的很多,总有人会在外包岗。 那外包岗真的一点也不值得去吗? 本人普通二…

程序员的私人外包专家

【已发表于《程序员》2007年第1期,全名《程序员的私人外包专家——探索CodeSmith代码生成器》,因篇幅限制,杂志上略有删减】引言如果机器猫是个软件开发人员,那么它一定能从口袋里掏出如图1所示的软件,简洁明快的界面上…

外包员工就活该被区别对待么?

点击上方“何俊林”,马上关注,每天早上8:50准时推送 真爱,请置顶或星标 本文作者可可,转账自公号开发者技术前线 最近爆出多个大公司外包被内部员工秀优越感的事情,到底是什么事呢,就是貌似一个外包吃了公司…

外包能转正吗?外包员工能变正式员工吗?

外包员工能变正式员工吗?这里辟谣一波,许多外包都说有转正机会。实际情况是几乎等于零。其中,三方外包更是可以直接和零划等号。三方外包的转正,往往就是给个内推机会,然后和面试官会熟悉一些。 然而这些都没什么价值…

测试员做外包能转正吗?外包员工能变正式员工吗?

外包员工能变正式员工吗?这里辟谣一波,许多外包都说有转正机会。实际情况是几乎等于零。其中,三方外包更是可以直接和零划等号。三方外包的转正,往往就是给个内推机会,然后和面试官会熟悉一些。 然而这些都没什么价值…

JAVA软件技术人力外派外包费用怎么算?

软件人力外包逐步成为趋势! 当越来越多的企业选择JAVA软件人才外派的形式解决灵活用工的诉求,紧接着要面对的就是成本费用问题,很多公司反映JAVA外派公司的报价很不透明,也不知道该如何去做公司驻场开发的成本预算。现在&#xf…

程序员做外包能转正吗?外包员工能变正式员工吗?

外包员工能变正式员工吗?这里辟谣一波,许多外包都说有转正机会。实际情况是几乎等于零。其中,三方外包更是可以直接和零划等号。三方外包的转正,往往就是给个内推机会,然后和面试官会熟悉一些。 然而这些都没什么价值…

外包公司程序员的水平真的很垃圾吗?

在互联网圈存在着这么一条鄙视链:大厂程序员看不起自研小厂程序员,自研小厂程序员看不起外包程序员,很多人觉得自己进了外包以后简历就被污染了,所以哪怕失业都不愿意进外包…… 实际上,何不食肉糜…… 外包可能还把你…

京东API开发系列:item_get京东获得JD商品详情 API 返回值说明

为了进行电商平台京东的API开发,首先我们需要做下面几件事情。 1)开发者注册一个账号 2)然后为每个京东应用注册一个应用程序键(App Key) 。 3)下载京东API的SDK并掌握基本的API基础知识和调用 4)利用S…

对接京东接口之获取订单信息jingdong.las.im.hfs.order.search(Java实现)

对接京东接口流程如下: 京东官网,获取JD待处理安维订单参数文档地址:http://jos.jd.com/api/detail.htm?id1890 对接获取订单信息jingdong.las.im.hfs.order.search代码如下: // 获取订单 public static LasImHfsOrderSear…

京东优惠券查询API接口接入方案,item_search_coupon - 京东优惠券查询接口

item_search_coupon - 京东优惠券查询接口说明: Key注册地址:获取Key和secret便进入到查询接口 得出数据: Request address: https://api-gw.onebound.cn/jd/item_search_coupon/?key& &num_iid10335871600&&langzh-CN&am…

网上下单的手机流量卡,京东快递配送开卡!有猫腻!要注意!

现在大多在网上购买流量卡的小伙们,一般商家发货的有3种快递,顺丰、EMS、京东。 发顺丰、EMS快递的卡,一般都是可以自己激活的。快递里面有激活说明书!自己比着操作就可以。 发京东快递的,一般都是需要快递员给小伙伴…

获取京东CK

获取京东cookie 注意:用浏览器请使用隐身窗口,如果多个账号,一定不要点退出登录。直接关闭网页,清除浏览器cookie数据(隐身窗口无需这一步),重新进入网页登录下一个账号。退出会导致刚刚获取的c…

京东API系列: item_get - 获得JD商品详情

京东API 商品详情 item_get - 获得JD商品详情 返回值: 返回参数: Result Object: { “item”: { “num_iid”: “29186819959”, “title”: “MOCO2018夏季新品时尚V领条纹连衣裙 摩安珂 蓝白条色 S”, “desc_short”: “”, “price”: “719.00”, “total…