单卡30秒跑出虚拟3D老婆!Text to 3D生成看清毛孔细节的高精度数字人,无缝衔接Maya、Unity等制作工具...

衡宇 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT给AI行业注入一剂鸡血,一切曾经的不敢想,都成为如今的基操。

正持续进击的Text-to-3D,就被视为继Diffusion(图像)和GPT(文字)后,AIGC领域的下一个前沿热点,得到了前所未有的关注度。

这不,一款名为ChatAvatar的产品低调公测,火速收揽超70万浏览与关注,并登上抱抱脸周热门(Spaces of the week)。

06c7bf8728408d2f6d1e7e086b7d244b.png
ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Image to 3D技术,受到了广泛关注

现行beta版本生成的3D模型,能够直接连同PBR材质下载到本地。不仅效果不错,更重要的是免费可玩。有网友惊呼:

有够酷的,感觉能很便捷地生成自己的数字孪生了。

a2151afb924a1c6c7e56a66efbfc041a.png

由此吸引不少网友纷纷试用并贡献脑洞。有人拿这款产品和ControlNet结合,发现效果细腻写实到有些出乎意料。

a90ec64fabfc8feb02ae10c9ca62b704.png

这款使用起来几乎零门槛的Text-to-3D工具名叫ChatAvatar,由国内AI初创公司影眸科技团队打造。

据了解,这是全球首款Production-Ready的Text to 3D产品,通过简单的文本,例如一个明星的名字、或是某个想要的人物长相,就能生成影视级的3D超写实数字人资产。

效率也非常高,平均仅需30秒,就能做出一张以假乱真的脸——甚至是你自己的。

5f1d3d50fb4b19bb7b61b084dbc39fae.png

未来,生成领域还将拓展到其他三维资产。

并且该模型带有规整的拓扑、带有4k分辨率的PBR材质,同时带有绑定,可以直接接入Unity、Unreal Engine和Maya等制作引擎的生产管线中。

所以,ChatAvatar到底是怎样一个3D生成工具?背后究竟用到了什么技术?

30秒完成一次“画皮”

亲身体验ChatAvatar的玩法发现,可以说是真·零门槛。

具体而言,只需以对话的形式,在官网上用大白话向ChatBot描述自己的需求,就能按需生成3D人脸,并覆盖一张贴合模型的真实“人皮”。

对话全流程里,根据用户需求,ChatBot会进行引导,尽可能细节地了解用户对所需模型的想法。

9aa8f04f20062bcbf08b894d0730965a.png

体验过程中,我们向ChatBot描述了这样一个想要生成的3D形象:

7502d409ce2c6f713d1ea3009835f578.png

点击左侧的Generate按钮,平均10s不到,屏幕上就出现根据描述生成的9种不同3D人脸的初始雏形。

随意选择其中一种后,会基于选择继续优化模型和材质,最后出现覆盖皮肤后的模型渲结果,并展现不同光影下的渲染效果——这些渲染在浏览器内实时完成:

0c02937080a2f532d511d665aabce36a.gif

用鼠标拖动,还能旋转头部,并放大看更细节的局部效果,毛孔和痘痘都清晰可见:

c196ad13dfba86c3941ceaa10797e455.png

值得一提的是,如果用户是个提示工程高手,直接在左侧框中输入prompt,同样可以完成生成。

最后,一键下载,就能获得一个可直接接入制作引擎并被驱动的3D数字头部资产:

1a903bb6b6425d81189bf61d8ed63248.png

虽然beta版本还没上线发型功能,但整体而言,最后生成的3D数字人资产与描述内容已经有高匹配度。

官网上还陈列了许多ChatAvatar用户的生成资产,不同人种、不同肤色、不同年龄,喜怒哀乐,美丑胖瘦,各式相貌应有尽有。

39801958fdf2292a72ad7d46c795c416.png

总结一下ChatAvatar这款产品生成3D数字人资产的效果亮点:

首先是使用简便;其次是生成跨度大,且五官可改,还能生成与面部贴合的面具、纹身等,譬如这样:

7777b2120094f9573ecb5ff1a38617f2.png

根据官方宣传片介绍,ChatAvatar甚至可以进一步生成超出人类范畴的角色,如阿凡达等影视作品中的角色:

983fd8963a119a551865d27622bde206.gif

最重要的是,ChatAvatar解决了3D模型与传统渲染软件存在的兼容性问题

这意味着,ChatAvatar生成的3D资产可以直接接入游戏和影视生产流程。

当然,在正式接入工业流程之前,首轮公测,ChatAvatar已经吸引了数千名艺术家和专业美术人员参与,推特相关话题受到近百万的浏览与关注。

随随便便一条推文,浏览量都能破50k。

326145cc700a5b5ee368210d6c18fa1d.png

积攒了大批“自来水”不是没有原因,看看3D的爱因斯坦之脸,试问谁不说一句真的很像?

3ab6ee8cd351d48241647264c54d2e5a.png

要是和ControlNet结合,生成效果不亚于单反相片直出:

5fd1caea3899aa57cd5268bbee0d95be.png

已经有不少用户体验后,开始畅想将这个Text-to-3D工具大规模应用在游戏、影视等工业应用上了。

据了解,用户反馈会成为ChatAvatar团队快速迭代和更新的重要依据,形成数据飞轮,以便及时提供更加完整和贴近需求的功能。

事实上,对于此前的3D行业设计师或公司来说,大部分AI文字转3D应用并非效果不好,但实际落地到工业设计流程上,还是有不少难度。

23de9f98f172ee3cff81ecc3c305de7d.png

这次ChatAvatar能如此出圈,背后究竟有什么技术上的原因?

符合产业要求的3D资产生成,究竟难在哪?

都说AI要替代人类,事实上仅仅就Text-to-3D领域,就并非那么容易替代。

最大的难点,在于让AI生成的东西从标准上符合产业对3D资产的要求。

这里面的产业标准怎么理解?从专业3D美工设计的视角来说,至少有三个方面——

质量、可控性和生成速度。

首先是质量。尤其是对于强调视觉效果的影视、游戏行业来说,要想生成符合管线要求的3D资产,拓扑规整度、纹理贴图的精度等“行业潜规则”,都是AI产品第一道必须迈过去的坎。

以拓扑结构的规整度为例,这里本质上指的是3D资产布线的合理度。

对于3D资产来说,拓扑的规整度,往往直接影响物体的动画效果、修改处理效率和贴图绘制速度:

据行内3D美工设计介绍,手工重拓扑的时间成本往往比制作3D模型本身更高,甚至按倍数以计。这意味着即使AI模型生成的3D资产再炫酷,如果生成的拓扑规整度达不到要求,成本就无法从根本上得到降低。更别提纹理精度。

7d089bf7a95dac15a4e40770deaf75a1.png
影眸科技的ChatAvatar项目在生成质量、速度以及标准兼容上相比先前的工作都有明显的提升

以目前游戏、影视行业普遍要求的PBR贴图为例,包含的反射率贴图、法线贴图等一系列贴图,相当于2D图像PSD文件的“图层”,是3D资产流水线生产必不可少的条件之一。

然而,目前AI生成的3D资产往往是一个“整体”,少有能按要求单独生成符合产业环境的PBR贴图的效果。

其次是可控性,对于生成式AI而言,如何让生成的内容更加“可控”,是CG产业对于这项技术提出的又一大要求。

以大众所熟知的2D产业为例,在ControlNet出现之前,2D AIGC行业一直处在一种“半摸黑前进”的状态。

也就是说,AI能生成指定类别的物体画面,却无法生成指定姿态的物体,生成效果全靠提示工程和“玄学”。

而在ControlNet出现后,2D AI图像生成的可控性获得了突飞猛进的提升,然而对于3D AI而言,要想生成对应效果的资产,很大程度上依旧得依靠专业的提示工程。

最后是生成速度。相比3D美工设计而言,AI生成的优势在于速度,然而如果AI渲染的速度和效果无法与人工匹敌的话,那么这项技术依旧无法给产业带来收益。

以当前在AI技术上颇受欢迎的NeRF为例,其产业化落地就面临速度和质量的兼容性难题。

在生成质量较高的情况下,基于NeRF的3D生成往往需要相当漫长的时间;然而如果追求速度,即使是NeRF生成的3D资产便完全无法投入产业使用。

但即使解决了这个问题,如何在不损失精度的前提下让NeRF与传统CG行业的主流引擎兼容仍然是一个巨大的问题。

从上面的产业标准化流程不难发现,大部分AI文本转3D应用落地存在两大瓶颈

一个是需要手动完成提示工程,对于非AI专业人士、或不了解AI的设计师来说不够友好;另一个是生成的3D资产往往不符合产业标准,即使再好看也无法投入使用。

针对这两点,ChatAvatar给出了两点具体有效的解决方案。

一方面,ChatAvatar实现了除手动输入提示工程外的第二条道路,也是更适合普通人的一条捷径:通过“甲方模式”直接对话描述需求。

团队官方推特介绍称,为了实现这一特性,ChatAvatar基于GPT的能力,开发了一种对话描述转人像特征的方法。

设计师只需要不断和GPT聊天,描述自己想要的“感觉”:

24a1e719e9fcfe9f3f91cba1fbfabe91.png

GPT就能自动帮忙完成提示工程,将结果输送给AI:

afdd7a386728d92dbfd335413ede5699.png

换而言之,如果说ControlNet是2D行业的“Game Changer”,那么对于3D产业来说,能实现文本转3D的ChatAvatar,无异于行业的游戏规则改变者。

另一方面更为重要,那就是ChatAvatar能完美兼容CG管线,即生成的资产在拓扑结构、可控性和速度上都符合产业要求。

这不仅意味着生成3D资产之后,下载的内容可以直接导入各种后期制作软件进行二次编辑,可控性更强;

同时,生成的模型和高精度材质贴图,还能在后期的渲染中达到极为逼真的渲染效果。

为了实现这样的效果,团队为ChatAvatar自研了一个渐进式3D生成框架DreamFace。

b997164053345da4d933c4ba9e810425.png

其中的关键,在于训练该模型用的底层数据,即影眸科技基于“穹顶光场”采集到的世界首个大体量、高精度、多表情的人脸高精度数据集

基于这个数据集,DreamFace可以高效地完成产品级三维资产的生成,即生成的资产带有规整的拓扑、材质,带有绑定。

DreamFace主要包括三个模块:几何体生成,基于物理的材质扩散和动画能力生成。

通过引入外部3D数据库,DreamFace能够直接输出符合CG流程的资产。

bdf410faa0d8539fe2949bf7cc9644fb.gif
生成的资产驱动渲染的效果

上述两大技术瓶颈的解决,本质上进一步加速了AIGC洪流下,“生成”将取代“搜索”的时代趋势——

影眸团队认为,“生成”将成为新一代数字资产的获取方式。

此前,我们需要找到一张符合需求的图片或者资产时,通常会使用搜索引擎进行查询。

ChatAvatar项目主页上展示的巨大的“搜索框”和整齐的资产卡片,看似搜索引擎,但实际上是一种与搜索截然不同的资产查找方式。

0908ac4e8e981aa2fe6658b2c0eb338f.png
ChatAvatar项目主页

影眸科技CTO张启煊对此介绍:

以前,如果我们需要一张插图,可能要在多个图库中反复搜索,或是通过Photoshop合成、手绘等较复杂的方式才能得到结果。但在Stable Diffusion等技术出现后,你只需要通过文字描述想要的图像,就能直接生成符合需求的结果。

这对于传统的资产库来说是一个巨大的冲击。而ChatAvatar的目标,正是用3D生成替代传统的搜索式3D资产库。

AIGC领域的下一个前沿热点

ChatGPT一石激起千层浪,进入AI 2.0时代之后,人们的目光也投向包含图像、视频、3D等信息的多模态AI。

仅就3D生成领域而言,无论是影视还是游戏行业,3D内容生产和消费市场已经拥有足够大的规模,但在制作层面却因技术难度遭遇掣肘。

譬如,文本领域大行其道的Transformer,在3D生成领域的使用还相对有限。

去年夏天,当文生图领域因Diffusion Model取得成绩后,人们开始期待文字生成3D有同样惊艳的表现。一旦生成式AI的3D创作技术成熟,VR、视频等的内容创作都将起飞。

222c1df754fa0e7eb69002f9baaa4a87.png

扩散模型Midjourney5.1生成的“梵高风摄影”

事实上,无论是科技巨头还是初创公司,的确都在朝Text-to-3D这个方向暗暗发力。

去年9月,谷歌发布了基于文本提示生成3D模型的FreamFusion,声称不需要3D训练数据,也不需要修改图像扩散模型。紧随其后,Meta也推出可以从文本一键生成视频的Make-A-Video模型。

后来的Text-to-3D的AI模型队伍中,还先后出现了英伟达Magic3D、OpenAI最新开源项目Shap-E等,今年8月将举办的计算机图形顶会SIGGRAPH 2023所展示的论文,也有多篇与Text-to-3D有关。

影眸科技有关文本指导的渐进式3D生成框架DreamFace的论文,就是其中之一。

而ChatAvatar,也是目前为止最集中在3D数字人资产方向的生成式模型产品。

其背后的AI初创公司影眸科技,2020年孵化自上海科技大学MARS实验室,成立后获得奇绩创坛与红杉种子的两轮投资。

公司专注于专注于计算机图形学、生成式AI的研究与产品化。2021年,AIGC还未掀起巨浪之时,公司就已经推出国内首个AIGC ToC绘画应用Wand,产品一度登顶AppStore分区榜首。

36a3ec4e88bf92c85ec421d6a00d5f42.png

而这个颇具前瞻性,且已在业内小有名气的团队,平均年龄只有25岁

将首个商业化场景具体锚定在数字人后,ChatAvatar是他们乘AIGC东风在该方向的最新进展。

作为一个新推出的产品,ChatAvatar在兼容性、完成度和精度等产品效果层面,都超出了影眸团队预期。然而在吴迪口中,行至此处的过程“很狼狈”。

主要原因不外乎“缺人”一事。目前,影眸已经在多类别3D生成技术上取得了进展,下一步还计划推出“3D生成大模型”。

fcc79cb3e0372617b85272c4423f6cc2.gif

影眸科技将于5月上线首个多模态跨平台3D搜索引擎Rodin,打通Sketchfab等多个3D资产平台,支持以文搜3D、以图搜3D甚至以3D搜3D。搜索引擎只是Rodin的初级形态,影眸将把Rodin打造为3D生成大模型。

需要持续向前推进,就需要更多的工程化团队、技术美术和拥抱生成式AI的产品人才加入团队。作为一个以研发为背景主基调的团队,这样的人才仍然紧缺。

“人是万物的尺度,”吴迪表示道,“我们需要更多志同道合的人加入,共同推动3D领域的创新发展。”

可以看到,ChatAvatar背后技术从无到有的搭建,揭示了一家AI初创公司的不断创新;而从这家公司对人才的渴望以小见大,更揭示着AIGC浪潮下,每一个细分领域想要从水下浮出水面的心。

你愿意拥抱生成式AI,成为Text-to-3D领域的Game Changer吗?

— 联系作者 —

58786489660d7d0ce645b178309aad48.png

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14711.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

独立开发变现周刊(第87期):靠写简历如何每年赚24万美元?

分享独立开发、产品变现相关内容,每周五发布。 目录 1、mall4cloud: 开源的微服务B2B2C电商商城系统2、restorePhotos:开源的老照片修复系统3、JSON Crack——开源、免费的JSON可视化应用程序4、靠写简历如何每年赚24万美元? 1、mall4cloud: …

网络安全意识宣贯经典案例,十部网络安全从业者必看影集

网络安全建设的核心是人员的安全意识,网络建设是技术保障,网络安全体系建设核心建设金句“三分技术,七分管理”。由此可见,人员安全意识是基础且重要的一环。在企业网络安全意识培训中也会经常用到案例引导听众兴趣,今…

普通人如何用AI更好地变现,总结了12条变现玩法

AI进军艺术设计领域,改变了设计师们传统的工作方式,尽管许多互联网公司将AI工具整合到工作流程中,提高了效率、降低了成本,但也导致一些设计师因为被AI取代而失去了就业机会。 AI已经蓬勃发展,你是否抓住了机遇&#…

2023,平面设计趋势

微信搜索 【大迁世界】, 我会第一时间和你分享前端行业趋势,学习途径等等。 本文 GitHub https://github.com/qq449245884/xiaozhi 已收录,有一线大厂面试完整考点、资料以及我的系列文章。 快来免费体验ChatGpt plus版本的,我们出的钱 体验地…

OpenAI掌门人Sam Altman:DALL·E 2 教会我的三件事!

【CSDN 编者按】OpenAI CEO Sam Altman 在近日的活动中分享了 DALLE 2 成功背后的故事,并谈到了 DALLE 2 教会他的三件事。 整理 | 禾木木 出品 | CSDN(ID:CSDNnews) 人工智能 ChatGPT 一下爆火全球,短短几天用户就突破…

阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24

这是ShowMeAI每周通讯的第3期。通讯聚焦AI领域本周热点,及其在各圈层泛起的涟漪;关注AI技术进步,并提供我们的商业洞察。欢迎关注与订阅! 本周在 CSDN 积极答题一路升到 Top2,被系统误判为 ChatGPT 机器人X﹏X 可见压力…

ChatGPT写代码、写情书、写文章、做题,智星AI小助手

ChatGPT写代码、写情书、写文章、做题,智星AI小助手,首先微信搜下智星AI小助手 正巧你想跟一个女孩子表白,却不知道如何开口,这时,它帮你 见字如面,写一封信便缓解了你的紧张情绪... 想写一封辞职信&#…

【版本更新】猿如意 1.1.0 版本发布,增加 ChatGPT 模块、圣诞主题代码片等

一. 增加 ChatGPT 模块 增加 ChatGPT 模块,每日限量发放体验券,先到先得哦 ~ 二. 效率工具增加博客助手、按键测试等 增加博客助手,可直接在猿如意快速发文章 增加按键测试工具 三. 增加圣诞代码、表白代码等 增加圣诞树代码、表白代码等 四.…

Datawhale-chatGPT开发应用指南:协助编程

结对编程,有bug可以直接问 构建测试用例 套路性代码 解决bug 另外还可以优化代码性能。 目前无法取代程序员 好的知识储备才能问出好的问题,好的问题能生成好的结果。 可以把chatGPT当作队友/老师,都可以让chatGPT对自己的代码进行纠错…

ChatGPT全球最大开源平替OpenAssistant:基于Pythia和LLaMA微调而来

论文地址:https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view 项目地址:https://github.com/LAION-AI/Open-Assistant 数据集地址:https://huggingface.co/datasets/OpenAssistant/oasst1 体验地址:http…

ChatGPT初学者最佳实践

2022年11月底,ChatGPT引爆了新一轮AI的革命,也让人们意识到AI真的能够大幅度提高人们的工作效率,甚至有人担心自己的工作会因为AI不保。这种居安思危的意识是正确的,但是正如锛凿斧锯的出现,并没有让木匠这个行业消失&…

暴亏10亿美元,加密银行与背后大鱼均陷入困境,机构们还敢Web3吗?

这是白话区块链的第1843期原创 作者 | Terry出品|白话区块链(ID:hellobtc) 近日,加密友好银行集团 Silvergate Capital 披露,在 2022 年第四季度,其归属于股东的净亏损为 10 亿美元,…

2023.3.13-3.19 AI行业周刊(第141期):再回母校的心得分享

最近一直在收拾隔壁小区的房子,已经空置一年多了,打算重新收拾简装一下,然后租出去,正好可以补贴家用。 在柜子里面发现了好多15年刚毕业时的工资单,当时所在的公司,还是每个月发纸质的工资单。 虽然当时…

顶不住了!OpenAI 宣布启动漏洞赏金计划,众包给ChatGPT找bug

编|小舟 源|机器之心 OpenAI:发现模型漏洞,找我领奖。 距离 ChatGPT 发布已过去 4 个月,GPT-4 也发布近一个月。OpenAI 的这两大模型彻底改变了自然语言处理(NLP)领域的格局,甚至为…

找漏洞赚外快?给ChatGPT挑毛病,最高奖励14万

反正闲着也是闲着,不如来给ChatGPT找漏洞?毕竟,万一真的找到漏洞了还能赚一笔外快。 当地时间 4 月 11 日,OpenAI 宣布推出漏洞赏金计划。该公司将根据报告问题的严重性和影响提供现金奖励,奖励范围从 200 美元到 200…

GPT-4外逃计划曝光!斯坦福教授发现它正引诱人类帮助,网友:灭绝之门...

明敏 杨净 发自 凹非寺转载自:量子位(QbitAI) CHATGPT: ChatGPT4已经来了,30秒做一个弹球游戏! ChatGPT_Plus的功能有多强!3分钟写一个贪吃蛇游戏! 折腾了一晚!终于开通了ChatGPT pl…

GPT-4发布:多模态大模型,AI能力再度进化,可识别图像内容

能终结chatGPT的人只有openAI自己。 ——阿卡夫斯基-作者本人 ::: 今日凌晨,OpenAI发布了GPT的最新一代版本ChatGPT-4,相比3.5,其AI能力再度进化,同时支持输入的内容不再仅限于文字,而且支持图像内容的输入&#xff0c…

JavaWeb房屋租赁系统

项目描述: 本系统是一个独立的系统,用来解决房屋出租信息的管理问题。采用JSP技术构建了一个有效而且实用的房屋出租信息管理平台,目的是为高效地完成对房屋出租信息的管理。 用户信息管理:会员信息的添加、删除和查询等。 房源信息管理: 包…

【ChatGPT】助力岗位提升VS降低岗位需求终究会对哪些岗位负影响,又有哪些岗位正影响

chatGPT会让哪些岗位更差,甚至会导致失业,列举处10个 ChatGPT 作为一种自然语言处理技术,确实可能对某些岗位造成影响,甚至可能导致失业。以下是一些可能会受到 ChatGPT 影响的岗位: 传统翻译员:由于 Chat…