AI自动生成的灯光设计效果图
AIGC,元宇宙内容生产范式。
元宇宙、生成式AI、图形渲染技术
当“AI绘画”、“chatGPT”成为热搜,人工智能创作内容(AIGC)的模式开启了内容时代的新篇章,技术前景很性感,但也充满了挑战。元宇宙作为需要澎湃算力与内容的平台,关联的更多的是三维内容自动绘制生成的方法。基于此,光线云科技联合浙江大学CAD&CD实验室、群核KooLab实验室共同开展一系列研究,研究成果除了发表在包括全球计算机图形学顶刊的ACM TOG等一系列期刊和会议之外,也集成到公司产品中。后续我们将在企业技术号(Rays Technology)分享详细的技术讲解文章。
本篇文章将着重分析AIGC的发展历程;从文字到2D图像到三维内容,AIGC如何参与?以及作为元宇宙基础设施的渲染引擎和生成式AI结合,会迸发出哪些奇妙的反应?
PART.01
不同范式转换的集合
引发AIGC技术浪潮
来源:open AI-ChatGPT官网
此前在各大社交平台蹿红的“AI生成绘画类”产品的余热还未散去,近期泛用性更高的 ChatGPT 再次将 AIGC 的话题推向了高潮,ChatGPT 是美国 Open AI 公司在2022年11月30日研发的聊天机器人程序,若把之前的“AI合成绘画”归类为“文生图”或者“图生图”的应用,那么 ChatGPT 则是属于纯“文生文”类的AI应用。
我们通过对 ChatGPT 的研究使用,发现它拥有更强的场景泛化性,能够出色完成视频脚本、代码、论文等诸多任务,同时在长时记忆、即时反馈、关联推理与语言逻辑等方面,远超市面上绝大多数的 chatbot,甚至能够匹敌人类。
自动计算机前的雷贾伦·希勒,图源:Computer Music Blog
回顾 AIGC 的发展历程,资料显示,最早可追溯到20世纪50年代,由莱杰伦·希勒(LejarenHiller)和伦纳德·艾萨克森(Leon ardIsaacson)完成的人类历史上第一支由计算机创作的音乐作品《依利亚克组曲(Illiac Suite)》,虽然该作品不涉及复杂的深度学习算法,但提供了一个基本的生成类作品的创作思路——他们对 Illiac(伊利诺伊大学的超级计算机)进行编程,给定一个规则与音律范围,计算机在这个范围里,不断计算筛选音符序列的数据,直至生成符合规则的旋律并输出。“规则—数据—计算—生成”,一套由计算机生成内容的标准研究范式由此诞生。托马斯·库恩曾在《科学革命的结构》里提出科学革命是一个“范式转换”的过程。该范式的出现,也为 AIGC 科学技术的革命埋下了伏笔。
资料来源:Gartner,国海证券
随着计算机存储和算力的不断提升,人工智能技术迎来快速发展,根据Gartner 2021 AI技术成熟曲线显示,广义层面的 AIGC 尚处于技术萌芽期。但相对应的技术稳定阶段都在5-10年这个范畴内。而深度神经网络的结构升级是推动 AIGC 快速发展的主要因素,其中主要包括三部分内容:生成算法、预训练模型以及多模态技术。
生成算法使得 AIGC 拥有更好处理模型的性能,大大提升了模型的精度,如生成对抗模型GAN、transformer 模型、扩散模型 diffusion Model;
预训练模型让 AIGC 具有更通用的能力,目前主要有 BERT、GPT、 T5 三种模型架构;
多模态技术则是将上述的图像、声音、语音等模型融合,推动了 AIGC 的内容多样性,让其有了更通用的能力。
从流程上看,首先算法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合。这三类技术不仅为生成式 AI 创建了一个标准的研究范式,同时也在各自的技术子集里演化出新的范式。所有范式转换的集合,引发了此次 AIGC 技术的浪潮。
PART.02
AIGC技术背后藏着万亿市场
近年来,AI 在内容市场的能力有目共睹,例如抖音强大的AI推荐算法,单是依靠兴趣内容的智能分发,便造就了短视频时代巨大的流量洼地,而 ChatGPT、AI 绘画这类通过 AIGC 的内容创作形式,不仅颠覆了传统 UGC、PGC 的内容生产模式,其创造内容的边际成本近乎为零,背后是劳动力替代产生的巨大的经济价值。这一内容生产的范式转变,将重塑内容生产供给,进而影响相关行业及领域。
资料来源:量子位智库
量子位智库将 AIGC 产业赛道划分为内容领域与延展领域,并预计1~2年内,内容领域将取得相对完整的商业化表现模式,其中 ToB 内容生产工具最先发育成熟。而随着 AI 的自由度和稳定性逐渐提高,模型数据日益增长,延展领域内的合成数据、虚拟人、甚至是特定内容场景,也会有商业化落地的表现。其中合成数据,即通过 AIGC 生成的数字经济和人工智能发展所需的海量数据,伴随元宇宙内容需求的井喷式增长,最具想象空间。
资料来源:Gartner“合成数据发展预测”
Gartner 预测,到2024年用于训练 AI 的数据中有60%将是合成数据,到2030年 AI 模型使用的绝大部分数据将是人工智能合成的。可以预见,合成数据作为数据要素市场的新增量,在创造巨大商业价值的同时,也有望解决人工智能和数字经济的数据供给问题。站在内容消费视角分析 AIGC 的产业链,可以说内容市场需求有多大,AIGC 技术的市场就有多大。
PART.
03
AIGC元宇宙数字内容生产力
短期内,合成数据是建设元宇宙的基础,然而低效的人力内容生产模式也成为当下阻碍元宇宙发展的重要因素之一,AIGC 作为数字内容生产的新范式,可以轻松实现内容开发的流水线化。
元宇宙需要大量的图像类内容,不同于“文生文”类的 AIGC 采用的预训练模型,如 ChatGPT,BERT 等。目前,图像类的AI生成一般采取生成式对抗网络 GAN,由2014年,伊恩·古德费洛(lanGoodfellow)提出,是早期最为著名的生成模型,被广泛用于生成图像、视频、语音和三维物体模型等。相较于2014年,现有的 GAN 提升了最终图像的特定细节、内在逻辑、生成速度等,但要在实际应用中大规模稳定应用,还有存在诸多问题。随着今年的 AI 合成绘画的大火,使得另一种图像生成模型 Diffusion model(扩散模型)成为当前最火热的图像生成算法之一,甚至有赶超 GAN 的势头。
Demo来源:光线云RAYSENGINE渲染引擎
AIGC 作为一种低成本、高效率、高质量的内容生产模式,在元宇宙各领域里有着广泛的应用空间。
在游戏行业,AIGC 可以用来生成游戏场景和角色模型,自动化动画制作,甚至可以在游戏中生成动态的剧情和任务。大大缩短游戏开发的时间和成本,提高游戏品质,创造更加丰富的游戏体验;
在动画和电影行业,AIGC 技术可以用来加速特效制作,自动化场景和角色创建,以及优化后期制作。例如,快速生成如爆炸、火灾、水面效果等高质量的特效。或者用来为虚拟角色添加自然的表情和动作,提高动画的真实感与情感表达;
在建筑行业,AIGC 技术可以用来帮助建筑师快速创建虚拟模型,自动分析建筑结构,预测结构强度和风险等。大大提高建筑设计的效率和精度,减少建筑结构问题的出现;
在家装行业,AIGC 技术可以通过计算海量顶级设计师的家装方案,高仿真绘制虚拟室内环境,并模拟不同时间段的光源表现、同种风格下不同的家居陈列等等,让用户获取自己最心仪的家装设计方案等等。
PART.04
图形渲染技术如何参与AIGC
虽然目前元宇宙里 AIGC 的应用尚处萌芽期,但为了探索更高效的3D 渲染模式,光线云早已开始“AI+渲染引擎”的技术布局。渲染引擎作为元宇宙最重要的基础设施,与AI关联的更多的是三维内容自动绘制生成的方法,基于深度学习算法的AI技术迭代,可以快速、灵活地生成不同模态的渲染数据内容,在游戏、影视、数字孪生、虚拟人等内容研发上,能够有效降低开发成本,提升内容创作效率。
为了能够显著提升 AI 在渲染引擎中的参与能力,提升渲染的灵活性与智能度,“光线云科技”联合“浙江大学 CAD&CG 实验室”以及“群核科技 KooLab实验室”深入开展了多项探索,在场景生成、渲染提速、效果增强等方面取得了一系列成果,并获得量子位“2022 最具价值人工智能企业”、亿欧“2022 AIGC中国创新科技TOP 10”等殊荣。
Demo来源:光线云RAYSENGINE渲染引擎
首先,我们知道 AIGC 的相关训练需要庞大的数据集,然而数据集的创建过程是一个十分繁琐的过程,它需要大量的人工标记,尤其对于三维场景数据来说,场景数据的修改与重新绘制大大提升了获取的难度,此外还易引发版权等相关问题。为了应对上述问题,我们设计了一个面向大规模室内场景的可编程数据生成系统,通过该系统可以帮助用户轻松地从大规模三维场景数据中生成一系列定制化的图像数据集,并在保护知识产权的基础上,提供对全球最大的家装设计库的访问,该成果发表在2022年的《Computer Graphics Forum》上。
之后,在探索渲染引擎与生成式AI的结合上,我们选取了三维领域最常见的场景之一 ——室内设计,开展相关的领域研究。
AI生成与设计师布置的光照对比
室内场景的灯光设计一直以来是一个具有挑战性的任务,由于需要考虑到房间结构、家具放置、美学效果等多方面的因素,它往往需要具有相当经验的专业设计师来完成。三维空间是否能自动生成光照?经过漫长的探索,我们最终设计了一个数据驱动的室内场景自动灯光设计系统,即“AI 自动生成三维光照”项目。给定一个放置好家具的三维室内场景,我们的系统可以在场景中自动放置不同类型的光源以生成具有美学考量的照明效果。该系统不仅能够取得比当前基于规则的方法更优的结果,而且在多数情况下,能够和专业设计师的灯光设计结果相媲美,大大地提升了专业设计师的设计效率,同时降低新人完成灯光设计任务的门槛。该成果也被2023年的《ACM Transactions on Graphics》收录。
PART.05
元宇宙是篇宏大叙事
落笔处必有AIGC与图形渲染
元宇宙概念宏大,尚有距离。伴随 AIGC 的爆火,势必让科技巨头在关联技术的投入分配中有所倾斜,但笔者认为,这并不意味着对元宇宙的全盘否定。元宇宙本身就是一个需要海量3D 内容数据的虚拟世界,AIGC 的出现能够保证3D内容的持续性供给,图形渲染技术能够让3D 内容更加真实。如果说元宇宙是篇宏大叙事,那么落笔处必有 AIGC 与图形渲染。
但不管是 AIGC,还是图形渲染技术都有一个问题要解决,即目前没有通用的界定生成式视觉内容的标准,更多依赖于人的主观视觉判断,前文提到,创作出人类史上首支AI生成类音乐作品的莱杰伦·希勒和伦纳德·艾萨克森,也在自己写的书《试验音乐:计算合成》中这样写到:“当我们的作品主题产生时,就会被问道:‘作曲家会做些什么?’。”他们这样回答:计算机并不知道对错,它们只执行指令。即使程序可以快速炮制出大量音乐,还是要依靠人来最终衡量音乐的好坏。
此外,底层模型开发的难度和成本都极高,伴随着中美产业结构的调整,发展 IT 基础设施及信息系统信创是大势所趋。在我国,虽然本土深度学习算法已经取得不错的成就,但对齐国外技术仍具有一定的时间差。图形渲染技术亦是如此,如何建立自己的核心壁垒与差异化,如何将多维技术应用于产业中形成“飞轮效应”,取得良好发展。真正的考验才刚刚开始 。
参考资料:
1.量子位智库 | AIGC/ AI 生成内容产业展望报告
2.利维坦 | 人工智能是怎么创作音乐的?
3.托马斯·库恩 |《科学革命的结构》
4.腾讯研究院 | AIGC发展趋势报告2023——迎接人工智能的下一个时代