掐指一算,五年没更新过我的CSDN账号啦,方向也从人工智能变成了计算机图形学,当然也依旧会关注AI的发展,之前在知乎上写了一些文章[传送门],后续也会逐渐同步到CSDN上~ 这个系列将包含五篇文章,内容来源于王希老师GAMES104课程的动画系统与动画高级技术部分,这是系列的第一篇文章~
动画技术简介
在介绍完渲染系统后,今天将介绍动画系统。相较于渲染系统,动画更加直观,更容易理解。动画也是游戏中最重要的一个系统,所以值得我们不断钻研,发现其中的乐趣。实际上,人类在很早的时代就开始对运动物体充满兴趣,因为我们观察到自然界都是运动的。但人类最早的表达方式只有绘画,所以你可以发现在几万年前,我们先辈画在岩石上的绘画都是动感十足的,包括在先祖的陶器中,你会发现画了一系列人物的动态,而不只是一个静帧。那个时候没有投影技术,但人类先祖脑中想的是一个动起来的世界,所以我们一直在探索这样的一个方法。
直到近代,人类发现一个非常有意思的现象,就是著名的“视觉残留”现象,这也是现代所有显示设备的一个理论基础。当我们看到一个物体,这个物体的影像在眼睛中会残留大概1/24秒。而这是所有电影、电视,包括游戏以及游戏动画的一个基础的理论支撑。因为我们没有办法真正实现自然界中那种连续不断、可以无限细分的动画系统。
这也不得不提早期一个特别有意思的尝试——西洋景,它在以前科学不发达的时候,能用这种方法让大家在投影上看到一个运动的东西,比如一个小人。还有小时候在纸上画的小人动画,实际上这都是现代动画的基础。
那么动画的先驱是什么呢?首先是电影行业,可以这么认为:游戏行业动画的基础理论、基础工具都来自于电影行业。从最早迪士尼动画的2D动画,到早期七八十年代,电影开始将动画生成的虚像和实拍的实像结合到一起。在侏罗纪公园问世时,计算机动画技术已经到了一个非常高的高度。
今天在游戏中实现的动画效果,实际上是在逼近离线渲染,比如阿凡达。当年我看到阿凡达的时候,觉得这是游戏动画未来需要努力的方向。这里也要提到一部电影——Zafari,Zafari 实际上是第一部完全使用游戏引擎实时渲染制作的动画片,这也代表了动画未来的方向。以前我们认为动画是离线的,而如今可以通过实时渲染制作得到。
这些动画技术的底层到底是什么呢?从最早的电影开始,制作过程非常简单,通过一帧、一帧的2D手绘,将其绘制出来。后来发展到用摄像机拍摄演员的动作,在演员身上绑定marker,通过光学方法追踪标记点,恢复出人物动作。一些电影中的人物表现得非常真实、自然,实际上是使用了动捕技术。我相信很多同学看电影幕后的时候都能看到动捕技术,动捕技术也是游戏动画的一个核心基础。
Games 104关注的是游戏引擎,接下来介绍游戏动画,游戏动画的鼻祖依然是电影行业。最早期的动画非常简单,不断翻转、播放图片。波斯王子游戏中的角色看起来非常自然、灵活,但实际上也是通过图片制作出来的。为了制作出逼真的动画,制作者拍摄了波斯王子的弟弟,让其模仿动画中需要的动作,并根据照片将动作绘制出来,成为了游戏中的像素。在那个时代,波斯王子中角色的动作非常自然。即使是基于骨骼的3D动画技术,我们追求的自然感仍来自于真实的人类,而人类对这种自然的真实感非常敏感。另一个需要highlight的游戏是Doom,它看起来是3D游戏,但实际上是通过2D动画实现的。游戏中墙体带给玩家的空间感,是通过图片的变形实现的;而游戏中的开枪动作等,是通过当前相机角度配合一组图片实现的,让玩家感觉自己身处3D环境中,Doom也是游戏动画的鼻祖之一。
进入3D时代后,我们开始有了显卡。在生化危机等游戏中,角色也开始有了动画,但这个时候的动画会存在一些问题:动画中运动的只有骨骼,会显得非常生硬。之后出现的蒙皮动画,会使得角色看起来像真人一样自然。现在的游戏动画越来越真实细腻,既有基于物理的仿真,也有角色非常自然的动画。
提到游戏动画,不得不说它有很多挑战。电影行业中的动画在完成制作后,通常逐帧进行播放。而在游戏动画中,我们不能预设玩家的行为,比如玩家在行走的过程中,突然决定要奔跑,跑的时候突然看到前方有障碍物需要跳跃,跳跃后觉得需要抓住某个物体。所以在游戏世界中,动画需要与gameplay互动,接受来自玩家的输入,同时也受限于游戏环境,比如角色在奔跑过程中撞到障碍物,此时需要播放对应动画,或者角色在走路过程中,突然被怪物抓住或打倒。这些gameplay、物理反馈,如何能够在动画系统中及时反应,表现得非常自然?这是游戏动画系统中,相对于电影,它具有挑战的地方。
另一个挑战从渲染部分一直跟大家提起,游戏引擎中所有的东西都是实时的,everything is real time,无论算法多复杂、高端,永远需要在1/30秒里将它算完。每一个系统,比如前面讲到的绘制,现在讲到的动画,包括游戏逻辑、物理、AI,这所有的东西都要竞争1/30秒,也就是30毫秒。但现代游戏又希望游戏角色越做越新颖,场景越来越宏大,这事实上给动画系统造成了巨大的挑战。因为它的挑战不仅是算力的问题,还包括动画数据本身非常大,需要不断获取数据进行计算。在渲染系统中讲过,当在内存中获取数据时,性能是非常低的。所以这也是游戏引擎中动画系统的一大挑战。所以今天我们会讲的动画压缩技术,实际上也在解决这样的挑战。
第三个挑战是什么呢?实际上随着现代游戏的要求越来越高,我们对角色的自然感和真实度要求也非常高。当动画师在制作动画的时候,一般会预设角色在一个无限延伸的平面上做反复循环的动作。但在游戏中,你会发现角色每时每刻都要接受来自于用户的输入,需要不断地切换动画。
最右边图中展示的是游戏中最火的motion matching技术,它将很多动作融合在一起,使得角色非常鲜活。此外,角色还需要跟环境进行各种符合物理规则的互动,即physic-based animation。当相机距离角色足够靠近的时候,我们可以看到角色的脸,此时会看到人类最敏感的东西——表情。直到现在,表情都是计算机游戏中非常有挑战的部分,想做得很好的话非常困难。我们对真实感也提出了越来越高的要求,因为大家已经习惯于游戏引擎实现的效果能够逼近于电影。而且我们的屏幕越来越大,分辨率从4k变化到8k。未来我们希望能有一个非常high fidelity的虚拟人物站在我们的面前,讲到虚拟人技术的话,其实最核心的就是动画技术。这就是游戏引擎中动画技术的一个核心挑战。
大家不要认为今天的游戏都是3D的,实际上这个星球上最popular的、最赚钱的游戏是2D游戏。其实,2D动画技术也是一个非常重要的技术。接下来,会讲3D动画技术,而在3D动画技术中,会开辟一个专门的章节讲述蒙皮动画真正的实现细节。因为大家提到的3D动画技术,其核心就是蒙皮动画,也是现在游戏中角色的动画。蒙皮动画的原理讲起来非常简单,但当你钻研下去,开始真正写游戏引擎,而不是简单地调用引擎的时候,你会发现其中有很多基础理论、基础数学的问题。
那么我们今天这节课讲的是游戏引擎,所以会跟大家讲一些真正的细节,这些细节是很重要的。很多时候,你以为自己理解了,但在写的时候如果对基础知识掌握不够扎实的话,会写出很多bug。第四部分会讲动画数据的处理,今天课程讲一个非常简单,但又非常实用的东西,就是动画数据的压缩。因为如果今天你要写游戏引擎的话,动画数据是一定要压缩的,否则就会有很多问题。最后会跟大家介绍整个动画生成的pipeline,因为当我们去写游戏引擎的时候,不是只写引擎里面的东西,大概率可能会要写3ds Max、Maya的插件,帮助艺术家把动画转换成你自己引擎所能接受的格式,而这里就要求你对艺术家生产动画素材和数据的流程有所了解。基本上听完今天这节课,你就能做一个完整的动画pipeline。第二节课会跟大家介绍一些相对高端、fancy的技术,也属于现代游戏引擎的标配。比如动画的混合,即如何根据游戏操作逻辑进行各种合理的混合;包括IK技术,即动画与环境间的互动;还有整个复杂的animation pipeline,以及大家喜闻乐见的动画树,它的设计原理、它有哪些节点、它是怎么运作的。
最后会讲两个比较有意思的东西,第一个是怎么去做人面部的动画,你们会发现Facial Animation和普通形体的动画是两套技术体系——两套完全不同的方法论和技术栈。另一个是Animation Retargeting,能否把一个人在走路的动画转移到一个大怪兽上,形成走路的动画。这些技术相对第一节课的技术来讲要难一点,但如果想做一个3A游戏引擎的话,这也属于入门级的一些技术。所以动画两节课会讲一些标准现代游戏引擎里的核心模块,其实还有一些比较前沿的内容,像Motion Matching等,有可能在整个课程上完之后,争取在高级课程中跟大家去讲。大家先在这两节课把动画系统的基础打好,如果将来你想成为一名游戏动画师,或者gameplay的designer,再或者gameplay的programmer,包括你想成为动画方面的专家,这节课的内容与你的相关度非常高。
2D游戏动画技术
精灵动画
2D动画事实上是整个游戏引擎动画的鼻祖,最标准的是精灵动画,也就是Sprite Animation。它的想法非常简单,把游戏里角色整个动作的每一帧记录下来,然后在游戏中循环播放,是不是就是一个很完美的2D动画?其实我们童年的回忆全是这样的2D动画,不知道大家有没有玩过任天堂、小霸王这样的游戏机,上面所有的游戏都是用这样的2D动画技术制作出来的。
这里特别要讲到Super Mario,记得我在第一节课讲过那个时代做游戏不需要游戏引擎,他们真的非常聪明,比如像这只小蘑菇,实际上就是一张图,把它flipping后不断播放,你就感觉到一个小家伙瞪着眼睛向你走过来。所以那个时候真的资源很少,大家做东西还是非常具有想象力的。
精灵动画这样的技术虽然很古老,但在现代游戏引擎中,即使是高端的3D游戏引擎,这个技术也仍然存在。在游戏的很多系统中,比如像Particle System,后面有一节课会专门讲它。粒子系统中产生的爆炸效果,其爆炸出的每一个粒子不是静态的一张图,实际上是一个序列帧,你可以看到烟球慢慢扩散的效果。所以,精灵动画在2D游戏、特效系统中还是被广泛应用的。
Live 2D
但真正的游戏,也就是大家经常氪金的游戏,实际上使用了一种更加高端的2D动画技术,就是这里要着重介绍的Live 2D。我个人还是蛮喜欢这个技术体系的,非常简单,但给艺术家的空间特别大。右侧二次元角色非常鲜活,她就是用一系列图片通过变形、编辑得到的。如果想制作卡牌游戏、二次元游戏,但预算、时间有限,这一部分将是你们最关注的东西了。
Live 2D的想法非常简单,将一个角色上的所有元素,比如头发、眼睛、眉毛变成图元,将这些图元拼在一起,变成一个大资源。对于每个图元进行旋转、缩放以及变形,变形简单来讲就是对图元中的三角形、四边形进行仿射变换,通过上述操作将角色鲜活地表现出来。Live 2D听上去真的有这么强吗?一开始我也觉得它怎么可以做得这么好?包括很多大作,像这种二次元少女风格的游戏都是使用这个技术制作的。
首先对所有图元设置深度,深度可用于表示图元间的层次关系,当它动起来的时候,互相之间不会穿插。其次会为每个元素生成一个控制网格,在这个控制网格上可以随机加入控制点,当对这些点进行移动时,图元会跟着变化。当一个角色表示开心或者不开心时,眉毛会发生变化,用这种简单的技术就可以实现,在二次元中这种表达本身已经非常具有表达力。
在使用Live 2D技术制作动画时,本质上是在每一帧调整上述图元。例如在某一帧中角色眼睛是闭着的,下一帧中角色的头产生移动,再下一帧,角色可能会摇头,以此类推将很多帧K好后,一个非常鲜活的角色就出现了,这就是Live 2D的原理。Live 2D非常符合艺术家的直觉,不需要理解复杂的3D变换、投影等,就能做出一个很棒的游戏。Unity、Unreal,包括我们自己的引擎都会全面支持Live 2D。3D游戏很多时候是技术上复杂,内容上更加真实,但从游戏性角度,2D游戏是真正的王道。
如果大家将来做引擎的话,2D游戏引擎也是很值得大家关注的一个方向。有一些很前沿的引擎,在2D部分做得非常好。我们也看到了一些非常优秀的作品,给你的感觉非常好,这其中有很多有意思的技术在里面。
3D游戏动画技术
在介绍3D动画技术前,先介绍一个概念—— Degree of Freedom ,即自由度。它指的是一个物体有多少个自由度,就可以在多少个维度去变化。
对于一个刚体,其在整个三维空间运动的自由度为6个自由度。因为它有平移的3个自由度,可以沿着x、y、z三个方向去平移,这是3 DoF。刚体还可以沿着三个轴旋转,分别以x、y、z轴为中心进行旋转。所以整个三维空间的刚体,其自由度为6。整个游戏动画的核心是基于自由度的表达,也是对刚体运动的一个表达。
3D游戏动画中最基础的是基于层次结构的刚体动画,它非常像小时候看的皮影戏,把角色的每个关节做成可动的。当移动关节时,整个角色就可以运动起来。实际上,关节本身有一个树状结构,即Hierarchy。刚体动画存在一个问题,当网格模型与骨骼进行绑定时,骨骼发生变动,会导致网格模型彼此穿插。就像小时候看到的皮影戏,它各个关节之间会发生穿插。
在很多3A游戏中都使用了一种技术——Per-vertex Animation,即顶点动画。如果在游戏中,旗帜类型物体表现得特别好,有可能使用了基于物理的动画或者顶点动画。如果使用骨骼表达风吹布料的效果,需要放置多根骨骼。相比之下可直接存储每个顶点位置随时间的变化,通常会存储两张纹理图:第一张纹理图的横向轴对应着每一个顶点,如果顶点数为100万,横轴也为100万,假设动画是100帧,竖向轴对应着每一帧逐顶点的偏移量。由于顶点发生变化,表面法向也会产生变化,直接使用顶点位置计算法线可能出现问题。从效率的角度出发,将顶点法向信息存储到第二张纹理图中。通常使用物理引擎进行仿真,将顶点动画信息存储到贴图中,在引擎中就能够展现出非常真实的旗帜效果。
此外,有另一种类型的顶点动画——Morph Animation,其主要被用于人脸动画、捏脸系统中。它在每个顶点上有影响权重,在每个Key Frame对Key Pose进行混合,并在每帧之间进行插值。相信很多小伙伴喜欢玩游戏中的捏脸系统,我一直认为捏脸系统是游戏的本体,大家拿到游戏愿意花三、四个小时去捏脸。捏脸系统是不是可以通过骨骼来驱动?是的,但如果当变形过大时,脸上的五官看起来就不自然了,而通过在不同Morph Target间进行插值可以实现自然的脸部变化。
在游戏中出现最多的对象是人、动画角色,人和动物最大的特点是他们表面都有一层皮肤,但它不会随着身体的运动而发生皮肤间的自我穿插。游戏中通常会使用3D蒙皮动画技术实现类似的动画效果,其核心思想是每个顶点受到多根骨骼的影响,这样能够保证当一个对象去运动时,它是水密性的,即皮肤间不会互相穿插。它比早期刚体的骨骼动画做得要好,是现代游戏引擎中最常见的动画模型。
其实蒙皮动画技术在2D动画中也有广泛应用,因为2D动画面临着同样一个问题:如果使用骨骼驱动图片运动,图片间彼此会产生穿插。所有角色看起来就像机器人一样,如果使用同样原理将蒙皮动画的方法运用到2D角色中,当你看到人在运动的时候,整个身体会相对自然地去变形。它们的技术原理是一致的,3D蒙皮动画中的数学运算在2D中也是完全起作用的。
最后一种动画形式是Physics-based Animation,比如一个角色一旦受击或者死亡时,他会进入一个Ragdoll状态,也就是中文中的布娃娃系统。早期的时候,布娃娃系统把人设计得像沙袋一样,但现在布娃娃系统既有设计师设计的Animation感觉,又有整个人摔在地上的感觉。此外,还有关于物理的模拟。基于物理模拟的动画被使用最多的地方其实是衣料,我相信现在很多小伙伴在玩游戏的时候,会非常在意角色身上的衣料表达得好不好?但衣料模拟其实是游戏动画或者游戏物理中最难的一部分,包括流体的模拟。
在游戏中,如何保证角色的手永远能够抓到一点?这时就需要使用IK技术,IK的全称叫反向动力学,它指的是给定一个点,角色如何运动看上去才最自然。简单来讲,比如在人的面前放一个苹果,人去抓苹果是不需要训练的,天然就会的。但在游戏中如何让这个动作一气呵成,实际上是非常复杂的。大家可能会奇怪,为什么计算机会比人笨?但仔细观察一下小朋友,当他在只有0到6个月的时候,在他面前放一个物体,他其实是抓不住的,他需要练习很久才能准确抓到苹果。所以对于人的话,有可能是使用Deep Learning的方法经过长达以年为单位的训练,练就了准确的抓取能力。但今天在游戏中,用IK系统也能模拟出人这样的能力。
上面主要介绍的是动画系统在Runtime时的方法,另外一个更重要的是Animation Creation,即如何创造动画。传统方法有两种,一种是动画师在编辑器中手K动画,其中的K是指通过Key Frame,即关键帧创作动画。还有一种是Motion Capture,即动捕,动捕技术目前在电影、游戏中已经使用得非常广泛。