文章目录
- 概览:游戏引擎中的渲染系统
- 四个课时概览
- 一,渲染管线流程
- 二,了解GPU
- SIMD 和 SIMT
- GPU 架构
- CPU到GPU的数据传输
- GPU性能限制
- 三,可见性
- Renderable可渲染对象
- 提高渲染效率
- Visibility Culling 可见性裁剪
- 四,纹理压缩(Texture Compression)
- 五,Cluster-Based Mesh Pipeline
- 总结
概览:游戏引擎中的渲染系统
-
游戏渲染面临的挑战
- 渲染量大、算法复杂、all in one
- 对于不同硬件显卡的适配和优化
- 实时性(60fps、120fps)和分辨率(1080p、4K、8K)要求
- CPU带宽和内存限制(游戏逻辑、网络、动画物理等都是CPU处理的)
-
这块是一个实践性、工程性知识(与纯理论相对),因此技术更新换代非常快
四个课时概览
一,渲染管线流程
流程参照101和图形基础
二,了解GPU
SIMD 和 SIMT
- 单指令多数据SIMD(Single Instruction Multiple Data)运算,对多个数据同时进行同一种运算(指令级并行),一般用于矩阵计算
- 单指令多线程SIMT(Single Instruction Multiple Threads)运算,多线程处理运算(相当于GPU多线程版SIMD),GPU的线程数是比CPU多得多,因此处理简单计算快
GPU 架构
- GPU上的运算是分到一个个的流式多核处理器SM(Streaming Multiprocessor)里计算的,SM用于运行CUDA(并行处理器)。计算时不仅可以并行,相互间还可以交换数据(硬件加速),这是现代GPU最重要的架构
- 最先进的引擎一直在更新,比如逐渐能够使用compute shader、mesh shader等等;以及一些优化比如Tile-Based,这些都跟硬件架构息息相关,如果能先了解下显卡硬件的工作原理,有助于学习这些后续知识~(艺术家也一样)
CPU到GPU的数据传输
- 现代引擎中一般绘制和逻辑是不同步的,但如果某帧绘制需要逻辑运算的数据时,就可能出现不同步的延迟。并且CPU与GPU之间的数据传输非常慢,因此默认原则:尽可能用CPU->GPU的单向传输,而不从GPU读取数据。
- 缓存(Cache)效率在GPU中非常重要,如果计算时要加载数据不在缓存里,就会出现Cache miss(读取到时Cache miss)情况,这时候如果想去内存读取,甚至会花费一百多个时间周期,处理效率大大降低
GPU性能限制
- 内存瓶颈Memory Bounds
- 算术逻辑单元ALU Bounds
- 纹理贴图单元TMU(Texture Mapping Unit) Bound
- 带宽瓶颈BW(Bandwidth) Bound
三,可见性
Renderable可渲染对象
- Mesh:储存每个点的位置、法线、uv、权重等和三角形的点索引
- Materials:经典模型Phong Model、PBR Model等
- Texture:有时候比材质还要重要
- Shaders:shader在引擎中不算是源码,而是“数据”;shader graph连连看
- SubMesh:Mesh根据材质不同分为不同子网格,即SubMesh
提高渲染效率
- 多个模型的多个submesh重复了怎么提高效率呢?
- 可以建立一个资源池(Resource Pool),将同一种资源储存到统一的资源池中,并建立缓存;
- Instance(实例化)相当于先定义一个物体的Renderable,然后再将该数据实例化并渲染
- 游戏中相同材质的submesh,也可以把场景物体按照材质排序,把相同材质的物体group到一起,然后只需设置一次材质(减少GPU等待数据);再进一步GPU Barch Rendering可以在一次drawcall里一次性设置并渲染大量同材质物体
Visibility Culling 可见性裁剪
- 基础原理是通过包围盒判断,优化用BVH Culling之类的算法(尤其是动态东西很多的时候)或者PVS思想。
- PVS(Potential Visibility Set):先用BSP-tree将空间进行划分,每个小格子之间用Portal(传送门)连接,绘制时只绘制当前各自及其能看到的其他格子的内容即可(用于动态载入场景),并且每个格子的可见性是预设好的
- 随着硬件升级,更多使用的是GPU Culling,用GPU快速计算出每个物体的包围盒是否可见,搭配preZ等技术
四,纹理压缩(Texture Compression)
常见的图片格式如JPG、PNG等都是一种压缩格式,它们压缩率高,但是无法实现随机访问,且算法复杂。而在引擎中的纹理需要有高效压缩和解压、随机访问、压缩率高质量好的特性,因此一般采用块压缩(Block Compression)的技术,比如bxt格式是把图片分为4X4的小格子,并且只记录像素最大最小值和各个像素在这两个值之间的插值。「相当于用64位表示原本需要384位(24*16)的16个像素:32位用565格式记录2个颜色,32位记录每个像素的索引,除两个像素颜色外只支持2种插值,共4种,用10的组合作为索引记录,其他颜色丢失」
- 在PC上常用BC7(最新)和DXTC格式,手机上常用ASTC(最新)和ETC/PVRTC格式
五,Cluster-Based Mesh Pipeline
随着发展玩家在一个场景里对模型精度、细节要求越来越高,带来的GPU渲染负荷也增大,因此引擎侧逐渐向Cluster-Based Mesh Pipeline方向发展。
- 管线核心思想:将非常精细的模型分为一个个的小Cluster,比如64个三角形分一个,然后以Cluster为单位进行渲染,剔除和深度排序也是基于Cluster bound而不是整个物体。(natine就是该思想拓展细分到像素级别)(想想曲面细分不就是一个三角形分成更多个然后统一渲染吗)这也对程序员提出了更高的要求。
总结
- 游戏引擎的设计与硬件架构密不可分,要做好一个图形程序,就得了解显卡架构
- 游戏引擎的一个核心问题是Mesh、Materials等数据之间的关系,submesh就是一个很好的解决方法
- 大师:do nothing—用Culling算法使得引擎绘制尽可能少的东西,CPU、GPU做的事越少越好
- GPU代替CPU计算–GPU Driven