游戏服务器研究二:大世界的 scale 问题

这是一个非常陈旧的话题了,没什么新鲜的,但本人对 scale 比较感兴趣,所以研究得比较多。

本文不会探讨 MMO 类的网游提升单服承载人数有没有意义,只单纯讨论技术上如何实现。

像 moba、fps、棋牌、体育竞技等 “开房间类型的游戏”,scale 起来比较简单。此类游戏的 pvp 一般是相对较少的玩家在一个小场景里进行对战,以这种小场景为单位去做负载均衡就行了。所以,即使是千万级同时在线,也没啥特别的困难,我在另一篇文章 《游戏服务器工程实践一:百万级同时在线的全区全服游戏》 也描述过这方面的工程实践。

而像 mmo 这种大量玩家在同个场景的(这里称为大世界),scale 起来就比较困难。大世界本身就是一个整体,很难对它进行分割(partition)。无论怎么分割,它的各个部分之间都需要有交互,这种交互会带来工程实现上的诸多麻烦。

mmo 这里取广义的概念( Massive Multiplayer Online ),不特指 mmorpg,所以像现在的各种 slg,也算是一种 mmo。

下文将大致总结一些相关的技术点。


1. 一些游戏的单服 pcu(最高同时在线)

坦克世界(world of tanks),自称是 mmo,但实际上并不是 mmo。它是 match based [1],并不是一个大世界,相当于 moba 而已。官方说有 1M+ 的 pcu,但这也没啥特别的,毕竟这类游戏做负载均衡比较简单。另外,虽然它使用 bigworld engine 开发服务端,但并没有用到 bigworld 最拿手的动态负载能力。

eve online,这么多年下来,单服 pcu 纪录大概是 65000 左右 [2]。

wow,前段时间发了个测试数据,单服 pcu 能去到 12 万 [3]。

看起来还是 wow 最强?


2. scale 的方法

大致有两种方法,一种叫 zoning,一种叫 offloading。

zoning 是空间上的分割,把地图分割成多个区域,分散到多个线程(进程)进行负载。优点是分割效果好,可以达到很高的承载能力;缺点是存在大量的异步编程,复杂度高,开发效率低。

offloading 是逻辑上的分割,把相对独立的逻辑拆分到其他的线程(进程)去运算,主逻辑还是在一条线程上执行。优点是逻辑比较简单,开发效率较高;缺点是承载能力有限,主逻辑依然存在性能瓶颈。


2.1 zoning

zoning,即按地图区域进行分割。有两种方法进行分割:固定分割和动态分割。

固定分割,即在服务器运行前,预先按一定方式把地图分割成 n 个区域(cell),由若干个线程(进程)承载这些 cell,服务器运行起来之后这种分割就不变了。

动态分割,典型的实现是 bigworld,在服务器运行时进行动态分割,有一个全局的管理服务器(cellappmgr),根据整个地图上 entity(实体)的 cpu load 的分布情况,尽量平衡的对区域进行分割,分割出来的区域分散到各个 cell 服务器上(cellapp)。

有些文章会说 bigworld 的实现是一种分布式 aoi,但看过代码就知道了,它就是对地图区域进行动态分割而已。


2.1.1 zoning 固定分割

固定分割没什么好讲的,它的大体结构就是这样,下图取自韦易笑老师( 知乎大佬:https://www.zhihu.com/people/skywind3000 ) 的这篇文章《游戏服务端架构发展史(中)》 [4]。


图1:zoning 固定分割的典型服务器架构[4]

node 是一个个的地图服务器,负责运行一块地图区域;nm 是 nodemanager,负责管理这些 node;world 是世界服务器,负责提供世界级别的服务。

这种结构下,每个 node 承载的地图区域是固定的,玩家多的时候压力重,玩家少的时候压力轻,没有弹性可言。


2.1.2 zoning 动态分割

典型的一种实现方式就是 bigworld engine。基本思路就是根据地图上 entity 的 cpu load 的分布情况进行分割,使用 bsptree 管理地图区域(cell),尽量保持 bsptree 子树的 cpu load 处于平衡状态。

bigworld 的服务器架构是这样的:


图2:bigworld 服务器架构[5]

动态分割+动态调整边界的算法是这样:

1、当出现过载的时,动态分割,尝试新增 cell,并把 cell 放到新的 cell 服务器(cellapp)去运行。

2、当出现负载不均衡时,动态调整边界,尝试移动 cell 的边界,促使部分 entity 从一些 cell 移到另一些 cell。


在 bigworld 中,用一个 space 代表一整张地图,分割出来的每个区域称为 cell,这些 cell 的面积不是固定的,边界会随着负载的变化进行移动,直至达到平衡。

下图展示一种经过 动态分割+动态边界调整 之后的可能情况:


图3:bigworld 动态分割的可能结果

bigworld 除了动态负载均衡,还做了下行消息优化来保证 scale,它会限制每个 client 的下行带宽,aoi 范围内有太多 entity 的时候,优先发送离自己比较近的 entity 的属性变化。

bigworld 的整个 load balance 的算法实现略复杂,我会单独写一篇文章总结一下。


2.1.3 无缝地图

提到 zoning,不得不说无缝地图。无论是固定分割还是动态分割,无缝都是可实现的,基本上都是用 ghosting 机制来处理边界问题。

当玩家处于 cell 边界时,它要能通过 aoi 获取到相邻 cell 的 entity,并且可以无感的跨越 cell 的边界。

Real Entity 是权威的 Entity。Ghost Entity 相邻 Cell 对应的 Real Entity 的数据拷贝。

下图表示两个相邻的挨在一起的 cell。


图4:相邻的两个 cell

下图表示这两个 cell 是怎么处理各自边界上的 entity 的。每个 cell 都会在边界处再延伸一段虚构的区域出来,这块区域就是对方的边界区域,且它的宽度跟 aoi 的半径相同。

Cell1 的 entity 处于 cell1 自己的边界时,可以自己看到一些 ghost entity,这些 ghost entity 对应 cell2 边界区域上的 real entity。假如 cell1 上的 real entity 攻击了 ghost entity,则这些 ghost entity 会把相关事件转发给 cell2 上的 real entity,如果 real entity 发生属性变化,也会同步回对应的 ghost entity。

所以 ghost entity 就相当于一个代理,方便了 cell1 对 cell2 边界上的 entity 进行操作,反之亦然。


图5:相邻的两个 cell 如何处理边界


2.1.4 小结

固定分割的优点是实现简单;缺点是静态的对地图进行分割,无法适应玩家负载的动态变化,整体的适应能力较差。

动态分割的优点是能动态适应玩家负载的变化;缺点是实现上复杂,很容易弄出 bug 来。

无论是固定分割,还是动态分割,分割的粒度总是有限的,不可能无限小,所以,它们都无法解决小范围内有大量 entity 的问题,这种只能通过玩法规避,或者使用 offloading 的办法尽量的分割逻辑。


2.2 offloading

玩家在小范围内聚集,导致局部负载过重,这里就称为同屏问题吧。同屏单位多的时候,假设有 M 个单位,彼此都在对方的 aoi 范围内,那么消息广播量就是 M 平方的量级,非常可怕。

解决这个问题,有两种思路:1、玩法上彻底规避这种人群聚集的可能;2、提升单线程性能,把主线程的逻辑尽可能拆到其他线程去做。

思路 1 是策划考虑的事,就不讲了,这里只说思路 2 即 offloading。

offloading 的思路很简单,就是分拆逻辑,能够独立出去的逻辑尽量独立出去,让主线程只处理最核心的主逻辑。

难点主要就在于分拆上,要分拆哪些逻辑,分拆了会不会性能更糟糕,都是要实际考虑跟量化的。要根据不同的项目情况使用不同的分拆策略,下面就举一些具体的例子。


2.2.1 mmorpg offloading 的例子

网易的这个分享 《游戏服务端高性能框架:来看《天谕》手游千人团战实例》 [6] 就是第二种思路,这种方式也叫 offloading。

它干脆就不分割地图了,通过纵向拆分,提升单线程处理主逻辑的能力,最终用 60% ~ 80% (主线程40% ~ 50%,网络线程20% ~ 30%)的单进程 cpu 消耗,支撑 1150+ 人在同一地图团战 [6]。

大体思路总结如下:

1、视野同步优化
把遍历实体上的所有属性进行打包序列化的逻辑拆分到网络线程,网络线程保存一份属性副本。

2、消息广播优化
消息广播也由网络线程来做,网络线程保存每个实体被哪些实体关注的列表。

3、属性同步优化
1)同一帧的多次改变合并为一次改变。
2)复杂结构的改变,使用一种自定义的编码形式,比如有字典&数组的多重嵌套,则把 key、索引编码为一串字符串作为“改变key”,下发就只下发“改变key”+改变值即可。

4、写库优化
玩家属性也存一份副本在另外一个进程中,由这个进程负责写库,如果进程崩溃,还可以从另外这个进程中恢复数据。
(点评:我觉得这样做只是增加了单点故障的风险,直接把写库逻辑拆到另外一个线程就行了)。

5、技能同步优化
技能的中间过程,改 “同步状态” 为 “同步指令”,减少需要下发的数据量。


可能有人会说大团战没啥意思,画面糊在一起,看都看不清楚。再一次指出,这里只讨论技术实现,好不好玩,策划跟玩家更有发言权。

在过往的工作中,我也做过 mmo 的同屏优化,工作量也主要是集中在消息下行的优化上,整体思路大同小异,不过当时用的是 skynet。


2.2.2 slg offloading 的例子

天美工作室的关于【重返帝国】这个游戏的分享 《怎么解决大地图SLG的技术痛点?》 [7] 挺不错的,具体的讲了他们是如何优化的。

大体思路总结如下:

一、流量优化

1、降低向客户端同步的对象数量

1)aoi 上,放弃九宫格算法,根据客户端的梯形视野精确的筛选视野内单位。
2)根据客户端上报的实际负载能力,进行优先级裁剪,只向客户端同步最重要的对象。

2、尽量降低单个对象向客户端同步的流量

1)技能同步
根据各个客户端各自配置的流量限制进行同步(比如0.5秒内最多50个事件),可动态调整;按照优先级进行裁剪,规则有:玩家自己的事件优先级高,稀有事件优先级高,等。

2)属性同步
a)字段级增量同步。
b)按需同步,当前场景不需要的字段就不同步了。
c)LOD 同步,每个属性在定义处可加上 LOD 标签,当玩家缩放时,根据 LOD 层数自动筛选必要的属性进行下发。

3、属性存盘

基于支持字段级增量的属性系统,采用 fulldata + deltadata 的存盘方式,减少存盘的 io 流量。


二、大地图优化

1、视野拆到独立的线程,并且可以配置线程数。
2、寻路拆到独立的线程,并且可以配置线程数。


2.2.3 小结

offloading 的目标是尽可能的优化性能,优化是第一目标,所以它的做法基本上都很难说得上优雅。但是也没有其他更好的办法了,算是一种妥协吧。


3. kbengine 与 bigworld

kbe ( https://github.com/kbengine/kbengine ) 是仿 bigworld 实现的一套游戏服务器引擎,代码是仿的,连文档也是仿的,比如 “KBEngine overview” ( KBEngine overview(cn).pptx )这份 ppt。

但是最核心的动态分割部分,kbe 并没有实现。

另外,kbe 没实现无缝地图,space 之间没有实现边界的管理。kbe 的 ghosting 机制,目前也只是用于 entity 在 space 之间传输,因为 “跳转不同的 space 在一瞬间也存在 ghost 状态” [8]。跨 space 传输,也就是将玩家从一张地图传送到另一张地图。

所以,从完成度来看, kbe 只是一个普通的 mmorpg 实现,没有动态分割,也没实现无缝地图。

有空的时候改一改 kbe,把动态分割跟无缝地图补充完整,应该会挺有意思的。


4. 总结

本文讲了大世界 scale 的两大思路:zoning 和 offloading,简单描述了 bigworld engine 的 zoning 实现,也以一些公开的技术分享为例,总结了 offloading 的一般做法。

新项目如果处于规划阶段,可以考虑 zoning 的思路,但是这个实现难度相对较高,如果不是精英团队,要慎重考虑。
老项目或已经动工的项目,按照 offloading 的思路做优化会比较靠谱。


5. 参考

[1] reddit. Why is this game considered an “MMO”. Available at https://www.reddit.com/r/WorldofTanks/comments/uwsyj/why_is_this_game_considered_an_mmo/, 2012.

[2] eve-offline. EVE-ONLINE STATUS MONITOR. Available at https://eve-offline.net/?server=tranquility.

[3] 17173. 魔兽世界:官方公布测试首日数据,单服12W同时在线,世界第一. Available at http://news.17173.com/content/06132024/025402002.shtml, 2024-06-13.

[4] 韦易笑. 游戏服务端架构发展史(中). Available at https://www.skywind.me/blog/archives/1301, 2015-4-26.

[5] bigworld. BigWorld Technology Server Whitepaper. Available at https://sourceforge.net/p/bigworld/code/HEAD/tree/trunk/docs/pdf/BigWorld%20Technology%20Server%20Whitepaper.pdf.

[6] 网易游戏雷火事业群​.游戏服务端高性能框架:来看《天谕》手游千人团战实例》. Available at https://zhuanlan.zhihu.com/p/700231330, 2024-05-28.

[7] 天美工作室. 怎么解决大地图SLG的技术痛点. Available at https://youxiputao.com/article/24673.html.

[8] kbengine. ghost机制实现 #48. Available at https://github.com/kbengine/kbengine/issues/48, 2014-7-19.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/360589.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何挑选洗地机?盘点口碑最好的四大洗地机

在购买洗地机这种智能家电时,大家都应该格外谨慎。毕竟,洗地机价格不菲,精打细算,确保物尽其用才是最重要的。谁都不想花了高价买回来却让它闲置在墙角落灰尘。买之前我们还是需要对自己的需求做一个清晰的判断,实用性…

gitee添加别人的仓库后,在该仓库里添加文件夹/文件

一、在指定分支里添加文件夹(如果库主没有创建分支,自己还要先创建分支) eg:以在一个项目里添加视图文件为例,用Echarts分支在usr/views目录下添加Echarts文件夹,usr/views/Echarts目录下添加index.vue 1.切换为本地仓…

基于PHP的奶茶商城系统

有需要请加文章底部Q哦 可远程调试 基于PHP的奶茶商城系统 一 介绍 此奶茶商城系统基于原生PHP开发,数据库mysql,ajax实现数据交换。系统角色分为用户和管理员。系统在原有基础上添加了糖度的选择。 技术栈 phpmysqlajaxphpstudyvscode 二 功能 用户…

[20] Opencv_CUDA应用之 关键点检测器和描述符

Opencv_CUDA应用之 关键点检测器和描述符 本节中会介绍找到局部特征的各种方法,也被称为关键点检测器关键点(key-point)是表征图像的特征点,可用于准确定义对象 1. 加速段测试特征功能检测器 FAST算法用于检测角点作为图像的关键点,通过对…

2-16 基于matlab的动载荷简支梁模态分析程序

基于matlab的动载荷简支梁模态分析程序,可调节简支梁参数,包括截面宽、截面高、梁长度、截面惯性矩、弹性模量、密度。输出前四阶固有频率,任意时刻、位置的响应结果。程序已调通,可直接运行。 2-16 matlab 动载荷简支梁模态分析 …

什么是营销翻译?为什么要使用它?

营销翻译是将营销活动和宣传品翻译成不同语言的过程。它可能涉及翻译您的: 网站营销文案,社交媒体帖子,演示文稿,新闻稿,产品包装,产品说明,海报,宣传册,以及 虽然企业…

关于ip地址的网页无法访问navigator的gpu、媒体、蓝牙等设备的解决方法

在使用threejs的WebGPURenderer渲染器时,发现localhost以及127.0.0.1才能访问到navigator.gpu,直接使用ip会变成undefined,原因是为了用户的隐私安全,只能在安全的上下文中使用,非安全的上下文就会是undefined,安全上下…

第28课 绘制原理图——绘制导线

概述 放置完元器件之后,接着就要用导线将元器件的管脚一个一个连起来了。 绘制导线的方法 点击快速工具条上的“线”命令,进入绘制导线的过程。 点击选择某个管脚或电源端口,作为导线的起始端。 再点击选择另一个管脚或电源端口&#xff0c…

Spring Cloud - 开发环境搭建

1、JDK环境安装 1、下载jdk17:下载地址,在下图中红色框部分进行下载 2、双击安装,基本都是下一步直到完成。 3、设置系统环境变量:参考 4、设置JAVA_HOME环境变量 5、在PATH中添加%JAVA_HOME%/bin 6、在命令行中执行:j…

正版软件 | Copywhiz 6:革新您的文件复制、备份与管理体验

在数字化时代,文件管理的效率直接影响到我们的生产力。Copywhiz 6 最新版本,带来了前所未有的文件处理能力,让复制、备份和组织文件变得轻而易举。 智能选择,只复制更新内容 Copywhiz 6 的智能选择功能,让您只需几次点…

都2024年了,现在互联网行情怎样?

都2024年了,互联网行情是怎样的? 很直白的说,依旧是差得很,怎么说? 我刚在掘金上看到一个掘友写的文章,他是四月领了大礼包,据他的描述如下: 互联网行情依旧是差得很,很…

为什么要选择华为 HCIE-Security 课程?

2020 年我国网络安全市场规模达到 680 亿元,同比增长 25%。随着对网络安全的愈加重视及布局,市场规模将持续扩大。 近年来,随着“云大物工移智”等新兴技术的快速发展和普及应用,数字化已经融入社会经济生活的方方面面&#xff0c…

【Redis】基于Redission实现分布式锁(代码实现)

目录 基于Redission实现分布式锁解决商品秒杀超卖的场景: 1.引入依赖: 2.加上redis的配置: 3.添加配置类: 4.编写代码实现: 5.模拟服务器分布式集群的情况: 1.右键点击Copy Configuration 2.点击Modi…

PS系统教程27

Photoshop与Camera Raw Camera本身是作为插件存在的,处理对象Raw格式(高清格式的图片标准) JPG是压缩格式 Camera是源数据包,无损高清数据包 通道 通道只有黑白灰三种颜色,图层类似于前台,通道就是后台…

免费领!系统学习上位机编程的流程与基础教程

上位机电气自动化plc编程全套入门教程工具 华山编程导师根据当前招聘需求的关键点,原创录制了一套系统的学习流程和基础教程,帮助你从快速入门到掌握上位机编程的技能。 二. 学习准备 为了更好地学习并实现80%以上的代码运行,建议准备一个工…

label studio数据标注平台的自动化标注使用

(作者:陈玓玏) 开源项目,欢迎star哦,https://github.com/tencentmusic/cube-studio 做图文音项目过程中,我们通常会需要进行数据标注。label studio是一个比较好上手的标注平台,可以直接搜…

SAP ABAP 之容器

文章目录 前言一、案例介绍/笔者需求二、自定义容器 a.实例化对象 b.自定义容器效果演示 c.Copy Code 三、自适应容器 a.常用 必须 参数理解 b.METRIC 度量单位 c.RATIO 百分比尺寸 d.STYLE 容器…

云计算基础知识

前言: 随着ICT技术的高速发展,企业架构对计算、存储、网络资源的需求更高,急需一种新的架构来承载业务,以获得持续,高速,高效的发展,云计算应运而生。 云计算背景 信息大爆炸时代&#xff1a…

小白学python(第二天)

哈喽,各位小伙伴们我们又见面了,昨天的文章吸收得如何?可有不懂否?如有不懂可以在品论区留言哦,废话不多说,开始今天的内容。 字符及字符串的续讲 字符:英文字母,阿拉伯数字&#x…