828华为云征文｜针对Flexus X实例云服务器的CPU和内存性能测评

一、Flexus X实例云服务器简介

1.1 产品摘要

1.2 产品优势

1.3 本次测评服务器规格

二、CPU性能测试

2.1 操作说明

2.2 操作步骤

2.2 结果分析

三、测试内存负载

3.1 操作说明

3.2 操作步骤

3.3 结果分析

四、测试终评

一、Flexus X实例云服务器简介

1.1 产品摘要

Flexus X实例云服务器是华为云面向广大中小企业和开发者推出的一款创新型柔性算力云服务器。该产品基于华为云独有的柔性计算技术、盘古大模型、擎天软硬协同架构、瑶光云脑等前沿技术，旨在为中小企业提供灵活、高效、品质跃级的云基础设施，助力企业实现业务的高效运行和数字化转型。Flexus X实例打破了传统云服务器固定规格的束缚，通过灵活自定义的CPU、内存配比以及智能资源调度能力，满足了企业不同发展阶段的业务需求。如下图，完全可以选择自己调配的规格。高度自定义了。

1.2 产品优势

灵活匹配业务需求：Flexus X实例支持CPU、内存等规格的自由配置，通过独有的柔性计算技术和盘古大模型，突破了传统云服务器1:2次幂的固有配比，实现了如1:3、2:5等自定义特殊规格，最高可提供3:1的CPU/内存比。这种定制化的服务确保了企业在不同发展阶段都能获得与业务匹配的高性能云资源，实现了真正的按需定制。
高效率与低成本的完美结合：Flexus X实例针对从第三方云或离线数据中心迁移至华为云的场景，首创智能资源预画像技术，帮助用户在华为云上推荐匹配其应用真实性能的资源规格，消除了资源浪费。同时，基于客户业务负载进行动态性能画像，持续优化业务性能和成本，使得中小企业在享受旗舰级服务的同时，还能有效控制成本。迁移至Flexus X实例可帮助用户降本高达30%。
智能化体验和安全性保障：Flexus X实例将原本复杂的云端操作简化为一键式服务，大大降低了技术门槛。从资源配置到运维管理，用户都能轻松掌握，这不仅缩短了中小企业数字化转型的路径，还让他们能够更专注于核心业务的创新。在安全方面，Flexus X实例配备了国内顶尖的SRE团队和全面安全防护措施，确保了用户的数据和应用得到充分保护。同时，它还提供了与华为云旗舰级云服务器产品相同的单AZ 99.975%可用性和跨AZ 99.995%可用性，确保了业务的高可靠性和稳定性。
高性能与极致体验：Flexus X实例在性能数据方面表现亮眼，与业界U系列独享型实例相比，MySQL性能可达最高6倍，Geekbench跑分更是大幅领先，成绩可达业界U系列实例的1.6倍。同时，结合X-Turbo加速技术和瑶光云脑的智能调度能力，Flexus X实例能够实现高/低负载云主机分布均匀，达到算力分配的长稳态运行，确保用户畅享95%的时间100%的算力。

接下来，本文从CPU性能，内存性能等方面进行测试，看看即使可以自定义规格之下的性能还能否那么好。

1.3 本次测评服务器规格

下面两个表格就是本次测评服务的主要规格

序号	规格名	规格参数
1	实例名称	flexusx-154d
2	区域	华北-北京四
3	可用区	可用区7
4	vCPUs	4核
5	内存(GiB)	12G
6	系统盘	通用型SSD（100G）
7	镜像	CentOS 7.5 64bit
8	操作系统类型	Linux
9	带宽类型	独享
10	带宽大小	3Mbit/s

二、CPU性能测试

2.1 操作说明

CPU性能测试也称作计算能力测试，本次评测中使用sysbench命令针对CPU测试模块，通过执行大量的质数计算等计算密集型任务，评估CPU的计算能力和响应速度。即指定--cpu-max-prime参数的值，默认为10000，Sysbench将“计算1～该值范围内所有的质数（也叫素数，只能被1和自身整除的数）”为1个event，最终CPU的性能表现为每秒可以计算多少个这样的event。也就是event值越大，性能越好

2.2 操作步骤

还是，老规矩，我们先使用coludshell远程登录服务器：

登录进去之后，接下来我们针对于计算单核和4核齐驱的情境下进行测试：命令如下：

# 单核

sysbench cpu --cpu-max-prime=20000 --threads=1 --time=120 run

# 多核

sysbench cpu --cpu-max-prime=20000 --threads=`nproc` --time=120 run

参数解析：

--cpu-max-prime	默认为10000，表示一个event要计算10000以内的质数。
--threads	线程数，默认为1。取值为1表示Sysbench仅启动1个线程进行质数的计算；指定其他值为对应的多线程数，表示Sysbench会启动多线程同时进行质数的计算。上述多核命令中使用`nproc`计算测试系统的CPU核数，并指定对应的核数进行测试。
--time	运行时长，单位秒。默认为10，表示Sysbench会在10秒内循环往复进行质数计算，每完成一轮就叫一个event。

上面两条命令的大概意思就是单核下和多核下进行20000以内的质数计算，看谁的计算次数多少，以及平均用时来分析云服务器的性能如何，接下来我们看一下测试结果：

2.2 结果分析

单核结果分析

CPU 速度：events per second: 1151.54 表示在测试期间，平均每秒能够完成 1151.54 个计算质数的事件。这个数值反映了 CPU 的处理能力。
总时间：total time: 120.0004s 表示测试总共运行了 120.0004 秒，接近指定的 120 秒。
总事件数：total number of events: 138187 表示在测试期间总共完成了 138187 个计算质数的事件。
延迟（Latency）：
- min：最小的延迟是 0.86 毫秒。
- avg：平均延迟是 0.87 毫秒，表明大部分事件的计算时间都很接近这个值。
- max：最大的延迟是 1.46 毫秒，表明偶尔会有稍微长一些的计算时间。
- 95th percentile：95% 的事件延迟都在 0.87 毫秒以下，这是评估系统性能稳定性的一个重要指标。
- sum：所有事件的延迟总和是 119977.68 毫秒，接近总测试时间的 120 秒（即 120000 毫秒）。
线程公平性：由于只使用了一个线程，所以这里的公平性是完美的，标准差为 0，表示所有工作都在一个线程上均匀分布。

多核结果分析：

线程数：Number of threads: 4 表示测试使用了 4 个线程。
CPU 速度：events per second: 4591.67 表示在测试期间，所有线程平均每秒能够完成 4591.67 个计算质数的事件。这比单线程测试时（1151.54 events/s）有了显著的提升，这显示了多线程对 CPU 密集型任务的加速效果。
总时间：total time: 120.0006s 表示测试总共运行了 120.0006 秒，接近指定的 120 秒。
总事件数：total number of events: 551010 表示在测试期间总共完成了 551010 个计算质数的事件，这是单线程测试（138187 events）的近 4 倍。
延迟（Latency）：
- min、avg、95th percentile 的值都相对较低且稳定，表明大多数事件的计算时间都很短。
- max 的值达到了 31.89 毫秒，这是一个相对较高的值，可能表示在某个时间点，某个线程遇到了短暂的延迟或竞争条件。然而，由于 95th percentile 仍然很低，这种高延迟可能是偶发的，对整体性能影响不大。
线程公平性：
- events (avg/stddev): 137752.5000/143.84 表示每个线程平均完成了约 137752.5 个事件，标准差为 143.84。这表明线程之间的工作负载分配相对均匀，但存在一定的差异（由标准差表示）。
- execution time (avg/stddev): 119.9550/0.00 表示每个线程的执行时间非常接近，标准差几乎为 0，这进一步证明了线程之间的公平性。

结论

这次测试表明，在指定的测试条件下（使用单个线程，测试时间 120 秒，计算小于或等于 20000 的质数），CPU 的平均处理速度达到了每秒 1151.54 个事件，且延迟很低且稳定。这反映了被测 CPU 在执行这类计算密集型任务时的良好性能。在 4 线程并发执行时，CPU 的处理速度显著提高，达到了每秒 4591.67 个事件。尽管存在一些偶发的延迟高峰，但整体性能仍然非常稳定且高效。这证明了在 CPU 密集型任务中，利用多核处理器可以显著提高性能。同时也说明了4核下确实平均是单核的4倍，CPU得到充分利用。利用多核处理器可以很明显地提升服务器性能。

三、测试内存负载

3.1 操作说明

测试内存负载我们可以进行内存读写测试：通过sysbench的内存测试模块，评估内存系统的读写性能。测试包括不同大小的内存块读写操作，可以揭示内存带宽、延迟等关键性能指标。Sysbench的内存性能测试，主要是针对不同大小的块进行连续读写或者随机读写操作。在内存性能测试中，events指的是读/写一个内存块。
相比较Stream和MLC工具，Sysbench测试内存性能比较复杂，支持较多参数，需要使用正确的参数配置才能得到预期的内存性能结果，测试前读者可以查看下面的Sysbench的内存测试参数

参数	说明
--memory-total-size	传输数据的总大小，用于描述Sysbench读写多少内存时停止。默认为100G，在多核下可能不到1秒停止测试，会影响计算结果，建议设置为更大的值。
--memory-block-size	内存块大小，读/写一个block-size即为一个event，建议大于CPU的L3 Cache。例如：L3的Cache为100MB时，内存块大小可设置为如下取值：测试单线程：block-size设置为128MB即可。测试多线程：若memory-scope=global，block-size设置为128MB即可。若memory-scope=local，且threads=8，此时block-size需设置大于16MB。说明您可以执行`lscpu`命令，查看L3 Cache容量。
--memory-scope	内存访问范围，取值： global（默认）：全局 local：局部说明在多线程压测场景下，可以通过该参数指定是多个线程操作整块申请内存还是各个线程操作自己的小块内存。如此，申请的总内存数： memory-scope=global时，申请的总内存为memory_block_size memory-scope=local时，申请的总内存为memory_block_size * threads
--memory-oper	内存操作类型，取值： write（默认） read none
--threads	线程数，默认为1。取值为1表示Sysbench仅启动1个线程进行测试。上述命令中使用`nproc`计算测试系统的CPU核数，并指定对应的核数进行测试。
--time	运行时长，单位秒。默认Sysbench测试10秒时间。内存测试中toal-size写完也会提前停止，由于已经设置memory-total-size为非常大的值，这里可以通过time指定内存测试运行时长。

3.2 操作步骤

好，那么我们下面可以通过执行如下命令，测试内存性能。

# 内存读

sysbench --memory-total-size=100G --memory-block-size=512MB --memory-scope=global --memory-oper=read memory --threads=`nproc` --time=120 run

# 内存写

sysbench --memory-total-size=100G --memory-block-size=512MB --memory-scope=local --memory-oper=write memory --threads=`nproc` --time=120 run

上面两条命令的大概意思是

内存读测试配置：
- 内存总量：内存总量设置为 100G（实际显示为 102400MiB，即100GB），这是我云服务器的实际总容量。
- 内存块大小：512MB（实际显示为 524288KiB），这是每次操作处理的数据块大小，对于内存性能测试来说是一个常见的值。
- 操作类型：read，即测试内存读取速度。
- 线程数：使用了 nproc 命令自动设置，即 4 个线程，与服务器的处理器核心数相匹配。

内存写测试配置：
- 内存总量：100G（实际为 102400MiB），这是把我们整个服务器的容量了相当大的数值了，但对于现代服务器来说仍然是一个合理的测试范围。
- 内存块大小：512MB（524288KiB），这是每次写入操作的数据块大小。
- 操作类型：write，即测试内存写入速度。
- 作用域：global，这意味着所有线程都在共享的内存区域中执行写入操作。这可能会引入额外的同步和竞争条件，但在现代多核处理器和操作系统上，这些通常被很好地管理。
- 线程数：与服务器的处理器核心数相匹配。

接下来我们运行一下看一下结果如何

3.3 结果分析

内存读结果分析：

测试结果：
- 总操作数：在 1.9744 秒内，总共完成了 200 次操作，平均每秒 101.21 次操作。由于设置的总时间和内存总量都较小，因此这个操作数相对合理。
- 数据传输量：102400.00 MiB（即100GB）的数据被转移，平均速率为 51821.72 MiB/sec（即约50.6GB/s）。这个速率非常高，通常表示内存带宽和处理器之间的数据通道非常高效。
- 延迟：延迟非常低，最小为 37.27 毫秒，平均为 39.48 毫秒，最大为 43.50 毫秒。这表明内存访问非常快，符合现代内存技术的性能表现。
性能和公平性分析：
- 性能：测试结果表明，服务器在内存读取方面表现出色，能够高效处理大量数据。
- 线程公平性：每个线程都完成了相同数量的操作（50次），并且执行时间几乎相同（标准差为0），这表明线程之间的工作负载分配非常均匀。
结论：
- 说明读取性能测试中表现出色，具有高带宽和低延迟的特点。
- 测试配置合理，能够准确反映服务器在较小规模内存操作下的性能表现。
- 如果大家需要进一步评估服务器的内存性能，可以考虑增加内存总量、内存块大小或线程数来进行更全面的测试。

内存写结果分析：

测试结果：
- 在 2.2840 秒内完成了 200 次写入操作，平均每秒 87.50 次操作。
- 总共传输了 100GB 的数据，平均速率为 44802.28 MiB/sec（约43.7GB/s）。这是一个非常高的速率，表明我们的服务器在内存写入方面表现出色。
- 延迟方面，最小延迟为 43.92 毫秒，平均延迟为 45.62 毫秒，最大延迟为 55.87 毫秒。
性能和公平性分析：
- 性能方面，服务器在全局内存写入测试中表现出色，能够高效地处理大量写入操作。
- 线程公平性方面，每个线程都完成了相同数量的操作（50次），并且执行时间几乎相同（标准差为0），这表明线程之间的工作负载分配非常均匀。
结论：
- 服务器在全局内存写入性能测试中表现出色，具有高写入速率和低延迟的特点。
- 测试配置合理，能够准确反映服务器在全局内存写入操作下的性能表现。
- 如果我们的应用程序需要处理大量内存写入操作，并且这些操作可以在全局内存区域中安全地执行，那么说明服务器应该能够很好地满足这些需求。

请注意，上述测试结果仅适用于当前的测试配置和负载情况。在实际应用中，服务器的性能可能会受到多种因素的影响，包括应用程序的特性、工作负载的复杂性以及与其他系统资源的交互等。因此我们也要根据自己的实际情况来指定测试配置

四、测试终评

通过上面一系列的测试，我们可以对Flexus X实例的CPU和内存性能做出以下总结：

CPU性能：
Flexus X实例采用了最新一代的处理器，具备高主频和多核支持。在sysbench的CPU测试中，通过多线程和固定时间（例如60秒）的负载测试，Flexus X实例展现了卓越的计算能力。在模拟多线程的运行环境下，Flexus X的CPU能够有效地处理并发任务，保证在高负载下的稳定运行。这一特性使得Flexus X实例非常适合处理计算密集型任务，如数据分析、大规模计算等。

内存性能：
在内存测试中，Flexus X实例同样表现出色。使用sysbench的“内存”模块进行大量的内存读写操作，Flexus X实例的内存吞吐量稳定且高效。这意味着在处理大量数据或需要高内存吞吐量的应用时，Flexus X实例能够提供足够的资源支持，确保应用的顺畅运行。

Flexus X实例云服务器优势