【STM32开发笔记】STM32H7S78-DK上的CoreMark移植和优化--兼记STM32上的printf重定向实现及常见问题解决
- 一、CoreMark简介
- 二、创建CubeMX项目
- 2.1 选择MCU
- 2.2 配置CPU时钟
- 2.3 配置串口功能
- 2.4 配置LED引脚
- 2.5 生成CMake项目
- 三、基础功能支持
- 3.1 支持记录耗时
- 3.2 支持printf输出到串口
- 3.3 支持printf输出浮点数
- 四、移植CoreMark源码
- 4.1 添加CoreMark源码
- 4.2 修改 core_portme.c 文件
- 4.3 修改 core_portme.h 文件
- 4.4 修改 core_main.c 文件
- 4.5 修改 main.c 文件
- 4.6 修改 CMakeLists.txt 文件
- 4.7 编译、下载、运行
- 五、优化CoreMark跑分
- 5.1 修改CMake构建类型
- 5.2 修改编译优化选项
- 5.3 打开ICache和DCache
- 5.4 解决换行不对齐问题
- 5.5 项目最终版源代码
- 六、参考链接
本文首介绍CoreMark是什么,然后使用CubeMX创建空的STM32H7S7L8HxH项目,并生成基于CMake的项目代码;接着一步步将CoreMark源码移植到项目中;最后一步步优化CoreMark跑分,将跑分从106.4最终优化到2410.2分,实现了近23倍的提升。本文实验过程中介绍了如何使用STM32 HAL库接口进行计时,以及如何将printf输出重定向到UART,并通过ST-Link调试器接收UART输出。另外,本文还介绍了如何解决使用gcc工具链时STM32上的printf无法输出浮点数问题,以及如何解决STM32上printf输出换行不对齐问题。因此,无论你对STM32H7S上的CoreMark跑分感兴趣,还是对STM32上的printf重定向方法及常见问题感兴趣,本文都值得一看。
一、CoreMark简介
什么是CoreMark?
来自CoreMark首页的解释是:
CoreMark is a simple, yet sophisticated benchmark that is designed specifically to test the functionality of a processor core. Running CoreMark produces a single-number score allowing users to make quick comparisons between processors.
翻译一下就是:
CoreMark是一个简单而又精密的基准测试程序,是专门为测试处理器核功能而设计的。运行CoreMark会产生一个“单个数字”的分数,(从而)允许用户在(不同)CPU之间进行快速比较。
简单来说,就是一个测试CPU性能的程序,类似PC上的Cinebench、CPU-Z之类的CPU性能测试工具。
了解了CoreMark是什么之后,接下来我们尝试在STM32H7S78-DK开发板上跑一下CoreMark,看看分数是多少。
接下来就可以开始进行CoreMark移植了,为了让移植步骤清晰明确,这里我把移植分为两大部分:
- 基础功能支持,即创建一个支持printf打印和计时的项目
- CoreMark移植,即将CoreMark源码添加到项目中,并修改CoreMark源码,使其能够正常运行
二、创建CubeMX项目
2.1 选择MCU
首先,启动CubeMX,Commercial Part Number 收入H7S7,回车搜索:
选中Board一行有STM32H7S78-DK的,然后点击右上角的Sart Project,开始创建项目。
2.2 配置CPU时钟
然后,STM32CubeMX进入配置界面,切换到Clock Configuration标签页,将To CPU Clocks修改为600并回车,CubeMX软件将会自动计算其他参数:
按Ctrol+S保存,选择适当的位置保存ioc文件。
2.3 配置串口功能
开发板上自带了ST-Link V3调试器,该调试器带有虚拟串口功能。通过查阅原理图,我们知道主控MCU和ST-Link之间的连接关系如下图:
可以看到,ST-Link的虚拟串口和主控芯片的连接关系为:
- VCP_RX连接到主控芯片的 PD0上;
- VCP_TX连接到主控芯片的 PD1上;
接下来,需要修改这两个引脚的功能。
修改PD0为UART4_RX功能:
修改PD1为UART4_TX功能:
启用UART4功能,设置为异步,并分配到Boot子项目:
2.4 配置LED引脚
为了方便观察CoreMark执行完成了,我们把红色LED的控制引脚也配置一下。查阅原理图,找到USER LED对应部分:
可以看到,红色LED对应的是PM2引脚。
修改PM2引脚为GPIO_Output功能:
将其分配到Boot子项目,并为其设置用户标签(User Label):
2.5 生成CMake项目
接下来,CubeMX软件切换到Project Manager标签页,Project Structure勾选 Boot Project,Toolchain/IDE下拉到 CMake:
Code Generator部分,勾选Generate peripheral initialization as a pair of ‘.c/.h’ files per peripherals:
最后,点击右上角的Generate Code,生成代码:
VSCode导入项目等等操作,本文不再赘述,具体可参考我上一篇帖子:
【STM32H7S78-DK评测】搭建基于ST官方VSCode扩展的STM32开发环境 - STM32团队 ST意法半导体中文论坛 (stmicroelectronics.cn)
三、基础功能支持
基础功能支持主要包括两个功能:
- 支持记录耗时
- 支持printf打印(包括浮点数打印)
下面分别介绍如何实现这两个功能。
3.1 支持记录耗时
STM32上,使用HAL库记录耗时非常简单,只需要用:
HAL_GetTick()
获取Tick数即可,默认的Tick频率是1000Hz;- 需要注意的是:
HAL_GetTickFreq()
返回的枚举值,并不是实际的频率(例如默认的HAL_TICK_FREQ_1KHZ
,其值为1,而不是1000)。
因此,记录使用HAL_GetTick记录耗时,代码类似:
uint32_t start = HAL_GetTick();// 需要记录耗时的代码uint32_t end = HAL_GetTick();
float cost_s = (end - start) / 1000.0f; // 实际耗时(单位:秒)
3.2 支持printf输出到串口
CubeMX选择CMake项目后,默认已经生成了 syscalls.c文件,已经实现了支持gcc工具链的printf输出的一半功能。另外一半功能需要手动添加到usart.c
文件的末尾的USER CODE区域:
/* USER CODE BEGIN 1 */
#ifdef __GNUC__
// GCC
int __io_putchar(int ch)
{if (HAL_UART_Transmit(&huart4, (uint8_t*) &ch, 1, HAL_MAX_DELAY) != HAL_OK){return -1;}return ch;
}
#endif/* USER CODE END 1 */
完成以上修改之后,就可以适用printf打印了,可以修改main.c,找到其中的循环进行测试:
/* Infinite loop *//* USER CODE BEGIN WHILE */int count = 0;printf("Hello, from STM32H7S78-DK!\r\n");while (1){printf("Hello, from STM32H7S78-DK %d!\r\n", ++count);HAL_Delay(1000);/* USER CODE END WHILE *//* USER CODE BEGIN 3 */}/* USER CODE END 3 */
如无意外,编译、下载、运行可以通过ST-Link的虚拟串口看到如下输出:
3.3 支持printf输出浮点数
默认生成的CMake项目不支持浮点数打印,需要修改链接选项,修改文件Boot\CMakeLists.txt
:
在末尾添加如下代码片段:
target_link_options(${CMAKE_PROJECT_NAME} PRIVATE-u _printf_float
)
之后,再次编译,就可以输出浮点数了。
类似的,为了验证可以正常输出浮点数,修改main.c中的循环:
/* Infinite loop *//* USER CODE BEGIN WHILE */int count = 0;printf("\r\n");printf("Hello, from STM32H7S78-DK!\r\n");while (1){++count;printf("Hello, from STM32H7S78-DK %d %f!\r\n", count, 1.0 / count);HAL_Delay(1000);/* USER CODE END WHILE *//* USER CODE BEGIN 3 */}/* USER CODE END 3 */
如无意外,编译、下载、运行,可以在串口看到如下输出:
四、移植CoreMark源码
4.1 添加CoreMark源码
CoreMark代码仓:https://github.com/eembc/coremark.git
将代码下载下来之后,将其中的如下文件到项目的Boot\Core\Src
子目录下:
拷贝后,Boot项目文件结构如下:
4.2 修改 core_portme.c 文件
core_portme.c文件中,需要修改的是计时的几个宏定义,具体如下:
// 注释(或者删除)原来的这三个宏定义
//#define CORETIMETYPE clock_t
//#define GETMYTIME(_t) (*_t = clock())
//#define EE_TICKS_PER_SEC (NSECS_PER_SEC / TIMER_RES_DIVIDER)// 添加以下代码:
#include "stm32h7rsxx_hal.h"
#define CORETIMETYPE uint32_t
#define GETMYTIME(_t) (*_t = HAL_GetTick())
#define EE_TICKS_PER_SEC (1000)
4.3 修改 core_portme.h 文件
core_portme.h文件,开头部分需要新增如下代码:
#define ITERATIONS 1600 // 这个值需要保证能够运行至少10秒,可以先写一个值,运行不足10秒会报错,再回来修改
#define FLAGS_STR "" // 这个值根据实际的编译优化选项进行填写,在最终输出种原样输出,根据实际用的编译选项修改
#define MAIN_HAS_NOARGC 1 // coremark main不使用参数
#define MAIN_HAS_NORETURN 1 // coremark main不使用返回值void core_main(void); // coremark main 函数原型
4.4 修改 core_main.c 文件
coremark源码的core_main.c中定义了main函数,CubeMX生成的main.c中也有main函数,直接编译会产生冲突,因此需要修改core_main.c文件,重命名其中的main函数,并在main.c中调用它。
在core_main.c中,找到main函数,并将其修改为core_main:
4.5 修改 main.c 文件
接下来,修改 main.c 文件,开头出添加:
找到while循环,并将其修改为:
/* Infinite loop *//* USER CODE BEGIN WHILE */printf("\r\nHello, from STM32H7S78-DK!\r\n");core_main();while (1){HAL_GPIO_TogglePin(RED_GPIO_Port, RED_Pin);HAL_Delay(1000);/* USER CODE END WHILE *//* USER CODE BEGIN 3 */}/* USER CODE END 3 */
4.6 修改 CMakeLists.txt 文件
完成以上修改后,还差最后一步,就是让新增的coremark的几个源码文件参与到编译、链接过程中。因此,需要修改Boot\CMakeLists.txt
文件,
找到其中的target_sources代码片段,将其修改为:
# Add sources to executable
target_sources(${CMAKE_PROJECT_NAME} PRIVATE# Add user sources here./Core/Src/core_list_join.c./Core/Src/core_main.c./Core/Src/core_matrix.c./Core/Src/core_state.c./Core/Src/core_util.c./Core/Src/core_portme.c
)
4.7 编译、下载、运行
完成上述所有修改后,编译构建,可以看到如下输出:
下载、运行,可以看到串口输出如下:
跑分结果为 106.425 分,这个分数太低了。另外,输出结果中的换行没有从头对齐,但这个问题不大,可以最后再处理,具体处理方法见本文的5.4节。
五、优化CoreMark跑分
前面CoreMark跑分较低,接下来尝试通过不同方法提升跑分。
5.1 修改CMake构建类型
仔细观察4.7节的构建输出,可以看到Build type为Debug。接下来,将其修改为Release,尝试再次运行CoreMark。
修改Boot\CMakeLists.txt
文件,将其中的CMAKE_BUILD_TYPE修改为Release:
再次编译,可看到FLASH占用少了很多:
下载、运行,可以看到串口输出如下:
这次的分数为230.81,但出现了报错,提示执行时间不足10秒。
修改前面提到的 core_portme.h 中的 ITERATIONS ,将其修改为 3200, 再次编译、下载、运行,串口输出如下:
跑分还是230.81,执行时间变成了13秒多了。
5.2 修改编译优化选项
CMAKE_BUILD_TYPE修改为Release后,实际的编译优化选项是-Os
,可以在生成的compile_commands.json
中找到具体编译命令:
接下来,修改 Boot\CMakeLists.txt
文件,在其中添加如下代码段:
target_compile_options(${CMAKE_PROJECT_NAME} PRIVATE-Ofast
)
顺便修改core_portme.h
中的FLAGS_STR
为"-Ofast"
。
再次编译,可以看到FLASH占用如下:
再次下载、运行,可以看到串口输出如下:
这次分数来到了447.43,可喜可贺!
然而,按照过往经验,600MHz Cortex-M7 CPU的CoreMark跑分不应该只有400多!
5.3 打开ICache和DCache
接下来,修改main.c,在main函数的开头添加如下代码:
/* USER CODE BEGIN 1 *//* Enable the CPU Cache *//* Enable I-Cache---------------------------------------------------------*/SCB_EnableICache();/* Enable D-Cache---------------------------------------------------------*/SCB_EnableDCache();/* USER CODE END 1 */
再次编译下载运行,可以看到串口输出如下:
执行时间变成了2秒多,有报错。
重新修改 ITERATIONS 为 32000,再次编译下载运行,可以看到串口输出如下:
分数跑到了2410.18,好了,这次的分数差不多可以了。
5.4 解决换行不对齐问题
由于CoreMark结果输出使用的换行仅为\n
,而在串口终端中,需要使用\r\n
才能保证换行对齐。
为了让没有\r
的一行文本输出也可以正常对齐,我们可以修改 syscalls.c
中的 _write
函数。
修改前为:
__attribute__((weak)) int _write(int file, char *ptr, int len)
{(void)file;int DataIdx;for (DataIdx = 0; DataIdx < len; DataIdx++){__io_putchar(*ptr++);}return len;
}
修改后为:
__attribute__((weak)) int _write(int file, char *ptr, int len)
{(void)file;int DataIdx;static int cr = 0; // 是否遇到 \r 状态for (DataIdx = 0; DataIdx < len; DataIdx++){if (*ptr == '\r') {cr = 1;}if (*ptr == '\n') {if (!cr) {__io_putchar('\r');}cr = 0;}__io_putchar(*ptr++);}return len;
}
完成上述修改后,再次编译下载运行,可以看到串口输出如下:
好了,这下看起舒服多了。
最终成绩:2410.183023 分,和CoreMark官网上查到的STM32H72x/73x系列使用IAR编译器的成绩差不多了:
毕竟IAR是收费的,使用免费的GCC编译,能够跑到这个分数,已经可以了。
5.5 项目最终版源代码
整个项目代码,已分享至GitHub: https://github.com/xusiwei/STM32H7S78-DK-CoreMark.git
六、参考链接
- CoreMark官方页面: https://www.eembc.org/coremark/
- CoreMark源代码仓: https://github.com/eembc/coremark.git
- CoreMark分数查询网页: https://www.eembc.org/coremark/scores.php
- STM32H7S78-DK原理图: https://www.st.com.cn/resource/en/schematic_pack/mb1736-h7s7l8-d01-schematic.pdf
- STM32CubeMX下载页面: https://www.st.com.cn/zh/development-tools/stm32cubemx.html