【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【下篇】

【STM32开发笔记】移植AI框架TensorFlow到STM32单片机【下篇】

    • 一、上篇回顾
    • 二、项目准备
      • 2.1 准备模板项目
      • 2.2 支持计时功能
      • 2.3 配置UART4引脚
      • 2.4 支持printf重定向到UART4
      • 2.5 支持printf输出浮点数
      • 2.6 支持printf不带`\r`的换行
      • 2.7 支持ccache编译缓存
    • 三、TFLM集成
      • 3.1 添加tflite-micro源码
      • 3.2 修正micro_time.cc代码
      • 3.3 构建micro_time.cc的规则
      • 3.4 添加TFLM构建规则
      • 3.5 添加TFLM函数调用
      • 3.6 添加TFLM依赖关系
    • 四、TFLM测试
      • 4.1 编译TFLM和Appli项目
      • 4.2 下载Boot代码
      • 4.3 下载Appli代码
      • 4.3 运行TFLM基准测试
    • 五、问题解决
      • 5.1 benchmark编译失败
      • 5.2 Appli链接报错
      • 5.3 benchmark无法正常开始
      • 5.4 Release版无法正常返回
    • 六、源码分享
    • 七、参考链接

本文将会继续介绍——如何为STM32H7S78-DK开发板准备CMake项目、如何将TFLM集成到基于CMake的STM32项目中、如何在STM32H7S78-DK开发板上运行TFLM基准测试,具体包括如何支持计时和printf输出、如何集成TFLM到基于CMake的STM32项目,以及解决过程中遇到的一些问题。

一、上篇回顾

书接上回,上篇文章主要分为TFLM是什么、TFLM初步体验、TFLM源码浅析、TFLM主体移植几个部分。其中,TFLM初步体验部分将会介绍如何在PC上运行TFLM基准测试,TFLM源码浅析部分主要介绍TFLM源码是如何进行构建的,TFLM主体移植主要介绍如何在基于CMake的STM32项目中构建TFLM库和基准测试。

上篇链接: https://blog.csdn.net/xusiwei1236/article/details/142467410

二、项目准备

2.1 准备模板项目

项目模板采用基于CMake的STM32H7S78-DK项目,代码仓为:

https://gitcode.com/xusiwei1236/STM32H7S78-DK-XIP

该项的ioc文件来自官方STM32CubeH7RS软件包Template_XIP项目,修改了部分配置,项目类型改为了CMake;然后使用CubeMX生成的项目代码即为本项目的主要代码。

2.2 支持计时功能

STM32上,使用HAL库记录耗时非常简单,只需要用:

  • HAL_GetTick() 获取Tick数即可,默认的Tick频率是1000Hz;
  • 需要注意的是: HAL_GetTickFreq() 返回的枚举值,并不是实际的频率(例如默认的HAL_TICK_FREQ_1KHZ,其值为1,而不是1000)。

因此,记录使用HAL_GetTick记录耗时,代码类似:

uint32_t start = HAL_GetTick();// 需要记录耗时的代码uint32_t end = HAL_GetTick();
float cost_s = (end - start) / 1000.0f;  // 实际耗时(单位:秒)

这部模板本身已经支持了,不需要额外的工作。

2.3 配置UART4引脚

开发板上自带了ST-Link V3调试器,该调试器带有虚拟串口功能。通过查阅原理图,我们知道主控MCU和ST-Link之间的连接关系如下图:

202408282134895

可以看到,ST-Link的虚拟串口和主控芯片的连接关系为:

  • VCP_RX连接到主控芯片的 PD0上;
  • VCP_TX连接到主控芯片的 PD1上;

接下来,需要修改这两个引脚的功能:

image-20240923214140259

启用UART4功能:

image-20240923214457990

完成上述修改后,Ctrl+S保存,然后重新生成项目代码。

2.4 支持printf重定向到UART4

CubeMX选择CMake项目后,默认已经生成了 syscalls.c文件,已经实现了支持gcc工具链的printf输出的一半功能:

stm32_syscall_write

这个_write支持printf和fprintf调用__io_puchar进行输出。

另外一半功能——实现__io_puchar输出到UART即可实现printf输出到UART。

需要手动修改main.c文件,实现__io_puchar函数:

stm32_io_putchar

2.5 支持printf输出浮点数

默认生成的CMake项目不支持浮点数打印,需要修改链接选项,修改文件Appli\CMakeLists.txt

在末尾添加如下代码片段:

target_link_options(${CMAKE_PROJECT_NAME} PRIVATE-u _printf_float
)

之后,再次编译,就可以输出浮点数了。

2.6 支持printf不带\r的换行

大部分串口终端工具,例如MobaXterm,换行需要收到\r\n两个字符才能正常换行。通过修改代码,可以让测试代码输出\n结尾也能和\r\n一样自动换行,具体实现方式为:

stm32_syscall_write_endl

这样修改之后,printf就同时支持了\r\n\n两种换行符。

2.7 支持ccache编译缓存

修改CMake有时候需要清理build目录才能正常出发重新配置和构建,但清理了build目录后重新构建的过程非常耗时。为了解决这个问题,我们可以使用ccache进行加速。

ccache下载链接: Ccache — Download

Windows平台的ccache是压缩包,解压到合适的目录后,将其配置到PATH环境变量,即可在任意位置使用ccache命令。

完成ccache配置之后,可以咋CMake代码中加入如下片段,实现CMake支持ccache加速:

find_program(CCACHE_PROGRAM ccache)
if (CCACHE_PROGRAM)set(CMAKE_C_COMPILER_LAUNCHER "${CCACHE_PROGRAM}")set(CMAKE_CXX_COMPILER_LAUNCHER "${CCACHE_PROGRAM}")message(STATUS "Ccache found: ${CCACHE_PROGRAM}!")
else ()message(STATUS "Ccache not found!")
endif ()

三、TFLM集成

3.1 添加tflite-micro源码

首先,将PC上运行过基准测试的TFLM代码拷贝到CubeMX生成的基于CMake的STM32H7S78-DK项目中,并放在如下目录:

Middlewares/tensorflow

然后,将前“TFLM移植”章节编写完成的CMakeLists.txt文件、micro_time.cc文件,也放到这个目录中。另外,将后下一步需要修改的generate_cc_arrays.py文件也拷贝一份放到该目录中。

完成上述操作后,项目文件布局如下:

image-20240928003233905

3.2 修正micro_time.cc代码

TFLM默认的micro_time.cc文件在STM32上不能正常工作,上篇文章已经给出了一个版本的实现,经过测试上篇文章的代码不能实现预期。

实际需要修改为使用调用HAL库的代码:

TFLM-micro_time_stm32_hal

这里的ticks_per_second函数用于返回ticks频率,GetCurrentTimeTicks函数用于返回当前的ticks数;

3.3 构建micro_time.cc的规则

为了正确的构建micro_time.cc,需要将TFLM默认的micro_time.cc文件过滤掉,因此需要修改上一篇文章中我们实现的CMakeLists.txt代码,具体修改为:

image-20240927220255886

这里,默认的micro_time.cc由306行代码匹配上,314行实现了将其从MICROLITE_CC_BASE_SRCS中过滤掉。

3.4 添加TFLM构建规则

接下来修改顶层的CMakeLists.txt文件,在最后追加两行:

image-20240928003722101

这样,就将TFLM的构建规则添加到了CubeMX生成的CMake项目中了。

3.5 添加TFLM函数调用

上篇文章中,我们实现的TFLM的CMakeLists.txt以及完成了对TFLM库和基准测试库的构建,并且最终会生成三个静态库:

  • TFLM库,包含TFLM所有类和函数实现代码;
  • keyword_benchmark 库,包含keyword_benchmark函数实现代码;
  • person_detection_benchmark 库,包含person_detection_benchmark函数实现代码;

接着,在我们的Appli子项目的代码中,添加对TFLM的调用。

由于C++函数支持参数重载,编译器生成C++函数会经过名称修饰。同样的函数声明代码,放在C++代码文件中和C代码文件中经过编译生成的二进制符号不同。这导致,在C代码中,我们无法通过声明函数或包含头文件的方式,直接调用C++函数;否则,链接时报告符号找不到。

因此,我们无法通过在Appli子项目的main.c中直接调用keyword_benchmark函数或者person_detection_benchmark函数的方式实现基准测试的集成。

为了解决C代码中不能直接调用C++函数的问题,我们需要引入一个中间层。这里需要用到几个C++相关的知识:

  • 使用extern "C"修饰C++函数,可以让编译器将该C++函数按照C函数的方式生成符号,不进行名称修饰;
  • C代码中可以调用由名称修饰的C++函数,就像调用其他C函数一样;
  • C++有默认的内置宏,__cplusplus用于只是当前C++编译器支持的语言标准版本,例如201103L表示C++11;

Appli\Src目录中,创建tflm_benchmark.h文件,内容如下:

tflm_benchmark_h

与之对应的tflm_benchmark.cc文件,内容为:

tflm_benchmark_cc

这里,通过KEYWORD_BENCHMARKPERSON_DETECTION_BENCHMARK两个宏,实现两个基准测试的开关。

接下来就可以修改Appli子项目的main.c,调用这个tflm_benchmark函数了:

image-20240927231439544

3.6 添加TFLM依赖关系

接下来,需要为我们的Appli添加对TFLM的依赖关系,包括对TFLM库和基准测试的依赖,具体修改的代码为:

image-20240927230012557

左侧行号标记绿色的即为新增代码行,一共六处,作用分别为:

  • 60~64行,定义了几个CMake变量,后面会用到;
  • 68~69行,为当前Appli子项目的构建目标,添加KEYWORD_BENCHMARK(或PERSON_DETECTION_BENCHMARK)宏;
  • 75行,为当前Appli子项目的构建目标,添加头文件搜索目录;
  • 81~84行,为当前Appli子项目的构建目标,添加三个源代码文件;
  • 90行,为当前Appli子项目的构建目标,添加库文件搜索目录;
  • 96~98行,为当前Appli子项目的构建目标,添加链接keyword_benchmark(或person_detection_benchmark)库、tflite-micro库;

完成以上全部修改后,就完成了对TFLM库和基准测试的集成工作。

四、TFLM测试

好了,万事俱备,只欠东风!

完成前面的所有工作后,就可以准备在我们的STM32H7S78-DK上进行TFLM基准测试了。

4.1 编译TFLM和Appli项目

编译构建,主要使用VSCode的CMake插件工具栏,具体方法不再赘述,感兴趣的可以参考我之前发的帖子: 【STM32H7S78-DK评测】搭建基于ST官方VSCode扩展的STM32开发环境 - STM32团队 ST意法半导体中文论坛 (stmicroelectronics.cn)

编译之前,先清理一下项目:

image-20240927231911537

接着,构建TFLM核心库:

image-20240927231940611

继续,生成基准测试库keyword_benchmark

image-20240927232008752

以及基准测试库person_detection_benchmark

image-20240927232338456

紧接着,构建Appli项目:

image-20240927232441027

构建完成后,可以看到RAM、Flash占用信息:

image-20240927232835085

例如,图中的Flash占用为115244 B

Appli类似的方式,进行Boot子项目的构建,不再赘述。

4.2 下载Boot代码

由于Appli代码需要使用Boot代码进行跳转,因此,下载Appli代码之前,需要线下载Boot代码到开发板上。

下载之前,先将STM32H7S78-DK开发板和PC通过USB线连接好,板子由三个USB口,注意连接到标有STLK的。

接着,VSCode上上操作:

image-20240927234045648

终端子窗口可以看到输出:

image-20240927234154457

4.3 下载Appli代码

接下来,将我们的STM32H7S78-DK开发板和PC通过USB线连接好,板子由三个USB口,注意连接到标有STLK的。

然后,在VSCode上操作:

image-20240927233206011

终端子窗口可以看到输出:

image-20240927234238275

4.3 运行TFLM基准测试

打开MobaXterm,添加会话,选择STLink的虚拟串口设备,参数如下:

image-20240927234401111

连接设备之后,按下开发板上的NRST按钮,重启设备,可以看到串口输出如下:

生成的图片20240927235823

可以看到,keyword模型初始化耗时3毫秒,单独运行一次耗时2毫秒,连续运行10次耗时10毫秒,速度还是可以的。

与之对比的,在PC上运行keyword_benchmark的结果数据:

生成的图片20240928000642

可以看到,PC上模型初始化和单独运行一次耗时都不到1毫秒,连续运行10次耗时3毫秒。

同样,稍加修改Appli\CMakeLists.txt,我们可以编译person_detection_benchmark,并得到在开发板上运行结果数据:

生成的图片20240927235722

可以看到,开发板上,运行有人图像的人体检测耗时为993毫秒,没有人的耗时为994毫秒;连续运行10次的耗时分别为9938毫秒和9940毫秒,速度有点慢。

与之对应的,PC上运行person_detection_benchmark的结果数据为:

生成的图片20240928000424

可以看到,PC上运行有人图像的人体检测耗时为36毫秒,没有人的耗时为35毫秒;连续运行10次的耗时分别为9938毫秒和9940毫秒,

五、问题解决

在前面的第三章、第四章的实践过程中,我遇到了一些问题,为了保持主体部分的简洁清晰,没有将问题描述和解决方法写在第三章、第四章内容中。本章将介绍预提遇到的问题,以及问题的解决方法,如果你在实践过程中遇到类似的问题,可以参考本章的方法进行解决。

5.1 benchmark编译失败

【问题现象】 编译失败,报错信息:

image-20240928165305210

【问题原因】 直接原因是脚本生成代码中,数组和变量定义有问题(把路径带入进去了):

image-20240928165700113

【解决方法】 修改代码生成脚本:

image-20240928170346632

通过排查脚本生成代码,可以知道**【问题根因】**是Windows系统的路径分隔符不是/.split('/')失败。

根据走读代码,可以知道代码中的base_array_name是文件名的基础部分,也就是去掉路径和扩展名;重新实现一下就好了。

5.2 Appli链接报错

【问题现象】 Appli链接失败,报错信息:

image-20240928223506797

【问题原因】 Appli子项目使用了VFP寄存器参数(VFP register arguments),而libtflite-micro.a没有使用;

【解决方法】 顶层修改CMakeLists.txt,添加一行:

image-20240928223843589

5.3 benchmark无法正常开始

【问题现象】 无法正常运行benchmark;

【初步调试】 运行到benchmark入口函数之后,无法进入tflite::InitializeTarget函数;

image-20240928233048857

下一步直接进入HardFault_Handler;

【问题分析】 查看寄存器,发现栈指针位置异常:

image-20240928233805024

已经超出了链接脚本设置的栈范围:

image-20240928233921866

根据这段代码,可以知道正常的栈指针范围应该在[0x20000000, 0x20010000)64K范围内。

【代码排查】 反汇编查看benchmark入口代码:

image-20240928234355163

可以看到入口处申请的栈内存空间为81920(80K),超过链接脚本设置的64K栈空间,结合代码内容,可以知道是MicroProfiler对象占用的空间。

【解决方法】 修改MicroProfiler代码,具体修改如下:

image-20240928234743789

因为,这个常量是几个数组的大小:

image-20240928235038560

初步估算:5*4*20K正好是80K

因此,把这个常量的值改小即可解决该问题。

5.4 Release版无法正常返回

【问题现象】 Debug版本可以正常运行,Release版benchmark函数无法正常返回到main函数;

【问题原因】 经过排查, 发现原因是benchmark函数写了返回值类型int,但没有写return语句;

【解决方法】 修改代码,benchmark函数最后添加一行return 0;语句即可;

六、源码分享

本项目的所有代码已经开源到GitCode平台,感兴趣的小伙伴可以免费下载体验: https://gitcode.com/xusiwei1236/STM32H7S78-DK-TFLM.git

本代码仓使用了git submodule特性,需要用--recursive选项进行克隆:

git clone --recursive https://gitcode.com/xusiwei1236/STM32H7S78-DK-TFLM.git

另外,tflite-micro依赖的一些三方软件已经打包到了如下仓库:

https://gitcode.com/tflm/downloads.git

下载方法:

# 跳转到 tflite-micro 子目录
cd Middlewares/tensorflow/tflite-micro# 下载 downloads 下的三方软件源码
git clone https://gitcode.com/tflm/downloads.git tensorflow/lite/micro/tools/make/downloads/

七、参考链接

  1. CCache下载页面: Ccache — Download
  2. CMake中使用CCache: Use Ccache with CMake | Lindevs
  3. 官方STM32CubeH7RS软件包的XIP项目模板: Template_XIP
  4. TensorFlow Lite for Microcontrollers介绍: TensorFlow Lite for Microcontrollers (google.cn)
  5. TensorFlow Lite for Microcontrollers入门: 微控制器入门 | TensorFlow (google.cn)
  6. tflite-micro 源码GitHub仓: https://github.com/tensorflow/tflite-micro
  7. CMake最新文档: CMake Reference Documentation — CMake 3.30.3 Documentation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/434725.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux之实战命令18:col应用实例(五十二)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…

深刻理解Redis集群(下):Redis 哨兵(Sentinel)模式

背景 现在对3个节点的sentinel进行配置。sentinel的配置文件在redis的安装目录中已经存在,只需要复制到指定的位置即可。 sentinel是独立进程,有对应的脚本来执行。 基于之前的redis 一主二从的架构,我们继续启动3个sentinel进程。 哨兵模式的…

Servlet——springMvc底层原理

我们也先了解一下什么的动态资源,什么是静态资源。 静态资源:无需程序运行就可以获取的资源(照片、html、css、js等) 动态资源:需要通关程序运行才可以获得的资源。 (其实动态、静态的资源都与Servlet有…

手机软件何时统一——桥接模式

文章目录 手机软件何时统一——桥接模式凭什么你的游戏我不能玩紧耦合的程序演化合成/聚合复用原则松耦合的程序桥接模式桥接模式基本代码 手机软件何时统一——桥接模式 凭什么你的游戏我不能玩 时间:5月31日20点  地点:大鸟房间  人物…

游戏账号系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,卖家管理,游戏类别管理,游戏账号管理,站内联系管理,交易订单管理,帐号退货管理 微信端账号功能包括:系统首…

一个家越来越有钱,是因为女人身上有这3个好习惯!

在一个家庭中,女人往往扮演着举足轻重的角色。 她们不仅是家庭的支柱,也是家庭和谐与繁荣的重要因素。 正所谓“家和万事兴”,一个家庭是否能够兴旺发达,与家中女人的习惯和态度息息相关。 实际上,一个家越来越有钱…

2024年双十一值得入手好物?2024年双十一必买清单!

双十一的号角已经吹响,你是否还在为买什么而纠结?快来看看这份2024年双十一必买清单!这里汇聚了各类令人惊喜的好物,从科技新宠到生活必备,总有一款能打动你的心! 一、真1000w配置——西圣find可视挖耳勺 …

基于php的幸运舞蹈课程工作室管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

uni-app - - - - -vue3使用i18n配置国际化语言

uni-app - - - - -使用i18n配置国际化语言 1. 安装vue-i18n2. 配置文件2.1 创建如下文件2.2 文件配置2.3 main文件导入i18n 3. 页面内使用3.1 template内直接使用3.2 变量接收使用 1. 安装vue-i18n npm install vue-i18n --save2. 配置文件 2.1 创建如下文件 locales文件夹里…

基于Java开发的(控制台)模拟的多用户多级目录的文件系统

多级文件系统 1 设计目的 为了加深对文件系统内部功能和实现过程的理解,设计一个模拟的多用户多级目录的文件系统,并实现具体的文件物理结构、目录结构以及较为完善的文件操作命令集。 2 设计内容 2.1系统操作 操作命令风格:本文件系统的…

unreal engine5制作动作类游戏时,我们使用刀剑等武器攻击怪物或敌方单位时,发现攻击特效、伤害等没有触发

UE5系列文章目录 文章目录 UE5系列文章目录前言一、问题分析二、解决方法1. 添加项目设置碰撞检测通道2.玩家角色碰撞设置3.怪物角色碰撞预设 最终效果 前言 在使用unreal engine5制作动作类游戏时,我们使用刀剑等武器攻击怪物或敌方单位时,发现攻击特效…

Lesson08---string(4)类

Lesson08—string类(4) c第八章string类的实现 文章目录 Lesson08---string类(4)前言一、计算机是怎么储存文字的1. 在此之前先思考一个问题2.编码表2.1 ascll码2.2unicode码2.3UTF码2.4gbk码 二、实现一个简单的string1.构造函数…

解锁免费数据恢复工具的潜力,找回珍贵数据记忆

数据的分享与存储普遍倾向于电子化形式,这一转变无疑极大地提升了便捷性。然而,电子化存储也伴随着风险,诸如系统崩溃、误删除或外部因素干扰等意外情况,都可能导致宝贵数据的突然丢失。为了预防这一潜在问题,今天我们…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-29

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-29 在这一期中,我们对大语言模型在软件开发中的跨学科应用的几个工作做简要的介绍。相关内容涵盖软件测试时的问题报告,问题分类,测试生成,和软件测试中的AI应用: …

97、配置 VXLAN 不同子网互访 (分布式网关)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、基础配置SW1SW2IGP IS-IS 二、VXLAN1.引入库 总结 前言 一、基础配置 SW1 vlan 10 vlan 20interface GigabitEthernet0/0/1port link-type accessport de…

【一篇文章理解Java中多级缓存的设计与实现】

文章目录 一.什么是多级缓存?1.本地缓存2.远程缓存3.缓存层级4.加载策略 二.适合/不适合的业务场景1.适合的业务场景2.不适合的业务场景 三.Redis与Caffine的对比1. 序列化2. 进程关系 四.各本地缓存性能测试对比报告(官方)五.本地缓存Caffine如何使用1. 引入maven依…

【Python】PyJWT:轻松实现 JSON Web Token (JWT) 网络令牌的生成与验证

PyJWT 是一个用 Python 实现的轻量级库,用于处理 JSON Web Token (JWT)。JWT 是一种安全的方式,用来表示双方之间经过签名的令牌,通常用于认证和授权场景。PyJWT 简化了 JWT 的生成和验证过程,使得开发者能够轻松地在 Python 项目…

Python | Leetcode Python题解之第443题压缩字符串

题目&#xff1a; 题解&#xff1a; class Solution:def compress(self, chars: List[str]) -> int:def reverse(left: int, right: int) -> None:while left < right:chars[left], chars[right] chars[right], chars[left]left 1right - 1n len(chars)write lef…

基于php摄影门户网站

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…

Verilog:实例数组(重复实例化的快捷方法)

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 前言 谈到重复实例化&#xff0c;一般都会想到for generate结构&#xff0c;但其实有一种更加简单的语法&#xff0c;只是使用的人不多&#xff0c;它就是实例数…