模型案例:| 手机识别模型!

导读

2023年以ChatGPT为代表的大语言模型横空出世,它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力,为人工智能技术的发展开辟了新的可能性。同时,人工智能技术正在进入各种应用领域,在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。

柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件,与全球创客爱好者共建“模型仓”,通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术!

本期介绍:模型案例:| 手机识别模型

RT-DETR

RT-DETR是基于DETR架构的端到端对象检测器,完全消除了对NMS的需求。通过这样做,RT-DETR显着减少了之前基于卷积神经网络(CNN)的对象检测器(如YOLO系列)的延迟。它结合了强大的主干、混合编码器和独特的查询选择器,可以快速准确地处理特征。

RT-DETR架构的关键组件

Backbone网络:通常采用高效的卷积神经网络(CNN)作为特征提取的基础,例如ResNet或EfficientNet,以获取图像的多尺度特征。从主干,RT-DETR提取三个级别的特征- S3,S4和S5,这些多尺度特征有助于模型理解图像的高级和细粒度细节。

Transformer编码器-解码器:RT-DETR中使用了Transformer的编码器-解码器结构,该混合编码器包括两个主要部分:基于注意力的尺度内特征交互(AIFI)和跨尺度特征融合(CCFF)。

基于注意力的尺度内特征交互(AIFI)

这个组件的核心思想是利用自注意力机制在同一尺度内进行特征交互。AIFI能够让模型有效地捕捉同一尺度特征图中各个位置之间的关系。

具体而言,AIFI通过计算特征的注意力权重,使得模型能够关注到重要的区域,并抑制冗余信息,从而增强对目标的定位和表征能力。

这种尺度内的交互有助于在相似尺寸的物体之间建立联系,提高对密集目标的检测能力。

跨尺度特征融合(CCFF)

CCFF负责整合来自不同尺度的特征,以便于模型能够从多层次的信息中获得更全面的上下文。这一过程通常涉及将来自不同尺度的特征图进行融合,通过卷积操作、上采样或下采样等方式,将这些特征进行对齐并结合在一起。

CCFF不仅允许模型综合不同尺度特征的优势,还能提高对各种大小目标的检测能力。

多尺度特征金字塔:RT-DETR通常会借助特征金字塔网络(FPN)来融合来自不同层次的特征,以加强对不同大小目标的检测能力。

目标查询(Object Queries):解码器使用的目标查询是关键组件,它们用于引导模型对目标的检测,允许模型在生成检测结果时关注不同的潜在目标。

类别和边界框回归:在解码器中,RT-DETR通过类别预测和边界框回归来输出目标的类别和位置。

高效的训练策略:RT-DETR往往结合了一些改进的训练策略,如动态图损失(Dynamic Loss)和图像增强技术,以提高模型的收敛速度和检测精度。

后处理:如NMS(非极大值抑制)处理步骤,以去除冗余的检测框和优化最终的检测结果。

手机识别模型

该 AI 模型由 Swift yolo 算法生成,专为 Seeed Studio Grove Vision AI (V2) 设备设计,能够高效识别和检测到手机。

应用场景

该模型适用于多种应用场景,包括零售、安全、公共空间监控和个人监督。

在零售业,该模型可以实时监控手机库存,帮助员工及时补货;

在安全方面,它可以帮助识别和跟踪丢失或被盗的手机;

在个人监督,很多大学学生上课玩手机,可以通过此模型进行监控。

在Grove - Vision AI V2模块上部署此模型

  1. 打开SenseCraft AI平台,如果第一次使用请先注册一个会员账号,还可以设置语言为中文。

平台地址:https://sensecraft.seeed.cc/ai/#/model

2、在顶部单击【预训练模型】菜单,在公共AI模型列表中找到【手机检测】模型,单击此模型图片,如下图所示。

3、进入【手机检测】模型介绍页面,单击右侧的“部署模型”按钮,如下图所示。

  1. 进入部署手机检测模型页面,按提示步骤先连接摄像头,再连接设备到电脑USB接口上,最后单击【连接设备】按钮,如下图所示。

5、弹出部署模型窗口,单击“确定”按钮,如下图所示。

6、弹出连接到串行端口窗口,选择端口号后单击“连接”按钮,如下图所示。

7、开始进行模型部署、固件下载、设备重启等过程,完成后在预览中即可看到当前摄像头视频内容,将摄像头对准手机图片查看预测效果,如下图所示。

原型设计

利用此手机识别模型,设计一个桌面手机监控装置,此装置在检测到有人用手机时会点亮led模块,也可改为蜂鸣器模块进行报警,这样就有了一个防沉迷手机检测装置。

下面是视频演示

手机识别模型

Grove Al视觉模块 V2套装介绍

Grove Al视觉模块 V2

OV5647-62摄像头

Grove - Vision Al Module V2是一款拇指大小的人工智能视觉模块, 配备Himax WiseEye2 HX6538处理器, 该处理器采用 ArmCortex-M55双核架构。

它具有标准的CSI接口, 并与树莓派相机兼容。它有一个内置的数字麦克风和SD卡插槽。它非常适用于各种嵌入式视觉项目。

有了SenseCraft Al算法平台, 经过训练的ML模型可以部署到传感器, 而不需要编码。它兼容XIAO系列和Arduino生态系统, 是各种物体检测应用的理想选择。

主要硬件配置

- 板卡基于WiseEye2 HX6538处理器, 采用双核ARM Cortex-M55架构

- 配备集成Arm Ethos-U55微神经网络加速单元, 兼容的树莓派相机

- 板载PDM麦克风, SD卡插槽, Type-C, Grove接口, 丰富的外设支持样机开发

- Seeed Studio XIAO的可扩展性, SenseCraft Al的现成AI模型用于无代码部署。

- 支持各种有效的模型, 包括MobilenetV1、MobilenetV2、 Eficientnet-Lite、Yolov5和Yolov8.

写在最后

SenseCraft-AI平台的模型仓数量还很少,但是好消息是它支持自定义模型上传并输出推理结果,平台会逐渐增加模型仓的数量,敬请关注!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/485323.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解谜类游戏《迷失岛2》等如何抽象出一套通用高效开发框架?

解谜类游戏以精妙的谜题设计和引人入胜的故事叙述为特点,考验着玩家的智慧与观察力。《迷失岛2》与《南瓜先生2九龙城寨》正是这一领域的佳作。游戏以独特的艺术风格和玩法设计吸引了大量玩家,而它们背后隐藏着一套强大的框架。 上海胖布丁游戏的技术总…

【C++探索学习】第十九弹——进程替换:深入解析操作系统中的进程替换机制

Linux学习笔记: https://blog.csdn.net/2301_80220607/category_12805278.html?spm1001.2014.3001.5482 前言: 在Linux操作系统中,进程替换(Process Replacement)是一个重要的概念,它允许程序通过系统调…

SSH克隆github项目

1、生成密钥 ssh-keygen -t rsa -C "你的邮箱xxx.com" 全程回车即可(不用输入ras文件名及密码)、为了方便下面的公钥查看 2、配置公钥 查看公钥内容 cat c:\Users\xxx\.ssh\id_rsa.pub(修改为自己的路径及名字) 将公钥内容复制并粘贴至…

ASP.NET Core 9.0 静态资产传递优化 (MapStaticAssets )

一、结论 💢先看结论吧, MapStaticAssets 在大多数情况下可以替换 UseStaticFiles,它已针对为应用在生成和发布时了解的资产提供服务进行了优化。 如果应用服务来自其他位置(如磁盘或嵌入资源)的资产,则应…

电子信息工程自动化 单片机自动门控制系统设计

摘 要 伴随着社会经济的发展进步、科学技术的发展进步以及人民群众日常生活质量的逐渐提升,自动门开始全面进入人民群众的生活,逐渐发展成为了宾馆、大型超市、政府等当代建筑里必须配备的设备,是建筑自动智能化综合水平的主要标准之一。它具…

防火墙有什么作用

防火墙的作用:1. 提供网络安全防护;2. 实施访问控制和流量过滤;3. 检测和阻止恶意攻击;4. 保护内部网络免受未经授权的访问;5. 监控网络流量和安全事件;6. 支持虚拟专用网络(VPN)。防…

Cesium-地球材质-坡度

1. 创建viewer 创建viewer并添加地形 const viewer new Cesium.Viewer("cesiumContainer", {terrainProvider: await Cesium.CesiumTerrainProvider.fromIonAssetId(3956, {requestVertexNormals: true}) }); 2. 创建canvas色条 添加getColorRamp方法&#xff0…

企业网双核心交换机实现冗余和负载均衡(MSTP+VRRP)

MSTP(多生成树协议) 通过创建多个VLAN实例,将原有的STP、RSTP升级,避免单一VLAN阻塞后导致带宽的浪费,通过将VLAN数据与实例绑定,有效提升网络速率。 VRRP(虚拟路由冗余协议) 用…

VTK编程指南<三>:基于VTK入门程序解析来理解VTK基础知识

1、VTK入门程序 下面是一个完整的Vtk入门程序&#xff0c;我们基于这个程序来对VTK的基本知识进行一个初步了解。 #include <iostream>#include <vtkAutoInit.h> VTK_MODULE_INIT(vtkRenderingOpenGL2);// VTK was built with vtkRenderingOpenGL2 VTK_MODULE_INI…

React基础知识四 Hooks

什么是hooks&#xff1f; (coderwhy) hooks是react 16.8&#xff08;2019年&#xff09;出的新特性。 react有两种形式来创建组件——类式和函数式。在hooks之前类式组件就是react最主流的编程方式。 这个时候&#xff0c;函数式组件是非常鸡肋的&#xff0c;几乎没什么用。因…

TYUT计算机操作系统简答题

简述分组交换的优点。 高效灵活、迅速可靠&#xff0c;且各分组小&#xff0c;路由灵活&#xff0c;网络生存性能好。 解决 IPv4 地址紧缺有哪些方案&#xff1f; ① 使用代理服务器&#xff1b;② 使用地址转换&#xff1b;③ 升级到 IPv6。 网络适配器的作用是什么&#…

tomcat+jdbc报错怎么办?

1. 虽然mysql8.0以上的不用手动添加driver类&#xff0c;但是一旦加上driver类&#xff0c;就要手动添加了 不然会报找不到driver类的错误 2. java.lang.RuntimeException: java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:xXX?serverTimezoneU…

Qt6.8 QGraphicsView鼠标坐标点偏差

ui文件拖放QGraphicsView&#xff0c;src文件定义QGraphicsScene赋值给图形视图。 this->scene new QGraphicsScene();ui.graph->setScene(this->scene);对graphicview过滤事件&#xff0c;只能在其viewport之后安装&#xff0c;否则不响应。 ui.graph->viewport…

减少30%人工处理时间,AI OCR与表格识别助力医疗化验单快速处理

在医疗行业&#xff0c;化验单作为重要的诊断依据和数据来源&#xff0c;涉及大量的文字和表格信息&#xff0c;传统的手工输入和数据处理方式不仅繁琐&#xff0c;而且容易出错&#xff0c;给医院的运营效率和数据准确性带来较大挑战。随着人工智能技术的快速发展&#xff0c;…

工厂流水线上位机开发--USB转串口收不到数据,485通信时好时坏 不稳定问题

做过众多项目中&#xff0c;出现过很多次USB转485的返回值异常问题&#xff0c;自动化跑的好好的&#xff0c;一段时间后突然就查询不到返回值。 第一次出现时&#xff0c;上位机软件说是下位机问题&#xff0c;下位机说监控到返回数据了&#xff0c;是上位机问题&#xff0c;吵…

Mac曲线救国实现Bandizip右键一级菜单

一、前言 个人认为&#xff1a;Bandizip是Mac上最好用的压缩软件&#xff0c;没有之一。 在Mac系统上&#xff0c;学习版的Bandizip由于签名检验问题无法在访达右键的一级菜单显示 解压相关菜单。 有能力的&#xff0c;希望还是支持正版&#xff0c;找找优惠渠道应该100左右。…

矢量数据库

随着人工智能技术的深入发展&#xff0c;从图像识别到自然语言处理&#xff0c;从智能推荐到自动驾驶&#xff0c;AI的应用场景日益广泛。 而在这背后&#xff0c; 这种变革技术的核心数据概念是矢量。通过矢量化和大型语言模型(LLM) 的强大功能&#xff0c;生成式 AI 实现了其…

大模型学习有什么发展前景?

前景人工智能大模型是指拥有超大规模参数&#xff08;通常在十亿个以上&#xff09;、复杂计算结构的机器学习模型。它通常能够处理海量数据&#xff0c;完成各种复杂任务&#xff0c;如自然语言处理、图像识别等。 2024年政府工作报告提出“发展新质生产力”&#xff0c;并将…

2025澄迈漓岛音乐节品牌招商大会成功举行

——共谋音乐盛事&#xff0c;携手推动文化经济发展 12月6日&#xff0c;“2025澄迈漓岛音乐节品牌招商大会”&#xff08;以下简称“招商大会”&#xff09;在澄迈举行。本次大会由澄迈福山发展有限公司、福山咖啡文化风情镇旅游区联合主办&#xff0c;海南绿发投资有限公司承…

鲲鹏麒麟部署MongoDB4

本次部署采用Docker方式进行部署&#xff0c;服务器为鲲鹏服务器&#xff0c;CPU架构为ARM64&#xff0c;操作系统版本信息为 # cat /etc/kylin-release Kylin Linux Advanced Server release V10 (Tercel)找镜像 首先在https://hub.docker.com/网站上找到相关的额镜像&…