AI大模型介绍yolo

AI大模型介绍yolo

  • 1. 概述
    • 1.1 YOLO的基本特点
    • 1.2 YOLO发展历程
  • 2 模型介绍
    • 2.1 模型原理
    • 2.2 模型结构
  • 3. 版本发展历史

1. 概述

1.1 YOLO的基本特点

  1. 速度快
  2. 准确率高
  3. 可解释性强
  4. 适用性广

1.2 YOLO发展历程

2015 : YOLOV1
2016: YOLO9000v2
2018: YOLOV3
2020: Scaled YOLOV4, PP-YOLO, YOLOV5,YOLOV6
2021: YOLOX,YOLOR,PP-YOLOV2
2022: DAMO YOLO, PP-YOLOE, YOLOV7, YOLOV6
2023: YOLOV8

2 模型介绍

2.1 模型原理

rcnn使用区域建议方法,首先在一张图像中产生可能的边界框。分类后,利用后处理对边界框进行细化,消除重复检测,并根据场景中的其他对象边界框进行重新扫描,这些复杂的流水线很慢。并且因为每个独立的部分都需要被分开训练,所以很难优化。
yolo模型原理:将目标检测重新定义为一个单一的检测问题,从图像像素直接到边界框坐标和类别概率。使用过一个卷积神经网络同时预测多个边界框和这些框类别概率。模型在完整的图像上训练,并直接优化检测性能。这个统一的模型相比较于传统检测模型有很多优点。YOLO设计可以实现端到端训练和实时的速度,同时保持较高的平均精度。

  1. 将输入图像分成S*S的网格,如果一个目标的中心落入一个网格单元中,该网络单元负责检测目标
  2. 每个网格单元预测这些盒子的B个边界框和置信度分数
  3. 置信度分数反映了该模型对盒子是否包含目标的置信度,以及它预测盒子的准确程度

Yolo的输出包含两部分:
(1)边界框(Bounding Boxes)参数:每个边界框包含5个预测:x,y,w,h和confidence(置信度)。(x,y)坐标表示边界框相对于网格单元边界框的中心。宽w和高h是整张图像相对长度预测。还有一个置信度,计算公式如下:

c o n f i d e n c e = P r ( O b j e c t ) ∗ I O U confidence = Pr(Object)*IOU confidence=Pr(Object)IOU
(2)类别概率(class probabilites)参数:每个网格单元还预测C个条件类别概率
Pr(Classi|Object)。这些概率是在网格单元上包含物体置信度的概率
在实际测试的时候,通常需要计算另外一个参数class_specific_confidence,即每个边界框中对象的最终类别置信度,计算公式如下:
c l a s s _ s p e c i f i c _ c o n f i d e n c e = P r ( c l a s s i ∣ O b j e c t ) ∗ P r ( O b j e c t ) ∗ I O U p r e d t r u t h = P r ( C l a s s i ) ∗ I O U p r e d t r u t h class\_specific\_confidence=Pr(class_i|Object)*Pr(Object)*IOU^{truth}_{pred}=Pr(Class_i)*IOU^{truth}_{pred} class_specific_confidence=Pr(classiObject)Pr(Object)IOUpredtruth=Pr(Classi)IOUpredtruth
S=7,B=2,在49个小区域上,每个区域预测2个边框,每张图上有98个边界框和框类别。这些框最终通过nms过滤掉
nms的思想是在多个重叠候选框中,只保留置信度最高的那个候选框,而将其他重叠度超过一定阈值的候选框抑制掉。
nms步骤:

  • 获取候选框及置信度:目标检测模型会输出一系列候选框及其对应的置信度分数。
  • 排序:根据置信度分数对所有候选框进行降序排序,置信度最高的候选框排在最前面
  • 选择并抑制:从排序后的候选框列表中选取置信度信息最高的候选框。删除所有与当前最优候选框重叠度超过预设阈值的候选框
  • 重复处理:重复上述步骤,从剩余的候选框中继续选取置信度最高的候选框,直到所有候选框被处理完毕或达到预设的数量限制

2.2 模型结构

YOLO模型是基于深度卷积神经网络进行训练和设计的,网络有24个卷积层和最后2个全连接层。YOLO模型将输入图像划分为多个网格(7*7),每个网格负责预测该区域内目标的存在性,类别和位置,这使得YOLO网络能够同时检测多个目标,并有效处理目标之间的重叠和遮挡问题

3. 版本发展历史

2016 YOLOV2
(1)引入批量归一化,高精度分类器,anchor boxes, 维度聚类,多尺度训练和测试等技术,显著提高了模型的精度和鲁棒性
(2)模型架构:使用darknet-19作为基础网络,减少了计算量和参数数量
2018 YOLOv3
(1)多尺度检测:借鉴FPN思想,通过不同尺度的特征图上进行预测,增强了模型对不同大小目标的检测能力
(2)多尺度锚点:引入了三种不同尺度的anchor box,分别对应于输入图像的1/32,1/16和1/8尺度的特征图,这种设计能够更好地检测不同尺寸的物体,尤其是小物体
(3)模型架构:darknet-53
2020 YOLOv4
(1)引入新技术:使用了多种数据增强方法(Mosaic,cutmix)和多种优化方法(CmBN,DropBlock等),以及多种检测技巧(CIOU,SPP,SAM,PAN,DIOU-NMS)
(2)模型架构:采用了cspdarknet52,通过跨阶段部分连接提高了特征提取能力
2020 YOLOV5
(1)anchor 优化:基于训练数据自动学习anchor,使得模型可以更好的适应不同数据集和目标大小变化
(2)数据增强:自适应训练策略,根据模型在不同数据集上的表现自动调整训练参数
(3)cspdarknet53基础上对网络结构的一些部分进行了优化
2022 YOLOv6
(1)模型架构:引入了RepVgg style结构,这种结构在训练时具有多分支拓扑能力,能够有效利用计算密集型硬件的计算能力
(2)多平台支持
(3)灵活性和高效性,支持多种输入尺寸和batch
2022 YOLOV7
(1)网络结构:YOLOV4基础上进行了改进,backbone中引入了ELAN等新的结构,增强特征提取和融合能力,合并了neck和head,使得网络更加紧凑
(2)速度精度优化
2023 YOLOV8
(1)网络结构:csparknet53作为骨干网络,引入panet模块,用于不同尺度上聚合特征图,提升模型对不同尺寸目标的检测能力
(2)训练策略优化:旋转,翻转,缩放,采用动态学习率调度策略,有助于加速收敛和提高模型性能
(3)损失函数优化:CIOU损失函数,DFL Loss和CIOUloss作为回归损失,更好地处理正负样本不平衡问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16730.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

策略模式-小结

总结一下看到的策略模式: A:一个含有一个方法的接口 B:具体的实行方式行为1,2,3,实现上面的接口。 C:一个环境类(或者上下文类),形式可以是:工厂模式,构造器注入模式,枚举模式。 …

springCloud-2021.0.9 之 GateWay 示例

文章目录 前言springCloud-2021.0.9 之 GateWay 示例1. GateWay 官网2. GateWay 三个关键名称3. GateWay 工作原理的高级概述4. 示例4.1. POM4.2. 启动类4.3. 过滤器4.4. 配置 5. 启动/测试 前言 如果您觉得有用的话,记得给博主点个赞,评论,收…

[FastAdmin] 上传图片并加水印,压缩图片

1.app\common\library\Upload.php 文件 upload方法 /*** 普通上传* return \app\common\model\attachment|\think\Model* throws UploadException*/public function upload($savekey null){if (empty($this->file)) {throw new UploadException(__(No file upload or serv…

windows系统远程桌面连接ubuntu18.04

记录一下自己在配置过程中遇到的问题,记录遇到的两大坑: windows系统通过xrdp远程桌面连接ubuntu18.04的蓝屏问题。参考以下第一章解决。 同一局域网内网段不同的连接问题。参考以下第三章解决,前提是SSH可连。 1. 在ubuntu上安装xrdp 参考&…

逻辑回归不能解决非线性问题,而svm可以解决

逻辑回归和支持向量机(SVM)是两种常用的分类算法,它们在处理数据时有一些不同的特点,特别是在面对非线性问题时。 1. 逻辑回归 逻辑回归本质上是一个线性分类模型。它的目的是寻找一个最适合数据的直线(或超平面&…

23页PDF | 国标《GB/T 44109-2024 信息技术 大数据 数据治理实施指南 》发布

一、前言 《信息技术 大数据 数据治理实施指南》是中国国家标准化管理委员会发布的关于大数据环境下数据治理实施的指导性文件,旨在为组织开展数据治理工作提供系统性的方法和框架。报告详细阐述了数据治理的实施过程,包括规划、执行、评价和改进四个阶…

ESM3(1)-介绍:用语言模型模拟5亿年的进化历程

超过30亿年的进化在天然蛋白质空间中编码形成了一幅生物学图景。在此,作者证明在进化数据上进行大规模训练的语言模型,能够生成与已知蛋白质差异巨大的功能性蛋白质,并推出了ESM3,这是一款前沿的多模态生成式语言模型,…

在大型语言模型(LLM)框架内Transformer架构与混合专家(MoE)策略的概念整合

文章目录 传统的神经网络框架存在的问题一. Transformer架构综述1.1 transformer的输入1.1.1 词向量1.1.2 位置编码(Positional Encoding)1.1.3 编码器与解码器结构1.1.4 多头自注意力机制 二.Transformer分步详解2.1 传统词向量存在的问题2.2 详解编解码…

【黑马点评】 使用RabbitMQ实现消息队列——3.批量获取1k个用户token,使用jmeter压力测试

【黑马点评】 使用RabbitMQ实现消息队列——3.批量获取用户token,使用jmeter压力测试 3.1 需求3.2 实现3.2.1 环境配置3.2.2 修改登录接口UserController和实现类3.2.3 测试类 3.3 使用jmeter进行测试3.4 测试结果3.5 将用户登录逻辑修改回去3.6 批量删除生成的用户…

【安全靶场】信息收集靶场

靶场:https://app.hackinghub.io/hubs/prison-hack 信息收集 子域名收集 1.subfinder files.jabprisons.com staging.jabprisons.com cobrowse.jabprisons.com a1.top.jabprisons.com cf1.jabprisons.com va.cobrowse.jabprisons.com vs.jabprisons.com c…

springboot239-springboot在线医疗问答平台(源码+论文+PPT+部署讲解等)

💕💕作者: 爱笑学姐 💕💕个人简介:十年Java,Python美女程序员一枚,精通计算机专业前后端各类框架。 💕💕各类成品Java毕设 。javaweb,ssm&#xf…

(一)获取数据和读取数据

获取公开数据 下载、爬虫、API 一些公开数据集网站: 爬虫: 发送请求获取网页源代码——解析网页源代码内容,提取数据 通过公开API获取: API定义了两个程序之间的服务合约,即双方是如何使用请求和响应来进行通讯的…

在MacBook Air上本地部署大模型deepseek指南

随着大模型技术的兴起,越来越多的人开始关注如何在本地部署这些强大的AI模型。如果你也想体验大模型的魅力,那么这篇文章将指导你如何在你的MacBook Air上本地部署大模型. 工具准备 为了实现本地部署,你需要以下工具: Ollama&a…

Windows中使用Docker安装Anythingllm,基于deepseek构建自己的本地知识库问答大模型,可局域网内多用户访问、离线运行

文章目录 Windows中使用Docker安装Anythingllm,基于deepseek构建自己的知识库问答大模型1. 安装 Docker Desktop2. 使用Docker拉取Anythingllm镜像2. 设置 STORAGE_LOCATION 路径3. 创建存储目录和 .env 文件.env 文件的作用关键配置项 4. 运行 Docker 命令docker r…

git学习【个人记录b站尚硅谷】

git学习 Git基本命令操作设置用户签名初始化本地库添加文件从工作区到暂存区将文件从暂存区添加到本地库修改文件重新提交 Git分支Github操作创建远程库上传到远程库克隆到本地文件夹拉取远程库最新版本到本地 总结 Git基本命令操作 设置用户签名 git config --global user.n…

【R语言】t检验

一、基本介绍 t检验(t-test)是用于比较两个样本均值是否存在显著差异的一种统计方法。 t.test()函数的调用格式: t.test(x, yNULL, alternativec("two.sided", "less", "greater"), mu0, pairFALSE, var.eq…

TDengine 产品由哪些组件构成

目 录 背景产品生态taosdtaosctaosAdaptertaosKeepertaosExplorertaosXtaosX Agent应用程序或第三方工具 背景 了解一个产品,最好从了解产品包括哪些内容开始,我这里整理了一份儿 TDegnine 产品包括有哪些组件,每个组件作用是什么的说明&a…

实现限制同一个账号最多只能在3个客户端(有电脑、手机等)登录(附关键源码)

如上图,我的百度网盘已登录设备列表,有一个手机,2个windows客户端。手机设备有型号、最后登录时间、IP等。windows客户端信息有最后登录时间、操作系统类型、IP地址等。这些具体是如何实现的?下面分别给出android APP中采集手机信…

使用 Docker 安装 Open WebUI 并集成 Ollama 的 DeepSeek 模型

文章目录 使用 Docker 安装 Open WebUI 并集成 Ollama 的 DeepSeek 模型前提条件1. 安装ollama2. 拉取deepseek的模型3. Open-WebUI 说明4. 启动容器文档的方法如下优化命令(可选)1. 增加了健康检查机制(--health-cmd)2. 使 WebUI…

Untiy3d 铰链、弹簧,特殊的物理关节

(一)铰链组件 1.创建一个立方体和角色胶囊 2.给角色胶囊挂在控制脚本和刚体 using System.Collections; using System.Collections.Generic; using UnityEngine;public class plyer : MonoBehaviour {// Start is called once before the first execut…