多篇论文介绍-可变形卷积

01 具有双层路由注意力的 YOLOv8 道路场景目标检测方法

01 摘要:

随着机动车的数量不断增加,道路交通环境变得更复杂,尤其是光照变化以及复杂背景都会干扰目标检测算法的准确性和精度,同时道路场景下多变形态的目标也会给检测任务造成干扰,针对这一系列问题,提出了一种YOLOv8n_T方法,在YOLOv8的基础上首先针对骨干网络构建了基于可变形卷积的D_C2f块,强化了特征提取网络对复杂背景下目标的特征学习,更好地适应道路目标复杂多变的情形;其次增加了双层路由注意力模块,以查询自适应的方式去除不相关的区域,留下相关度最高的区域;最后针对道路上行人、交通灯等小目标增加小目标检测层,实验表明,提出的 YOLOv8n_T有效提高了模型在道路场景下的目标检测精度,在BDD100K数据集上的平均精度比原始YOLOv8n提升了6.8个百分点,比YOLOv5n提升了11.2个百分点。

关键词:可变形卷积;道路场景;目标检测;YOLO;注意力机制

02 模块介绍

在道路场景下,车辆行人等目标多样且复杂,由于目标的大小、形状、位置、方向等都育有一定的变化性,因此使用传统的卷积操作往往难以准确地捕获目标的准确位置,甚至可能会导致目标漏检或误检的问题。为了解决上述问题,本文采用 DAI等4提出的可变形卷积网络,重新构建了YOLOv8算法中C2f网络结构来提升网络的检测能力。
        在传统卷积中,每个卷积核都是固定形状的,因此无法处理物体形变的情况。而可变形卷积中,每个卷积核不再是一个固定的矩形,而是由一个基础网格和一组偏移量共同组成的可变形矩形。在进行卷积操作时,可以根据形状偏移量动态地调整卷积核的形态,从而更好地适应物体的形变。

 

02 基于空间注意力和可变形卷积的田间障碍物检测方法

01 摘要

摘要:为了解决传统田间障碍物识别方法依赖人工提取特征,计算耗时较长,难以实现在非结构化田间环境下实时作业识别的问题,提出一种优化的Mask R-CNN模型的非结构化农田障碍物实例分割方法。以ResNet50残差网络为基础,将空间注意力(Spatial attention, SA)引入残差结构,聚焦跟踪目标的显著性表观特征并主动抑制噪声等无用特征的影响;引入可变形卷积(Deformable convolution, DCN),通过加入偏移量,增大感受野,提高模型的鲁棒性。构建包含农田典型障碍物的数据集,通过对比实验研究在ResNet残差网络结构中的不同阶段中加入空间注意力和可变形卷积时的模型性能差异。结果表明,与Mask R-CNN原型网络相比,在ResNet的阶段2、阶段3、阶段5加入空间注意力和可变形卷积后,改进Mask R-CNN的边界框(Bbox)和掩膜(Mask)的平均精度均值(mAP)分别从、64.5%、56.9%提高到71.3%、62.3%。本文提出的改进Mask R-CNN可以很好地实现农田障碍物检测,可为植保无人机在非结构化农田环境下安全高效工作提供技术支撑。
关键词:田间障碍物;Mask R-CNN;空间注意力;可变形卷积

02 模块介绍

        由于非结构化田间障碍物形态各异,面积大小不一,这给障碍物识别任务带来了很大的困难,而且以往的卷积神经网络对整体特征的提取是依靠其固定的卷积结构,对于形态各异的目标特征提取的适应、调节能力较弱,目标识别能力不强,泛化能力差。实际上,传统的神经网络的卷积核通常是固定尺寸、固定大小的(3×3、5×5),难以自适应目标的形状变化[25]。为了解决限制传统卷积神经网络识别能力的这一难题,DAI等126提出了一种可变形卷积网络,替代传统的标准卷积,经研究表明,通过可变形卷积网络增加可训练的偏移量,从而适应目标形状的变化,有利于提高目标检测的鲁棒性[34-36]

        二维卷积的操作步骤为:①在输入特征图x上使用规则网格 R 进行采样;②用 加权的采样值进行求和。 一个 3×3 的卷积为

 

03 改进 YOLOv5 的高精度跌倒检测算法

01 摘要

摘要:针对原始YOLOv5在人体跌倒检测任务中无法有效应对复杂细节捕捉、变形处理、不同尺度目标适应和遮挡检测的困境,提出了一种基于C2D改进YOLOv5模型的新型高精度跌倒检测算法C2D-YOLO。首先,提出了一种名为C2D的新型特征提取模块,通过融合可变形卷积、标准卷积和通道空间混合注意机制,将其添加到主干网络中,旨在增强特征表征能力、更好地捕捉复杂细节和处理变形。其次,在颈部网络中,采用了Swin Transformer Block替代C3模块的瓶颈层,旨在最大限度地保留特征信息,以提升对不同尺度目标的检测精度并改善遮挡情况下的性能。最后,在借鉴YOLOX解耦结构的基础上对Yolov5的Head模块进行改进,旨在优化分类和回归性能。实验结果表明,相比现有的YOLOv5s,该方法的mAPO.5和mAP0.5:0.95分别提高了3.2%和6.5%,明显提升了检测精度,减少了误检率。
关键词: YOLOv5;跌倒检测; C2D; Swim Transformer Block;解耦结构

02 模块介绍

        跌倒检测任务场景具备独特且复杂的特征,包括广泛的姿态变化、丰富的细节以及目标形变。因此,在特征提取阶段仅使用标准卷积会导致一系列问题。首先,仅采用标准卷积( Standard Convolution, sC137)可能未能有效捕捉目标的细粒度细节,尤其是在涉及姿态较大的跌倒动作时,其感受野调整能力有限,导致细节信息的丢失或模糊。其次,标准卷积无法适应目标的形变,无法自适应地调整卷积核的采样位置,导致目标的定位准确性下降,容易产生误检。
        为了适应跌倒检测场景的特点并弥补仅使用标准卷积的不足,在特征提取阶段引入了可变形卷积第二版(Deformable ConvNets version 2,DCNv2[38] ) 。

        DCNv2通过引入可学习的形变参数,具备更强的感受野调整能力,能够更好地捕捉目标的细粒度细节并适应目标的形变。这种模块的引入填补了标准卷积在跌倒检测中的局限性,提升了特征表示能力和目标定位准确性,从而有效提升跌倒检测系统的性能和鲁棒性。这种优化方法能够更准确地检测和识别跌倒事件,提高整个系统在复杂场景下的可靠性。
        可变形卷积DCN是一种改进的卷积操作,通过引入偏移量来调整卷积核的形状,以更好地提取输入特征。DCNv2是对可变形卷积的改进,通过学习偏移和加权,提高了模型从变形物体中提取特征的能力。如图2所示,DCNv2包含两个步骤。首先是偏移量生成:通过卷积操作生成卷积核在输入特征图上沿着x和y方向的采样点偏移量。其次是采样和卷积:利用输入特征图和计算得到的偏移量进行双线性插值,确定卷积核在输入特征图上的采样点位置。最后,利用这些采样点进行卷积操作。

04 改进 YOLOv8 算法的遥感图像目标检测

01 摘要

摘要:针对遥感图像目标检测算法漏检和误检率高、目标定位不精确、无法准确识别目标类别等问题,提出一种改进YOLOv8的目标检测算法。为提高模型的损失函数对梯度分配的灵活性,适应各种形状和尺寸的物体,设计了非单调聚焦机制与边界框几何因素相结合的边界框回归损失函数;为扩大模型的感受野并削弱遥感图像背景对检测目标的影响,采用全局注意力机制与残差块结合的方式,设计了残差全局注意力机制;为使模型适应遥感图像中目标物体的形变与不规则排列,对YOLOv8模型中的C2f模块进行改进,融入可变形卷积与可变形RoI池化层。实验结果表明,在 DOTA数据集和RSOD数据集上,改进YOLOv8算法的mAP@0.5达到72.1%和94.6%,优于其它对比主流算法,提高了遥感图像目标检测的精度,为遥感图像识别提供了新的手段。
关键词目标检测;YOLOv8;WloU;GAM注意力机制;可变形卷积

02 模块介绍

        传统的卷积操作中,卷积核具有固定的像素点的位置,对输入图像的每个位置应用相同的卷积核。而在实际上,不同位置的图像可能具有不同的形变,常规卷积无法适应遥感图像的不规则布局与非刚性形变,因此可能导致遥感目标的特征提取不准确。
        以3*3卷积为例,普通卷积对于每一个输出特征图y,都要从输入特征图进行规则采样,再经过加权计算。其中采样是以中心位置向四周扩散得到的9个点,所得到的网格定义为R,如式( 16)所示

05 基于 SimAM 注意力机制的 DCN-YOLOv5 水下目标检测

01 摘要

摘要:【目的】针对水下环境复杂,水下目标因光线折射等问题导致的目标边界模糊或外观、形状可能会发生非刚性形变,使水下目标检测困难,提出了一种基于SimAM注意力机制的 DCN-YOLOv5水下目标检测方法。【方法】首先,采用YOLOv5所使用的双向金字塔网络(BiFPN, Bi-directional Feature Pyramid Network)在多个尺度上提取和融合特征信息,从而提高目标辨别的准确度;其次,针对水下目标的外观、形状的变化问题,将C3模块中的CBS模块结合可变形卷积(DCN, Deformable Convolution),提出DBS模块并组成D3模块替换部分C3模块,以适应水下目标的外观、形状的变化;同时,融入加权注意力机制(SimAM自适应地调节模型的关注度,进一步在复杂场景下增强特征表达能力;最后,考虑目标边界模糊,为改善目标定位精度,采用WIloU(Wise-loU)损失函数来替换交叉嫡损失,能够更好地适应不同目标类型和尺寸的特点,提高算法鲁棒性。【结果】实验结果表明,DCN-YOLOv5可以达到87.57%的平均精度(mAP),检测效果优于YOLOv5网络和其他经典网络,平均每张图像的识别时间仅为24.5ms。【结论】通过实验结果可以证明模型在检测精度明显提升的同时兼顾检测的实时性,对水下目标检测用于实际用途有着一定的参考价值。
关键词:水下目标检测; SimAM注意力机制;可变形卷积; WloU

02 模块介绍

        深度学习领域中,为了更好地捕捉和建模非刚性形态,Dai等[16提出了可变形卷积(DCN),DCN 通过添加可学习的偏移量的卷积层和全连接层,改进了传统的固定卷积核。这种改进使得模型能够根据不同物体或结构的形状变化来调整卷积核的大小和形状。通过降低模型的复杂性,DCN能够更好地适应图像中的目标,并提高对非刚性变形和遮挡等复杂情况的处理能力。Zhu等[17提出的DCNv2通过更全面地整合可变形卷积的特性,并引入了扩展可变形建模范围的调节机制,进一步提高了可变形卷积模型的建模能力。相比于DCN,DCNv2不仅能够调整感知输入特征的偏移量,还可以调节来自不同空间位置的输入特征的幅度,使得DCNv2在处理自适应能力有限问题方面表现出更好的性能。DCNv2的计算公式如式(2)一式(4)所示。

并获得更准确的像素值。

06 基于 YOLOv5 的无人机航拍改进目标检测算法 Dy-YOLO

01 摘要

摘要:由于无人机航拍具有场景复杂多样,目标尺度变化剧烈,高速低空运动模糊等诸多特性,给目标检测带来了很大的挑战.针对无人机航拍目标检测效果不佳的问题,提出了Dy-YOLO模型,在YOLOv5的基础上引入Dynamic Head注意力,从尺度感知、空间位置、多任务3个角度探索具有注意力机制的预测头潜力;设计了C3-DCN结构和Dymamic Head注意力相互配合增强特征提取能力;此外,还使用SimOTA标签分配方式来弥补小样本的损失,并使用CARAFE ( content-aware ressembly of features)上采样算子,有效增强了不同卷积特征图的融合效果.在VisDrone2019测试集上,Dy-YOLO检测的平均均值精度达到了38.2%,较基线方法YOLOv5提高了7.1%,同时与主流的检测方法相比也取得更高的检测精度.结果表明,Dy-YOLO算法对于无人机航拍检测任务具有较好的性能.
关键词:目标检测;注意力机制; 无人机航拍;YOLOv5;可变形卷积网络
 

02 模块介绍

        Dynamic Head中提到,主干中使用可变形卷积(deformable convolutional network,DCN) [24可以与所提出的动态头部互补,传统的卷积采用固定尺寸的卷积核,在感受野内使用固定的权重进行特征提取,不能很好地适应几何形变,而可变形卷积通过引入额外的可学习参数来动态地调整感受野中不同位置的采样位置和权重,这使得可变形卷积能够在处理具有形变、遮挡或不规则形状的图像时更加有效.但是 DCN 的一大缺陷在于,其采样点经过偏移之后的新位置会超出我们理想中的采样位置,导致部分可变形卷积的卷积点可能是一些和物体内容不相关的部分;DCNv2[2$l则针对偏移干扰问题引入了一种调制机制:

07 改进DenseNet 在抽油井示功图故障诊断的研究

01 摘要

摘要:油田开采主要采用有杆抽油机。对其进行故障检查采用的主要是人工方法,不仅耗费大量的人力和财力,而且识别结果易受到经验因素影响。示功图可以反映有杆抽油机井的工作状态,可用于抽油机故障类型检测。因此,本文提出了一种基于DenseNet注重动态调整特征提取的模型来进行示功图分类,在传统卷积神经网络的基础上加入可变形卷积,使用Focal-Loss 损失函数替代交叉嫡损失函数,通过Adam优化算法加快网络的收敛速度,实现了12种工况模式的识别。关键词深度学习;图像分类;示功图;密集连接卷积网络

02 模块介绍

        与传统模型相比,DenseNet-DC 模型构建了更加注重动态调整特征提取的网络结构:摒弃传统模 型 3 × 3 密集层卷积设计,将其替换为可变形卷积,针对不同输入,动态调整感受野,更有利于网络的训练和学习。可变形卷积模块中对于输出的特征图P上的点xo定义为公式(1):

\

08  一种基于深度学习模型的无人机巡检输电线路山火检测方法

01 摘要

摘要:输电巡检图像的背景复杂,目标检测易受干扰,基于YOLOX神经网络模型,提出一种输电线路山火检测方法。首先采用YOLOX的主干特征提取网络框架,并将其中多尺度特征提取模块的常规卷积替换为可变形卷积;其次在加强特征提取阶段增加了通道注意力和空间注意力模块的融合,能够自适应火焰的外形多变特点,更加有效地提取到山火特征,从而提高目标检测的准确率。经实验验证,所提方法能够较为准确地检测到山火,满足日常巡检的需求。
关键词:输电线路巡检;山火识别;神经网络;目标检测; YOLOX

02 模块介绍

        在 YOLOX 网络中,多尺度特征由空间金字塔池化模块提取。该模块采样的区域是固定的形状,其限制了网络对烟火的识别能力。可变形卷积网络l5l将常规卷积修改为可变形卷积。常规标准卷积核为固定方形,而可变形卷积为每个卷积的采样点加上了一个偏移量,当偏移为小数时,需要通过双线性插值⒁变换将所有新的采样点聚集起来形成新的特征图,保证空间分辨率不变。可变卷积的引入使得感受野的形状不再固定,可以更好地匹配山火燃烧时外形变化的特点。基于可变形卷积,本文修改了多尺度特征提取模块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/201084.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis的一些操作

文章目录 清空当前缓存和所有缓存配置内存大小,防止内存饱满设置内存淘汰策略键过期机制 清空当前缓存和所有缓存 Windows环境下使用命令行进行redis缓存清理 redis安装目录下输入cmdredis-cli -p 端口号flushdb 清除当前数据库缓存flushall 清除整个redis所有缓存…

window文件夹下python脚本实现批量删除无法预览的图片

你是否遇到过下载的图片会发现有些图片会无法预览情况? 有几种原因可能导致一些图片在预览时无法正常显示: 损坏的图片文件: 图片文件可能损坏或者部分损坏,导致无法被正常解析和预览。这种情况可能是因为文件在传输过程中损坏、…

模块化Common JS 和 ES Module

目录 历程 1.几个函数:全局变量的污染,模块间没有联系 2.对象:暴露成员,外部可修改 3.立即执行函数:闭包实现模块私有作用域 common JS module和Module 过程 模块依赖:深度优先遍历、父 -> 子 -…

我在Vscode学OpenCV 几何变换(缩放、翻转、仿射变换、透视、重映射)

几何变换指的是将一幅图像映射到另一幅图像内的操作。 cv2.warpAffine:使用仿射变换矩阵对图像进行变换,可以实现平移、缩放和旋转等操作。cv2.warpPerspective:使用透视变换矩阵对图像进行透视变换,可以实现镜头校正、图像纠偏等…

基于 Flink CDC 打造企业级实时数据集成方案

本文整理自Flink数据通道的Flink负责人、Flink CDC开源社区的负责人、Apache Flink社区的PMC成员徐榜江在云栖大会开源大数据专场的分享。本篇内容主要分为四部分: CDC 数据实时集成的挑战Flink CDC 核心技术解读基于 Flink CDC 的企业级实时数据集成方案实时数据集…

视频转码方法:多种格式视频批量转FLV视频的技巧

随着互联网的发展,视频已成为日常生活中不可或缺的一部分。然而,不同的视频格式可能适用于不同的设备和平台,因此需要进行转码。在转码之前,要了解各种视频格式的特点和适用场景。常见的视频格式包括MP4、AVI、MKV、FLV等。其中&a…

left join查询耗时太慢,添加索引解决问题

背景 因为最近自己用的小app越用感觉加载越慢,以为是自己app开发逻辑出现问题了,结果才发现是自己很早以前的代码用到的是left join多表联查,以前因为数据少,所以没有感觉,现在数据量稍微一大,耗时就非常严…

Vatee万腾外汇市场新力量:vatee科技决策力

在当今数字化时代,Vatee万腾崭露头角,以其强大的科技决策力进军外汇市场,成为该领域的新力量。这一新动向将不仅塑造外汇市场的未来,也展现Vatee科技决策力在金融领域的引领作用。 Vatee万腾带着先进的科技决策力进入外汇市场&…

ON1 Photo RAW 2024 for Mac——专业照片编辑的终极利器

ON1 Photo RAW 2024 for Mac是一款专为Mac用户打造的照片编辑器,以其强大的功能和易用的操作,让你的照片编辑工作变得轻松愉快。 一、强大的RAW处理能力 ON1 Photo RAW 2024支持大量的RAW格式照片,能够让你在编辑过程中获得更多的自由度和更…

STM32F4系列单片机GPIO概述和寄存器分析

第2章 STM32-GPIO口 2.1 GPIO口概述 通用输入/输出口 2.1.1 GPIO口作用 GPIO是单片机与外界进行数据交流的窗口。 2.1.2 STM32的GPIO口 在51单片机中,IO口,以数字进行分组(P0~P3),每一组里面又有8个IO口。 在ST…

Nacos和Eureka的区别

目录 配置: 区别: ephemeral设置为true时 ephemeral设置为false时(这里我使用的服务是order-service) 1. Nacos与eureka的共同点 都支持服务注册和服务拉取 都支持服务提供者心跳方式做健康检测 2. Nacos与Eu…

验证码 | 可视化一键管控各场景下的风险数据

目录 查看今日验证数据 查看未来趋势数据 验证码作为人机交互界面经常出现的关键要素,是身份核验、防范风险、数据反爬的重要组成部分,广泛应用网站、App上,在注册、登录、交易、交互等各类场景中发挥着巨大作用,具有真人识别、身…

新手做抖店,这6点建议一定要收好,能让你不亏钱!

我是电商珠珠 我呢,目前身居郑州。 电商这个行业也做了5年多了,抖店从20年开始做,到现在也已经快3年了。 其实,我做抖店期间呢,踩过很多坑,所以今天就把我所踩过的坑,给做抖店的新手总结了6点…

[oeasy]python001_先跑起来_python_三大系统选择_windows_mac_linux

先跑起来 🥊 Python 什么是 Python? Python [ˈpaɪθɑ:n]是 一门 适合初学者 的编程语言 类库 众多 几行代码 就能 出 很好效果 应用场景丰富 在 各个应用领域 都有 行内人制作的 python 工具类库 非常专业、 好用 特别是 人工智能领域 pytho…

【高性能计算】CUDA,OpenCL,FPGA 加速,MPI

OpenCL OpenCL(Open Computing Language)是一种跨平台的GPU加速技术,由Khronos Group开发。OpenCL允许开发人员在不同的硬件平台上编写并行计算应用程序。 OpenCL使用C语言的子集来编写应用程序,并提供了一组API,可以…

opencv-图像对比度增强

对比度增强,即将图片的灰度范围拉宽,如图片灰度分布范围在[50,150]之间,将其范围拉升到[0,256]之间。这里介绍下 线性变换,直方图正规化,伽马变换,全局直方图均衡化,限制对比度自适应直方图均衡…

机器学习算法——集成学习

目录 1. Bagging1.1 工作流程1.2 代码实践 2. 随机森林2.1 工作流程2.2 代码实践 3. Adaboost3.1 工作流程3.2 样本权值的更新策略3.3 代码实践 4. Stacking4.1 代码实践 5. Voting5.1 代码实践 6. 集成学习分类 1. Bagging Bagging(bootstrap aggregating&#xf…

steam游戏找不到steam_api64.dll,分享三个有效的解决方法

在现代科技发展的时代,游戏已经成为了许多人生活中不可或缺的一部分。而Steam作为全球最大的数字发行平台之一,拥有着庞大的游戏库和活跃的用户群体。然而,在使用Steam时,有些用户可能会遇到Steam_api64.dll丢失的问题&#xff0c…

头插法尾插法建立单链表

头插法建立单链表 #define NULL 0 #include<stdio.h>typedef struct LNode {int data;struct LNode *next; }LNode,*LinkList;//单链表尾插法 LinkList List_TailInsert(LinkList &L){int x;L (LinkList)malloc(sizeof(LNode)); //初始化空表LNode *r L; …

Cascade-MVSNet论文笔记

Cascade-MVSNet论文笔记 摘要1 立体匹配&#xff08;Stereo Matching&#xff09;2 多视图立体视觉&#xff08;Multi-View Stereo&#xff09;3 立体视觉和立体视觉的高分辨率输出4 代价体表达方式&#xff08;Cost volume Formulation&#xff09;4.1 多视图立体视觉的3D代价…