无人机如何自主侦察?UEAVAD:基于视觉的无人机主动目标探测与导航数据集

  • 作者:Xinhua Jiang, Tianpeng Liu, Li Liu, Zhen Liu, and Yongxiang Liu

  • 单位:国防科技大学电子科学学院

  • 论文标题:UEVAVD: A Dataset for Developing UAV’s Eye View Active Object Detection

  • 论文链接:https://arxiv.org/pdf/2411.04348

  • 代码链接:https://github.com/Leo000ooo/UEVAVD_dataset

主要贡献

  • 论文发布了数据集UEVAVD,旨在促进无人机视角的主动目标检测(AOD)问题的研究。该数据集包含不同环境设置下的多视图成像结果,有助于研究如何更好地利用无人机的自主性和机动性来克服基于无人机的目标检测中的遮挡问题。

  • 提出了结合归纳偏置的深度强化学习(DRL)改进方法,称为诱导偏差增强的多步动作预测(IBE-MAP)。通过场景预分解和基于记忆的状态估计,增强了智能体策略的泛化能力。

  • 利用CNN和GRU从历史观测序列中提取状态表示,而不是依赖单视图观测。此外,使用Segment Anything Model(SAM)对场景进行预分解,并过滤掉无关信息,从而提高了决策网络的状态表示。

  • 引入了上下文马尔可夫决策过程(CMDP)来量化智能体策略在UEVAVD数据集上的零样本泛化(ZSG)能力,并通过实验验证了所提方法的优越性。

研究背景

研究问题

论文主要解决的问题是无人机(UAV)在目标检测中遇到的遮挡问题。

现有的方法主要通过改进检测模型来应对这一问题,但很少有研究利用无人机改变视角来从根本上提高检测性能。

研究难点

该问题的研究难点包括:

  • 无人机在视图中无法确定目标身份时的决策问题,

  • 如何在移动过程中最小化运动成本以获取理想的观测视角。

相关工作

  • UAV目标检测

    • 深度学习方法:近年来,基于深度神经网络(DNN)的方法如Faster-RCNN、YOLO、SSD及其变体逐渐成为UAV目标检测的主流方法。这些方法通过改进网络结构和算法来提高检测性能,但仍然面临遮挡问题的挑战。

    • 遮挡处理:一些研究通过自适应改进检测模型来应对遮挡问题,例如使用Soft-NMS方法在后期处理中抑制冗余预测帧以减轻遮挡影响。然而,这些方法的抗遮挡能力仍不理想。

  • 主动视觉

    • 室内应用:主动视觉主要应用于室内机器人领域。Ammirato等人首次使用REINFORCE算法进行主动视觉任务,并发布了用于开发和基准化主动视觉算法的数据集 AVD (Active Vision Dataset)。Han等人使用双深度Q学习网络(DualingDQN)结合优先经验回放解决了主动视觉问题。Fang等人使用自监督表示学习来提高DRL方法的样本效率。

    • 室外应用:尽管室内环境中有多个主动视觉数据集(如AVD、T-LESS和R3ED),但在无人机视角下的主动目标检测方面缺乏类似的数据集。现有的UAV目标检测数据集(如VisDrone-DET)虽然覆盖了丰富的环境设置和目标,但由于缺乏密集的多视角图像,无法用于研究空地主动目标检测问题。

  • 主动目标检测(AOD)

    • DRL框架:AOD利用主动视觉来改善目标检测结果,通过赋予移动传感平台调整视角的能力来更好地识别目标。DRL已成为解决AOD问题的主流框架。Liu等人通过结合目标裁剪到状态表示并设计新的奖励函数来帮助机器人更平滑地接近目标物体。

数据集构建

目标和环境设置

  • 目标:数据集专注于城市和林地地形中的车辆目标。选择了五种类型的车辆目标(Hatchback、Pickup、Sports Car、Sedan、SUV),并从在线资源中整合到项目中。为了避免分类器仅通过颜色信息区分目标,标准化了Hatchback、Pickup、Sedan和SUV的颜色和纹理以匹配Sportscar。

  • 环境:为了确保数据集的丰富性和多样性,随机分布目标位置在整个场景中。目标通常放置在建筑物或树木附近,以模拟复杂的背景环境。

采样过程

  • 采样点:在每个场景中,无人机在目标区域内的特定采样点均匀分布处观察目标。采样点的坐标表示为 ,距离目标的距离满足以下条件: 相邻采样点之间的最小距离为10米。

  • 图像处理:使用AirSim插件获取原始RGB图像和整个场景的地面真实分割图像。为了减少计算量,将原始RGB图像裁剪为中心在目标的256×256像素的区域,并从原始图像和分割图像中导出目标的边界框。

数据集概述

  • 统计信息:数据集包含五种车辆目标在不同环境设置下的多视角成像结果。具体统计信息包括训练集和测试集(简单和困难)的目标类型、地形、上下文ID、图像数量和标注数量。训练集有60500张图像,测试集(简单和困难)各有15125张图像。

  • 目标位置分布:目标位置在场景中的分布通过俯视图展示,红色点表示训练上下文,蓝色点或星号表示测试上下文。测试上下文在目标位置分布上更明显地偏离训练上下文,以增加数据集的多样性。

研究方法

  • 问题建模

    • POMDP模型:AOD问题被建模为部分可观测马尔可夫决策过程(POMDP),通常表示为七元组 。其中, 是智能体的状态集, 是动作集, 是观测集, 是状态转移函数, 是观测函数, 是奖励函数, 是折扣因子。

    • 状态表示:状态 是从无人机的观测中提取的状态表示。动作 包括动作类型(如前进、后退、左转、右转、下降、上升、停止)和动作范围。

    • 观测函数:观测 包括无人机视角的航拍图像 和目标的边界框 。目标的位置在后续帧中可以通过跟踪算法获得。

  • 奖励函数设计

    • 奖励函数 考虑了检测准确性、决策步骤和无人机的移动路径。具体定义如下: 其中, 和 是正的奖励常数, 是控制动作范围的系数。

  • 策略优化

    • 通过求解以下优化问题来获得智能体的最优观测策略 : 其中, 表示智能体的策略, 是策略集, 是初始状态的分布, 是在一个回合内的期望回报。

  • 诱导偏差增强的AOD方法

    • 论文提出了一种改进的多步动作预测(MAP)方法,称为诱导偏差增强的多步动作预测(IBE-MAP)。该方法利用两种先验知识来增强状态表示:

    1. 场景预分解:使用Segment Anything Model (SAM) 对场景进行预分解,过滤掉与目标识别无关的信息。

    2. 记忆基状态估计:使用门控循环单元(GRU)从观测序列中提取状态表示,而不是依赖单一视图观测。

实验与结果分析

实验设置

  • 数据集划分:UEVAVD数据集被划分为三个部分:训练集、简单测试集和困难测试集。训练集用于训练智能体的策略网络,困难测试集用于测试策略。

  • 网络选择:选择一个在ImageNet上预训练的ResNet18网络作为分类器,并使用未遮挡的多视角图像对其进行微调。

  • 基线比较:比较基线方法包括MAP(Multistep Action Prediction)和Memo-MAP(Memo-MAP是MAP的改进版本,结合了记忆模块来提取状态表示,但不包括场景预分解阶段)。

结果和分析

  • 困难测试集上的评估
    • 在困难测试集上,对不同策略的表现进行了比较。结果显示,随机策略由于任意给出动作指令而失败;

    • MAP策略成功帮助无人机避开障碍物并获得正确的识别结果,但明显偏离了最优路径;

    • IBE-MAP策略引导无人机以更低的移动成本找到更好的视角,并在找到足够识别的视角后做出提前停止决策以提高效率。

  • 总体比较
    • 展示了三种AOD方法在回报、识别率和移动距离方面的表现。

    • 结果表明,随着训练的进行,所有策略的回报曲线都在上升,表明它们能够帮助智能体以更低的移动成本获得更好的识别结果。

    • IBE-MAP方法在测试时具有最强的泛化能力,其回报值超过了其他两种方法,且泛化差距最小。

超参数分析

  • 分类阈值的影响
    • 分析了分类阈值对策略性能的影响。结果表明,随着阈值的增加,回报下降,路径长度延长,但对识别准确率的影响较小。

  • 动作范围系数的影响
    • 分析了动作范围系数对策略性能的影响。

    • 结果表明,随着动作范围约束的增加,路径长度缩短,但识别率降低。

    • 存在一个准确性和路径长度之间的权衡,具体设置取决于执行AOD任务时的重要性。

总结

论文发布了一个新的数据集UEVAVD,包含不同地形和遮挡条件下的多视角航拍图像。通过这些观测数据的组合,可以模拟无人机在轨迹上连续观测的过程。

论文提出的IBE-MAP方法通过引入先验知识改进了原始MAP方法,使策略网络能够学习到更好的状态表示,从而提高了智能体在测试环境中的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7524.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【图文详解】lnmp架构搭建Discuz论坛

安装部署LNMP 系统及软件版本信息 软件名称版本nginx1.24.0mysql5.7.41php5.6.27安装nginx 我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客: 关闭防火墙 systemctl stop firewalld &&a…

Ansible入门学习之基础元素介绍

一、Ansible目录结构介绍 1.通过rpm -ql ansible获取ansible所有文件存放的目录 有配置文件目录 /etc/ansible/ 执行文件目录 /usr/bin/ 其中 /etc/ansible/ 该文件目录的主要功能是 inventory主机信息配置,ansible工具功能配置。 ansible自身的配置文件…

git Bash通过SSH key 登录github的详细步骤

1 问题 通过在windows 终端中的通过git登录github 不再是通过密码登录了,需要本地生成一个密钥,配置到gihub中才能使用 2 步骤 (1)首先配置用户名和邮箱 git config --global user.name "用户名"git config --global…

矩阵的秩在机器学习中具有广泛的应用

矩阵的秩在机器学习中具有广泛的应用,主要体现在以下几个方面: 一、数据降维与特征提取 主成分分析(PCA): PCA是一种常用的数据降维技术,它通过寻找数据中的主成分(即最大方差方向&#xff09…

Windows Defender添加排除项无权限的解决方法

目录 起因Windows Defender添加排除项无权限通过管理员终端添加排除项管理员身份运行打开PowerShell添加/移除排除项的命令 起因 博主在打软件补丁时,遇到 Windows Defender 一直拦截并删除文件,而在 Windows Defender 中无权限访问排除项。尝试通过管理…

IDEA工具下载、配置和Tomcat配置

1. IDEA工具下载、配置 1.1. IDEA工具下载 1.1.1. 下载方式一 官方地址下载 1.1.2. 下载方式二 官方地址下载:https://www.jetbrains.com/idea/ 1.1.3. 注册账户 官网地址:https://account.jetbrains.com/login 1.1.4. JetBrains官方账号注册…

计算机网络之应用层

本文章目录结构出自于《王道计算机考研 计算机网络_哔哩哔哩_bilibili》 05 应用层 在网上看到其他人做了相关笔记,就不再多余写了,直接参考着学习吧。 王道考研 计算机网络笔记 第六章:应用层_王道考研 应用层 笔记-CSDN博客 DNS&#x…

微信小程序date picker的一些说明

微信小程序的picker是一个功能强大的组件&#xff0c;它可以是一个普通选择器&#xff0c;也可以是多项选择器&#xff0c;也可以是时间、日期、省市区选择器。 官方文档在这里 这里讲一下date picker的用法。 <view class"section"><view class"se…

Pyecharts图表交互功能提升

在数据可视化中&#xff0c;交互功能可以极大地提升用户体验&#xff0c;让用户能够更加深入地探索数据。Pyecharts 提供了多种强大的交互功能&#xff0c;本篇将重点介绍如何使用缩略轴组件、配置图例交互&#xff0c;让我们的数据可视化作品更加生动有趣。 一、缩略轴组件使…

奇怪的单词(快速扩张200个单词)

这是一些非常奇怪的单词&#xff1a; screw n.螺丝&#xff1b;螺丝钉 screwdriver n.起子&#xff0c;螺丝刀&#xff0c;改锥 copulation n.连接 copulate a.配合的 bonk n.撞击&#xff1b;猛击 v.轻击&#xff1b;碰撞ebony n.黑檀couple n.夫妇blonde n.金发女郎intimacy…

Ubuntu20.04 深度学习环境配置(持续完善)

文章目录 常用的一些命令安装 Anaconda创建conda虚拟环境查看虚拟环境大小 安装显卡驱动安装CUDA安装cuDNN官方仓库安装 cuDNN安装 cuDNN 库验证 cuDNN 安装确认 CUDA 和 cuDNN 是否匹配&#xff1a; TensorRT下载 TensorRT安装 TensorRT 本地仓库配置 GPG 签名密钥安装 Tensor…

Android多语言开发自动化生成工具

在做 Android 开发的过程中&#xff0c;经常会遇到多语言开发的场景&#xff0c;尤其在车载项目中&#xff0c;多语言开发更为常见。对应多语言开发&#xff0c;通常都是在中文版本的基础上开发其他国家语言&#xff0c;这里我们会拿到中-外语言对照表&#xff0c;这里的工作难…

数据结构——堆(C语言)

基本概念&#xff1a; 1、完全二叉树&#xff1a;若二叉树的深度为h&#xff0c;则除第h层外&#xff0c;其他层的结点全部达到最大值&#xff0c;且第h层的所有结点都集中在左子树。 2、满二叉树&#xff1a;满二叉树是一种特殊的的完全二叉树&#xff0c;所有层的结点都是最…

const的用法

文章目录 一、C和C中const修饰变量的区别二、const和一级指针的结合const修饰的量常出现的错误是:const和一级指针的结合总结&#xff1a;const和指针的类型转换公式 三、const和二级指针的结合 一、C和C中const修饰变量的区别 C中&#xff1a;const必须初始化&#xff0c;叫常…

机器学习-线性回归(参数估计之经验风险最小化)

给定一组包含 &#x1d441; 个训练样本的训练集 我们希望能够 学习一个最优的线性回归的模型参数 &#x1d498; 现在我们来介绍线性回归的一种模型参数估计方法&#xff1a;经验风险最小化。 我们前面说过&#xff0c;对于标签 &#x1d466; 和模型输出都为连续的实数值&…

appium自动化环境搭建

一、appium介绍 appium介绍 appium是一个开源工具、支持跨平台、用于自动化ios、安卓手机和windows桌面平台上面的原生、移动web和混合应用&#xff0c;支持多种编程语言(python&#xff0c;java&#xff0c;Ruby&#xff0c;Javascript、PHP等) 原生应用和混合应用&#xf…

视频多模态模型——视频版ViT

大家好&#xff0c;这里是好评笔记&#xff0c;公主号&#xff1a;Goodnote&#xff0c;专栏文章私信限时Free。本文详细解读多模态论文《ViViT: A Video Vision Transformer》&#xff0c;2021由google 提出用于视频处理的视觉 Transformer 模型&#xff0c;在视频多模态领域有…

使用Cline+deepseek实现VsCode自动化编程

不知道大家有没有听说过cursor这个工具&#xff0c;类似于AIVsCode的结合体&#xff0c;只要绑定chatgpt、claude等大模型API&#xff0c;就可以实现对话式自助编程&#xff0c;简单闲聊几句便可开发一个软件应用。 但cursor受限于外网&#xff0c;国内用户玩不了&#xff0c;…

【Linux】Linux编译器-g++、gcc、动静态库

只要积极创造&#xff0c;机遇无时不有&#xff1b;只要善于探索&#xff0c;真理无处不在。&#x1f493;&#x1f493;&#x1f493; 目录 ✨说在前面 &#x1f34b;知识点一&#xff1a;Linux编译器-g、gcc •&#x1f330;1. 背景知识 •&#x1f330;2. gcc如何完成 •…

Spring整合Mybatis、junit纯注解

如何创建一个Spring项目 错误问题 不知道什么原因&#xff0c;大概是依赖版本不兼容、java版本不对的问题&#xff0c;折磨了好久就是搞不成。 主要原因看pom.xml配置 pom.xml配置 java版本 由于是跟着22年黑马视频做的&#xff0c;java版本换成了jdk-11&#xff0c;用21以…