无人机如何自主侦察？UEAVAD：基于视觉的无人机主动目标探测与导航数据集

作者：Xinhua Jiang, Tianpeng Liu, Li Liu, Zhen Liu, and Yongxiang Liu
单位：国防科技大学电子科学学院
论文标题：UEVAVD: A Dataset for Developing UAV’s Eye View Active Object Detection
论文链接：https://arxiv.org/pdf/2411.04348
代码链接：https://github.com/Leo000ooo/UEVAVD_dataset

主要贡献

论文发布了数据集UEVAVD，旨在促进无人机视角的主动目标检测（AOD）问题的研究。该数据集包含不同环境设置下的多视图成像结果，有助于研究如何更好地利用无人机的自主性和机动性来克服基于无人机的目标检测中的遮挡问题。
提出了结合归纳偏置的深度强化学习（DRL）改进方法，称为诱导偏差增强的多步动作预测（IBE-MAP）。通过场景预分解和基于记忆的状态估计，增强了智能体策略的泛化能力。
利用CNN和GRU从历史观测序列中提取状态表示，而不是依赖单视图观测。此外，使用Segment Anything Model（SAM）对场景进行预分解，并过滤掉无关信息，从而提高了决策网络的状态表示。
引入了上下文马尔可夫决策过程（CMDP）来量化智能体策略在UEVAVD数据集上的零样本泛化（ZSG）能力，并通过实验验证了所提方法的优越性。

研究背景

研究问题

论文主要解决的问题是无人机（UAV）在目标检测中遇到的遮挡问题。

现有的方法主要通过改进检测模型来应对这一问题，但很少有研究利用无人机改变视角来从根本上提高检测性能。

研究难点

该问题的研究难点包括：

无人机在视图中无法确定目标身份时的决策问题，
如何在移动过程中最小化运动成本以获取理想的观测视角。

数据集构建

目标和环境设置

目标：数据集专注于城市和林地地形中的车辆目标。选择了五种类型的车辆目标（Hatchback、Pickup、Sports Car、Sedan、SUV），并从在线资源中整合到项目中。为了避免分类器仅通过颜色信息区分目标，标准化了Hatchback、Pickup、Sedan和SUV的颜色和纹理以匹配Sportscar。
环境：为了确保数据集的丰富性和多样性，随机分布目标位置在整个场景中。目标通常放置在建筑物或树木附近，以模拟复杂的背景环境。

采样过程

采样点：在每个场景中，无人机在目标区域内的特定采样点均匀分布处观察目标。采样点的坐标表示为，距离目标的距离满足以下条件：相邻采样点之间的最小距离为10米。
图像处理：使用AirSim插件获取原始RGB图像和整个场景的地面真实分割图像。为了减少计算量，将原始RGB图像裁剪为中心在目标的256×256像素的区域，并从原始图像和分割图像中导出目标的边界框。

数据集概述

统计信息：数据集包含五种车辆目标在不同环境设置下的多视角成像结果。具体统计信息包括训练集和测试集（简单和困难）的目标类型、地形、上下文ID、图像数量和标注数量。训练集有60500张图像，测试集（简单和困难）各有15125张图像。
目标位置分布：目标位置在场景中的分布通过俯视图展示，红色点表示训练上下文，蓝色点或星号表示测试上下文。测试上下文在目标位置分布上更明显地偏离训练上下文，以增加数据集的多样性。

研究方法

问题建模
- POMDP模型：AOD问题被建模为部分可观测马尔可夫决策过程（POMDP），通常表示为七元组。其中，是智能体的状态集，是动作集，是观测集，是状态转移函数，是观测函数，是奖励函数，是折扣因子。
- 状态表示：状态是从无人机的观测中提取的状态表示。动作包括动作类型（如前进、后退、左转、右转、下降、上升、停止）和动作范围。
- 观测函数：观测包括无人机视角的航拍图像和目标的边界框。目标的位置在后续帧中可以通过跟踪算法获得。
奖励函数设计
- 奖励函数考虑了检测准确性、决策步骤和无人机的移动路径。具体定义如下：其中，和是正的奖励常数，是控制动作范围的系数。
策略优化
- 通过求解以下优化问题来获得智能体的最优观测策略：其中，表示智能体的策略，是策略集，是初始状态的分布，是在一个回合内的期望回报。
诱导偏差增强的AOD方法
- 论文提出了一种改进的多步动作预测（MAP）方法，称为诱导偏差增强的多步动作预测（IBE-MAP）。该方法利用两种先验知识来增强状态表示：
1. 场景预分解：使用Segment Anything Model (SAM) 对场景进行预分解，过滤掉与目标识别无关的信息。
2. 记忆基状态估计：使用门控循环单元（GRU）从观测序列中提取状态表示，而不是依赖单一视图观测。

实验与结果分析

实验设置

数据集划分：UEVAVD数据集被划分为三个部分：训练集、简单测试集和困难测试集。训练集用于训练智能体的策略网络，困难测试集用于测试策略。
网络选择：选择一个在ImageNet上预训练的ResNet18网络作为分类器，并使用未遮挡的多视角图像对其进行微调。
基线比较：比较基线方法包括MAP（Multistep Action Prediction）和Memo-MAP（Memo-MAP是MAP的改进版本，结合了记忆模块来提取状态表示，但不包括场景预分解阶段）。

结果和分析

困难测试集上的评估：
- 在困难测试集上，对不同策略的表现进行了比较。结果显示，随机策略由于任意给出动作指令而失败；
- MAP策略成功帮助无人机避开障碍物并获得正确的识别结果，但明显偏离了最优路径；
- IBE-MAP策略引导无人机以更低的移动成本找到更好的视角，并在找到足够识别的视角后做出提前停止决策以提高效率。
总体比较：
- 展示了三种AOD方法在回报、识别率和移动距离方面的表现。
- 结果表明，随着训练的进行，所有策略的回报曲线都在上升，表明它们能够帮助智能体以更低的移动成本获得更好的识别结果。
- IBE-MAP方法在测试时具有最强的泛化能力，其回报值超过了其他两种方法，且泛化差距最小。

超参数分析

分类阈值的影响：
- 分析了分类阈值对策略性能的影响。结果表明，随着阈值的增加，回报下降，路径长度延长，但对识别准确率的影响较小。
动作范围系数的影响：
- 分析了动作范围系数对策略性能的影响。
- 结果表明，随着动作范围约束的增加，路径长度缩短，但识别率降低。
- 存在一个准确性和路径长度之间的权衡，具体设置取决于执行AOD任务时的重要性。