生成式人工智能在无人机群中的应用、挑战和机遇

人工智能咨询培训老师叶梓转载标明出处

无人机群在执行人类难以或危险任务方面有巨大潜力，但在复杂动态环境中学习和协调大量无人机的移动和行动，对传统AI方法来说是重大挑战。生成式人工智能（Generative AI, GAI），凭借其在复杂数据特征提取、转换和增强方面的能力，为解决无人机群的挑战提供了巨大潜力。本论文由Guangyuan Liu、Nguyen Van Huynh、Hongyang Du等多位学者共同撰写，旨在全面调研GAI在无人机群中的应用、挑战和机遇。

论文链接：https://arxiv.org/abs/2402.18062

GAI技术介绍

GAI代表了人工智能技术的一次范式转变。与传统的判别式模型不同，GAI不仅能够识别和预测数据，它能够创造新颖且有意义的内容，比如文本、图像、音频和3D模型。这种能力标志着人工智能在功能上的一次重大飞跃。

在图3中，我们可以看到判别式模型和生成式模型的对比。判别式模型在训练过程中依赖于带有标签的数据，通过这些数据学习如何分类或预测。例如，在图像分类任务中，模型会根据输入的图像预测对象的类别，并给出预测的置信度。类似的任务还包括图像分割、姿态估计和目标检测等。

相对于判别式模型，GAI模型在训练时不需要明确的标签。它们通过解释指令和生成可感知的输出来学习。例如，给定一个描述“圣诞猫”，GAI可以从多种模态的数据中学习，如文本、视频和图像，然后生成一个蓝色的眼睛、粉红色的鼻子并且盯着摄像头的猫的肖像。GAI还能够进行图像字幕生成、音频生成和视频生成，如生成一只猫唱《铃儿响叮当》或愤怒地喵喵叫的视频。

GAI的这种创新能力在多个应用领域都有所体现，从逼真的图像和文本创造到复杂的3D模型生成。GAI正在通过个性化学习支持和智能辅导系统，彻底改变医疗和工程教育等领域。在视觉内容生成方面，GAI的因果推理能力也被探索，这对于机器人技术、自动驾驶和医疗诊断等应用至关重要。

GAI的影响力还扩展到了商业模式的创新。在软件工程、医疗保健和金融服务等行业，GAI的应用正在重塑传统的商业模式。GAI的多功能性不仅强调了它作为创造力和创新工具的角色，还突显了它在推动多个行业取得重大进步方面的潜力。

典型的GAI模型包括生成对抗网络（GAN）、变分自编码器（VAE）、生成扩散模型、Transformer和归一化流（Normalizing Flow）

生成对抗网络（GANs）：

生成对抗网络（GANs）是由Goodfellow在2014年提出的概念，它们在半监督学习和无监督学习领域取得了显著的进步。GANs通过同时训练两个网络——生成器和判别器——来实现其功能。生成器的任务是产生模仿真实数据的数据，而判别器则作为分类器，区分真实数据和生成数据。这两个网络之间的动态关系构成了GAN模型的核心，生成器努力创造出足够真实的数据以混淆判别器，而判别器则不断提升识别假数据的能力。这个过程最终达到纳什均衡，生成器生成的数据越来越逼真，判别器也越来越擅长识别伪造的数据。这种机制有效地利用了监督学习方法来实现无监督学习的结果，通过生成看起来真实的合成数据。

然而GAN的训练仍然面临挑战，主要是由于模型的不稳定性。生成器和判别器需要通过交替或同时的梯度下降来优化，而这可能会导致纳什均衡、模式崩溃和梯度消失等问题。为了解决这些挑战，研究者们提出了多种解决方案，如展开的GAN、小批量歧视、历史平均、特征匹配、双时间尺度更新规则和自注意力GAN等。这些发展对于稳定GAN训练至关重要。

如图4所示，GAN在生成高质量样本和快速采样方面表现出色，这主要归功于它们独特的对抗性训练机制。在GAN中，生成器和判别器网络持续进行竞争，生成器学会产生越来越逼真的样本以欺骗判别器。在无人机群（UV swarms）应用中，生成器和判别器之间的竞争过程不仅确保了现实样本的生成，还有助于创造多样化和复杂的环境模拟，这对于训练UV至关重要。此外，考虑到计算限制和快速决策的需求，GANs在样本生成方面的效率尤为重要。训练有素的生成器能够通过简单的前向推理产生新样本。最后，GANs学习丰富多样潜在空间的能力对UV群至关重要，这使得它们能够为这些系统的强大训练生成多样化的场景和条件。

变分自编码器（VAEs）：

变分自编码器（VAEs）是深度潜在空间生成模型，它们学习数据的分布以生成具有更多类内变化的新、有意义的数据。与GANs类似，VAEs由两个相互连接但独立参数化的组件组成：编码器和解码器。编码器为解码器提供潜在变量的后验估计，这对于解码器在“期望最大化”学习迭代过程中更新其参数至关重要。反过来，解码器形成了一个框架，帮助编码器学习有意义的数据表示。编码器本质上是生成模型的近似逆，符合贝叶斯规则。VAEs的训练涉及优化证据下界（ELBO），它平衡了重建精度和潜在空间分布与目标分布的相似性。

在数据增强的背景下，VAEs因其能够增加数据集的变异性而非常有价值，特别是在训练样本有限的领域。尽管VAE可以避免像GANs中常见的非收敛和模式崩溃等问题，但VAEs生成的样本质量往往低于GANs。表示学习是VAEs的另一个重要应用。这种方法涉及将原始数据转换为更高级的训练数据表示，通常需要大量的人类专业知识和努力。VAEs通过学习从高维空间到有意义的低维嵌入的映射，自动化了这一过程。

在无人机群应用中，VAEs以其稳定性和可靠性脱颖而出。与GANs相比，VAEs可以减轻模式崩溃等问题，使它们成为生成训练模拟的更稳定选择。这种稳定性在UV群中至关重要，因为一致和多样化的环境建模对于系统的全面训练是必需的。VAEs在生成广泛场景时的鲁棒性，没有模型崩溃的风险，确保了UV系统暴露于全面的条件集，增强了它们对现实世界操作的适应性和准备性。

生成扩散模型：

生成扩散模型（GDMs）与GANs和VAEs不同，采用了涉及前向和反向扩散的两阶段过程。扩散模型是一种参数化的马尔可夫链，使用变分推断训练，在有限时间内产生与数据匹配的样本。在前向扩散阶段，这些模型通过多个步骤逐渐向输入数据添加高斯噪声，逐步降低数据结构的完整性。在反向扩散阶段，模型学习有系统地逆转这一过程，按顺序预测并在提示的指导下去除噪声，从而重建新的数据样本。每一步中去除的噪声通过类似U-Net架构的神经网络来估计，以确保维度保持。

扩散模型主要有三个子类别：去噪扩散概率模型（DDPM）、噪声条件得分网络（NCSN）和随机微分方程（SDE）。DDPM在创造多样化和高质量的图像方面表现出色，是Stable Diffusion和DALL-E系列等知名模型的基础结构。NCSN是Deepfake技术的核心，通过得分匹配和噪声水平训练产生逼真的修改图像和视频。SDE利用前向和反向SDE进行稳健且理论上合理的生成策略，通常应用于DiffFlow等模型。这些模型在图像生成方面取得了显著的成果，超越了GANs在生成样本的多样性方面，但需要多次添加噪声和去噪步骤，使得它们在推理时比GANs慢，比VAEs在图像生产上效率低。为了解决GDM中的效率挑战，研究重点是提高采样效率。例如，发展了去噪扩散隐式模型（DDIM），通过在生成样本时减少步骤，提高了采样速度，而不会显著影响生成图像的质量。

在无人机群（UV swarms）的背景下，GDMs在生成高度详细和多样化的环境模拟以训练UV系统方面特别有用。与常常遭受模式崩溃的GANs或有时生成质量较低图像的VAEs不同，GDMs可以产生具有高水平细节和变化的样本。这对于UV群在现实和多样化条件下的训练至关重要。另一方面，GDMs的迭代过程涉及多个步骤的噪声添加和去除，导致与GANs和VAEs相比，样本生成速度较慢，效率较低。但在搜索和救援行动、军事侦察和环境监测等场景中是可以接受的，因为在这些场景中，训练模拟中的极致现实主义和细节对于UV群的有效运作至关重要。

Transformer：

Transformer模型已经成为许多最先进模型的基础，在生成模型领域尤其如此。特别是在自然语言处理中，基于Transformer的大型语言模型（LLMs），如GPT系列、BERT和Bard，已经展示了它们捕获大量信息的能力。尽管VAE和Transformer架构都具有编码器-解码器设计，但它们的功能有显著差异。在Transformer中，编码器处理输入序列，捕获复杂依赖关系，解码器生成输出序列，通常利用自注意力机制关注输入数据的不同部分。Transformer的编码器和解码器都由多层注意力机制和前馈神经网络组成，使它们能够有效处理复杂序列数据。

Transformer不仅可以作为独立模型提供，当集成到其他生成模型中时，它们引入了注意力、自注意力、多头注意力和位置编码等重要机制和技术。这种集成在创意写作的文本生成、聊天机器人、代码生成和编程辅助等多个领域有应用。将Transformer集成到其他GAI中，在图像合成方面取得了显著进展。例如，基于纯Transformer的架构，如ViTGAN和STrans GAN，已经成功地合成了高分辨率图像，无需卷积神经网络。这将Transformer的效用从基于文本的应用扩展到复杂的图像合成。

在无人机群领域，Transformer架构由于其处理序列数据和管理长期依赖关系的熟练程度，大大增强了基于全面数据流的复杂决策任务。在UV群操作中，每个单元可能需要处理和响应来自其他单元的传感器输入、通信和环境因素的广泛阵列，使Transformer分析这些序列数据和识别关键依赖关系的能力成为协助快速决策过程的关键资源。此外，Transformer的生成能力在创建高度详细和上下文感知的模拟以用于UV群的训练或任务规划方面显示出巨大潜力。像GPT-4这样的模型可能在生成用于训练UV的逼真、复杂场景方面发挥重要作用，并增强它们对现实世界操作的准备性，这得益于它们庞大的参数数量和处理文本和图像提示的能力。

归一化流（NF）：

归一化流（NF）是一类生成模型，因其能够产生易于处理的分布，其中采样和密度评估可以高效且精确而脱颖而出。它们的特点是通过一系列可逆且可微的映射，将简单的（如标准正态分布）转换为更复杂的分布。这种转换允许通过将样本恢复到原始的简单分布并计算逆变换样本的密度与逆变换序列引起的体积变化的乘积来评估样本的密度。NF与其他生成模型相比的一个关键优势是它们的固有可逆性。这个特性使得它们能够精确地反向映射，这对于有效且准确地评估生成样本的密度至关重要——这在像GANs或VAEs这样的其他生成模型中是一项具有挑战性的任务。NFs的可逆性还使得它们能够高效采样和精确密度估计，使它们高度多功能。与可能遭受模式崩溃等训练不稳定性的GANs不同，NFs提供了一个更稳定的训练过程。此外，与VAEs中的近似重建相比，NFs可以以更高的保真度重建数据。NFs已在图像生成、噪声建模、视频生成、音频生成和图生成等多种应用中得到部署。

在UV群的背景下，图形归一化流（GNF）模型可以用于UV群的异常检测。GNF利用贝叶斯网络识别时间序列组件之间的关系，并在分布的低密度区域执行密度估计，这些区域通常是异常发生的地方。与其他GAI模型相比，NF模型的关键优势在于它们能够提供精确的可能性估计，这为识别和响应UV系统中的各种异常提供了一种精确、稳定且高效的解决方案。

GAI在无人机群中的应用和挑战

图5展示了GAI在不同方面的应用，如状态估计、环境感知等，并展示了每种应用的不同方法。

状态估计

状态估计对于无人机群的应用至关重要，特别是在自动驾驶和交通估计领域。状态变量如位置、速度和方向，在导航或轨迹规划中的决策制定中起着关键作用。然而，系统测量的随机性和机器人动态的不确定性可能导致对实际状态的不确定性。因此，状态估计的主要目标是基于可用的时间观测来推断状态变量的分布。

本文将GAI整合到UV的状态估计中，提出了很多创新方法，每种方法都针对特定的挑战和操作背景进行了量身定制。例如，为了解决UGV交通状态估计中数据不足的挑战，研究者们利用图嵌入GAN（Graph-Embedding GANs）生成现实交通数据，以填补数据不足的道路段。在这个框架中，生成器使用来自类似道路段的嵌入向量来模拟真实的交通数据，而判别器则区分合成数据和实际数据，并迭代训练生成器以优化两个组件，直到生成的数据在统计上与真实数据无法区分。这种方法不仅填补了数据空白，而且显著提高了估计的准确性，与传统模型如Deeptrend2.0相比，平均绝对误差有所降低。

另外条件GAN（cGAN）可用于根据原始测量生成相应的估计系统状态变量。使用cGAN框架，通过将传感器的原始测量作为条件约束，解决了在动态环境中准确估计多个UAV运动的挑战。研究者们结合了社会LSTM网络的个体运动预测和连体网络的全局运动洞察，实现了全面的运动状态预测。这种方法在准确预测UAV轨迹方面表现出色，这对于有效的群导航至关重要。

环境感知

环境感知通常指的是无人机能够实时感知并理解其周围环境的能力。这是实现自动驾驶和完成UV群任务的关键技术。这种技术通常涉及使用传感器，如激光雷达、摄像头和毫米波雷达，与外部环境进行交互。

GAI在UV环境感知领域的应用显著推进了这一领域的技术发展。例如，由于运动模糊、不利的天气条件和变化的飞行高度等内在限制，无人机经常捕获到低分辨率图像。为了解决这个问题，研究者们引入了一个名为潜在编码器耦合生成对抗网络（LE-GAN）的框架，用于高效的高光谱图像（HSI）超分辨率。LE-GAN中的生成器使用短期光谱-空间关系窗口机制来利用局部-全局特征，并增强信息丰富的波段特征。判别器采用基于Wasserstein距离的损失，以处理真实图像和生成图像之间的概率分布差异。这种框架不仅提高了超分辨率的质量和鲁棒性，而且还通过在潜在空间中学习高分辨率HSI的特征分布，减轻了模式崩溃问题引起的光谱-空间失真。

除了通过增强遥感分辨率来提高UV的准确性外，GAI更常见的应用是生成合成数据集，说明由于数据不足导致模型准确性降低的挑战。例如，Trajectory GAN（TraGAN）用于从高速公路交通数据中生成逼真的车道变换轨迹。另一个基于GAN的框架DeepRoad被用于自动驾驶系统的测试和输入验证，通过在不同天气条件下生成驾驶场景，增强了测试的可靠性。VAE也被用于生成更真实和多样化的碰撞数据，克服了传统数据增强方法的局限性。

另外结合VAE和GAN的图像翻译框架被用于将模拟图像转换为用于训练和测试变化检测模型的真实合成图像。还有利用文本到图像扩散模型生成各种背景和姿态下的UAV逼真图像的方法。通过合并基于真实边界框的背景描述和二进制掩码生成的超过20,000个合成图像，检测器在现实世界数据上的平均精度提高了12%。

GAI还被用于场景理解或图像字幕生成，例如使用CLIP Prefix进行图像字幕生成，将UAV捕获的图像的视觉内容转换为准确的文本描述，以供UV决策使用。另一种方法是部署生成知识支持的Transformer（GKST），通过融合不同视图的车辆图像信息，增强特征表示和检索性能。

自主性水平

自主性是指系统在无需人工干预下执行任务或做出决策的能力。在无人机群（UV swarms）中，自主性水平代表了UV依靠其自身的传感器、算法和计算资源独立操作的能力。这种能力取决于任务的类型和复杂性、规划和执行路线的能力等因素。表IV展示了GAI在提升这些自主能力方面的核心作用。

例如，生成对抗模仿学习（GAIL）与多智能体深度强化学习（DRL）的结合，增强了无人机在搜索策略方面的合作性，使无人机能够通过模仿专家行为来学习高效的搜索策略。这种方法简化了学习过程，无需显式的奖励即可获得更自然和高效的行为，但需要大量的专家轨迹数据进行训练。此外，GAIL还被用于在虚拟环境中训练无人机进行导航任务，使它们能够理解和适应复杂和动态的场景。

变分自编码器（VAE）在车辆轨迹建模中也有应用，尤其是用于高度自动化驾驶场景中的安全验证。BezierVAE使用VAE将轨迹编码到潜在空间，然后使用Bezier曲线进行解码，以重建和生成新的轨迹。这种方法不仅捕获并生成多样化的驾驶行为，而且与传统模型相比，显著提高了重建误差和不平滑度的减少，显著增强了自动驾驶车辆的安全验证。

在多智能体轨迹预测方面，采用了受条件VAE启发的条件生成模型GRIN，以预测考虑到意图和社交关系的复杂性的代理轨迹。尽管复杂系统面临诸如遵守物理定律等上下文规则的挑战，但可以通过使用特定的解码器或代理模型来近似这些限制。

任务/资源分配

在多智能体UV群的任务和资源分配领域，传统方法通常依赖于固定算法和启发式方法，这些方法可能并不总是足以应对动态和复杂环境。表V展示了GAI在这些具有挑战性的场景中所需的灵活性。

例如，提出了一种基于GAIL的算法来重建DRL的虚拟环境，其中生成器学习产生专家轨迹，判别器区分专家轨迹和生成轨迹。这种方法可以创建一个紧密模拟现实世界条件的虚拟边缘计算环境，为计算资源分配多智能体DRL方法提供了探索和推断奖励的功能，同时避免了由于任意探索而损害用户体验。

另外自编码器基于方法应用于匈牙利算法，以解决由于数据速率矩阵中相同权重引起的信息歧义问题，特别是在蜂窝用户（CU）和设备到设备用户（D2DU）之间的频带和功率资源分配中。这种方法使用潜在空间作为超参数，提供了一个最优的重建成本矩阵，以协助资源分配决策。

在联合计算和通信资源分配领域，由于UV的独立性质和电池限制，有效管理的重要性在UV中得到了强调。一种基于扩散模型的方法提出了一种先进的方法，为传输语义信息设计最优能量分配策略。这种模型的关键优势是其能够迭代地细化功率分配，确保在UV群的动态环境引起的变化条件下传输质量最优化。

LLM的整合探索提升了GAI在多智能体UV群中任务和资源分配的能力。使用LLM的高级决策制定和分析能力，为每个用户创建了独立的LLM实例，将原始意图“减少网络能耗∆p = 0.85W”分解为一系列详细任务，例如调整传输功率和信道测量。然后，结果会提示LLM，它将添加后续任务并指导相关执行者采取行动。通过LLM的整合，无人机代理能够在2轮内实现功率节省目标。尽管进一步的模拟结果表明，当前的GPT-4在代理数量增加时在维护多个目标方面存在一些困难。这种整合标志着UV群的自主性和功能性的显著进步。

网络覆盖和点对点通信

无人机群（UVs）的一个关键应用是作为移动基站，用于重建通信网络。在这种情况下，有效的定位策略对于确保通过有限数量的UV实现最大用户覆盖和无缝接入至关重要。此外，当UV群以分层结构部署时，主要的UV作为指挥中心，确保子UV之间的有效通信覆盖对于任务分配和协作至关重要。表VI展示了GAI如何通过多种方式解决高效的网络覆盖和车对车（V2V）通信的需求。

使用无人机作为移动站在动态无线通信中提供临时网络链接越来越受欢迎，但由于无人机高度的变化、移动模式、空间域干扰分布和外部环境条件等因素，优化网络可能变得复杂。为了解决在有限无人机的情况下的网络覆盖优化问题，作者提出了使用条件生成对抗网络（cGAN）。该框架包括一个用于模拟和预测最优网络配置的生成器，一个用于评估这些配置在现实世界场景中的效率的判别器，以及一个编码机制，确保适应性和可扩展性。基于cGAN的方法不仅确保了无人机的最佳定位，还简化了计算复杂性，实现了O(k^2)的时间复杂度。

在V2V通信领域，这是UV群安全导航的关键，车辆通常通过中继图像来通信环境数据。然而，这些图像可能因传输中断、环境噪声和车辆移动引起的噪声而损坏。为了解决这个问题，作者集成了生成扩散模型（GDM）进行图像恢复和网络优化。GDM使车辆能够将传输的图像恢复到原始质量，通过减少数据传输和通信延迟。基于随机微分方程的GDM的迭代特性，擅长改进车辆网络解决方案，尤其是在路径规划等领域。例如，GDM从初步路径开始优化，基于关键性能指标逐步改进。与传统的DQN方法[相比，基于GDM的方法在300个周期内平均累积奖励增加了100%。

安全/隐私

在UV群中，尤其是在军事和监控应用中，安全性和隐私性是至关重要的方面。GAI在这些领域的整合提供了创新的解决方案，用于增强系统安全性和确保隐私。如图6所示，一个有趣的潜在应用是利用GAI生成假数据或模拟通信活动，充当蜜罐以误导潜在攻击者并加强系统安全。LLM生成的蜜罐作为额外的保护层，散布虚假信息以混淆和困住攻击者，从而增强了群体的整体安全性。这种在群体网络内使用语言处理技术的方式展示了保护自主车辆免受复杂网络威胁的新领域。

例如，Auto-Driving GAN (ADGAN)是一种基于GAN的图像到图像翻译方法，旨在通过在图像中移除或修改背景建筑来保护车辆摄像头位置数据的隐私，同时保留识别其他对象（如交通标志和行人）的效用。语义通信作为一种有效手段，通过去除与任务无关的背景图像，增强了UV群的安全性。此外，ADGAN引入了多判别器设置，提高了图像合成性能，并提供了更强的隐私保护保证。

在轨迹数据隐私方面，TrajGANs被用来通过生成与真实数据具有相同分布的合成轨迹来保护轨迹数据的隐私。这些轨迹在隐藏用户个体位置和身份的同时，保留了真实数据的统计特性和人类移动模式。然而，TrajGANs可能在创建轨迹的密集表示方面面临挑战，特别是对于时间戳和路段，并且可能未能识别数据中的一些罕见或特殊事件。

为了进一步提高保护，作者提出了LSTM-TrajGAN框架。该框架由三部分组成：生成器生成并预测真实的轨迹配置，判别器将这些配置与真实数据比较以验证其真实性和效用，以及一个专门的编码机制，利用LSTM 循环神经网络对轨迹数据及其相应的时间戳进行时空嵌入。使用基于轨迹的用户链接（TUL）算法作为攻击者评估其隐私保护效果。在真实世界的语义轨迹数据集上评估，所提出的方法通过将攻击者的准确率从99.8%降低到45.9%，比传统的几何掩蔽方法（如随机扰动66.8%和高斯地理掩蔽48.6%）更好地保护了隐私。

VAE也被部署用于保护UV轨迹隐私。作者使用VAE创建合成车辆轨迹，通过向数据添加噪声来确保差分隐私。这种方法有助于有效隐藏车辆位置，但由于添加的噪声，可能会引入一些数据失真。Transformer在联邦学习中的使用，通过在网络中共享仅必要的数据特征来增强自动驾驶的隐私性。这种方法通过最小化敏感数据的暴露来提高隐私性，同时仍能实现协作决策和计算。

为了保护车辆网络安全，作者提出了一种基于Transformer的入侵检测系统，为车辆网络提供了复杂的解决方案。该系统利用自注意力机制分析控制器区域网络（CAN）消息，准确地将它们分类为各种车内攻击类型，如拒绝服务、欺骗和重放攻击。作者提出的另一种基于Transformer的模型是将Transformer集成到联邦学习设置中。这种方法通过在自主车辆网络中共享关键数据特征而不是原始数据，显著增强了隐私性，同时仍能实现协作决策和计算。

车辆安全与故障检测

车辆安全是包含系统故障检测、隔离和解决的另一个关键问题。与UV群的其他安全问题（如碰撞避免或为这些系统制定安全路径规划策略）不同，这些安全问题更多地与这些系统的自主性水平有关，UV安全研究强调了UV系统内部漏洞带来的独特挑战，包括算法和硬件故障。该领域的研究旨在通过开发方法和技术，使这些系统能够在不影响车辆性能或安全之前有效识别和纠正潜在故障，从而提高UV操作的整体可靠性和安全性。

监测UV系统的操作参数以进行故障检测对于确保其安全性和效率至关重要。已经提出了一种新的框架，该框架结合了LSTM网络和自编码器，能够从车辆性能数据中进行持续学习。这种框架增强了系统逐步识别和解决故障的能力。LSTM处理时间序列数据的能力使得这种方法在动态环境中特别有效，各种因素可以在动态环境中影响车辆性能。LSTM自编码器可以生成代表潜在故障场景的合成数据点，增强了训练数据集，允许模型从更广泛的条件中学习，并在基于模拟数据的情况下实现90%的检测精度和99%的分类不同类型无人机误操作的精度。这显著提高了UV系统的安全性和操作效率。

在随后的发展中，无人机故障检测和分类的进步，特别是通过基于FPGA的硬件加速提高了四倍的速度，同时减少了一半的能耗。这项研究进一步确定了GAI的一个关键考虑因素，即模型计算可以针对实时操作进行优化。在无人机群中的成功部署也表明，类似的策略可以提高GAI在动态环境和复杂任务协调中的性能。

VAE在UV群的故障和异常检测中提供了一种复杂的方法。作者通过在代表UV正常操作的数据上训练VAE提出了一种新方法。这种方法帮助VAE发展了对什么构成标准的理解。通过生成输入数据的重建并计算结果误差，基于VAE的方法平均检测故障和异常的精度达到了95.6%。利用VAE映射关系的能力的优势在于它们在揭示训练数据集中未出现或未考虑的新故障或问题方面的熟练程度。这一特性确保了基于VAE的系统能够在多样化和不可预测的场景中保持高水平的安全性和可靠性。尽管如此，必须承认VAE的性能可能会受到各种因素的影响，包括VAE模型本身的复杂性、用于训练的数据的质量和多样性，以及为标记重建误差作为潜在故障而设置的特定阈值。

另外作者利用时空变换器网络对电动车辆的电池故障诊断和故障预测进行了研究，由于其专业的架构，在跨多个空间和时间尺度提取关键特征方面表现良好。采用时空变换器网络对车辆的电池故障诊断和故障预测，在识别早期警告信号和预测不同空间和时间尺度上的故障方面表现出色。其使用板载传感器数据分析和预测电池故障演变的能力与UV的需求完全吻合，UV在很大程度上依赖于电池完整性进行操作。通过集成这样的模型，预测性维护策略得到了极大的增强，允许及早检测异常并在从24小时到一周的精确时间窗口内预测电池故障。这种方法不仅通过优化车辆时间表以减少停机时间来提高操作效率，而且在防范可能影响车辆安全的电池故障方面也起着至关重要的作用。

在UV操作中，确保安全性和可靠性不仅涉及检测故障，还包括隔离受影响的组件以防止进一步问题，并实施针对性的解决方案。例如，在相对较小的问题，如由于传感器故障导致信息丢失的情况下，利用VAE和GAN展示了GAI在故障管理中的创新应用。通过优化VAE-CGAN结构，这些模型可以重新生成缺失的时间序列数据，证明了它们在操作故障影响数据完整性的场景中的有效性。这个功能对于像基于无人机的农业监测这样的应用特别有益，其中数据收集的连续性至关重要。

在解决严重影响UV群操作的严重问题时，当前研究的一个有趣方面是为“在哪里坠毁”决策协议制定策略。这个概念解决了在发生严重故障时如何以及在哪里终止UV操作以最小化次生危害的预定义协议的需求。这些协议从无人机的紧急着陆区到USV和UUV的特定沉没点，以及UGV的控制停止措施。然而，这些预定义的协议可能无法适应所有可能的场景。因此，将GAI整合到UV群的故障管理策略中提供了一种先进的方法来提高安全性。例如，通过分析实时传感器数据并理解群动态的复杂性，变换器能够做出上下文感知的决策，准确识别受损UV的最安全终止点。整合这样的GAI不仅可以改善关键故障的管理，还可以降低次生事件的风险。

未来研究方向及机遇

生成式人工智能（GAI）在提升无人机群（UV swarms）的多个方面具有巨大潜力。然而，由于UV群的复杂和动态特性，需要解决一些问题，如下。

可扩展性

未来，一个UV群中可能会有大量的UV执行复杂任务，这些任务在具有挑战性的环境中进行，例如精准农业、环境监测、军事行动和快递服务。这为GAI在UV群中的发展引入了几个问题。具体来说，随着UV数量的增加，由于拥塞、延迟、信号干扰和有限的通信范围等各种因素，它们之间的运动和通信协调变得更加复杂。这要求开发新的GAI方法，能够迅速确定每个UV在这种复杂情况下的最佳移动和行动方案。一个潜在的发展方向是设计基于联邦学习的分布式GAI架构，用于不同无人群组之间的协作，而不是依赖单一的服务器/群领导者。通过这样做，计算负载可以在群领导者之间分配，实现不同无人群组之间更有效的学习和协作过程，特别是在大规模群设置中。

自适应GAI

在UV群中，由于UV的移动性和周围复杂环境，系统条件高度动态和不确定。尽管GAI具有处理这些不确定性的能力，但开发自适应GAI方法以进一步减少在新环境条件下重新训练GAI模型时的系统延迟至关重要，特别是在大规模无人群中。将GAI与AI的最新进展（如迁移学习和元学习）整合是一种潜在的解决方案。特别是，迁移学习旨在将从一个源环境中学到的知识转移到新环境中以促进类似任务的学习过程，而元学习旨在学习如何学习以加速新条件下的学习过程。这些技术可以帮助AI模型在新环境中用少量训练样本就能达到良好的训练准确性。此外，高级深度强化学习也可以整合到GAI模型中，以实现对UV群行为的实时学习和反馈。

本地AI的UV网络

在大规模和异构的UV网络中，能源效率、延迟和安全问题是协调本地和全球操作最关键的问题。在这种操作环境下，语义通信（SemCom）与在UVs之间共享的知识库（KB）是一个可行的解决方案，以最小化传输开销，通过消除与任务无关的信息来可靠地执行给定任务，这大大改善了能源效率、延迟和安全性的高要求。UV在资源和硬件方面都受到限制，因此实现能够启用具有共享KB的SemCom的本地AI的UV网络是一个挑战。值得注意的是，由于它们的移动性，物联系统（IoT）中的持续连接，即UVs本质上是面向任务的、动态的和短期的，通过SemCom实现上述目标在这种情况下至关重要。本文认为GAI方法是处理这种大规模和异构UV网络的动态和复杂环境的有效方法，值得进一步研究以实现本地AI的UV网络。

三维干扰控制

在大规模和异构的UV网络中，具有高移动性的资源受限的多个UV连接面临着分布在三维空间和时间域的动态干扰模式，因此需要进行精细的干扰控制，以协调和维护不同UV之间的通信，同时限制功率使用。特别是，高移动性使得在这种复杂环境中进行干扰控制具有挑战性，而GAI方法已被证明在调节三维覆盖范围内的动态干扰波动方面是有效的。

安全和隐私

如上所述，GAI可以通过生成合成数据来欺骗攻击者，从而帮助提高UV的安全性和隐私性。然而，GAI和AI通常容易受到对抗性攻击的威胁，攻击者试图通过污染训练数据、逃避训练模型和提取模型信息来破坏AI模型的训练过程。更危险的是，攻击者也可以利用GAI生成难以区分的“假”数据。此外，在资源受限的UV群中，例如无人机，由于缺乏计算和能源资源来执行复杂和高效的对策，单个车辆极易受到对抗性攻击和网络攻击的威胁。处理GAI中的对抗性攻击仍然是一个新的研究问题，文献中的努力有限。因此，迫切需要轻量级和有效的解决方案来提高UV群的安全性。一种潜在的解决方案是利用GAI来恢复被污染的训练数据。将深度强化学习与人类反馈整合也可能有助于击败对抗性攻击。而且可以采用联邦学习来增强无人群的隐私性，因为车辆的数据（例如，它们的传感数据和位置）不会与他人共享。

这些开放问题和未来研究方向为GAI在UV群中的应用提供了进一步探索和发展的机会，同时也指出了需要解决的关键技术和挑战。