Mobile-Agent-V：通过视频引导的多智体协作学习移动设备操作

25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。

移动设备使用量的快速增长，迫切需要改进自动化以实现无缝任务管理。然而，因缺乏操作知识，许多人工智能驱动的框架举步维艰。手写知识虽然有帮助，但劳动强度大、效率低下。为了应对这些挑战，Mobile-Agent-V，利用视频指导为移动自动化提供丰富且经济高效操作知识。Mobile-Agent-V通过利用视频输入来增强任务执行能力，而无需专门的采样或预处理。Mobile-Agent-V集成滑动窗口策略，并结合视频智体和深度反思智体，以确保动作和用户指令对齐。通过这种创新方法，用户可以在指导下记录任务流程，使系统能够自主学习并高效执行任务。与现有框架相比，Mobile-Agent-V的性能提高30%。

用户每天执行大量操作，对移动设备的依赖性不断增加，这凸显简化交互的必要性。目前，人工智能推动移动自动化，提高生产力研究。ChatGPT 和 Claude 等系统使设备能够根据用户输入自主处理任务。

多模态大语言模型 (MLLM) 的发展显著改善移动设备操作框架，并使用这些模型作为智体 (Liu et al., 2023b; Zhu et al., 2023; Ye et al., 2023a; Dai et al., 2023; Liu et al., 2023a; Chen et al., 2023; Bai et al., 2023; Ye et al., 2023b; Wang et al., 2023; Lu et al., 2024a; Ye et al., 2024; Wu et al., 2024)。这些框架利用智体的感知、决策和反思来执行跨多个应用程序的复杂任务，从而拓宽移动设备的自主能力。

为了提高用户体验，基于大语言模型 (LLM) 的智体框架在 GUI 操作方面正在迅速发展 (Wang，2024d；Liu，2025)。在 Web 上，基于 HTML 的解析因其可解释性而占主导地位，而一些框架（例如 ChatGPT 的 Web 助手）则利用视觉感知 (Zhou，2023；Deng，2023；Zheng，2024；He，2024；Lù，2024；Yoran，2024；Reddy，2024)。相比之下，基于 PC 的框架，依靠系统 API 或自动化工具来增强控制和灵活性 (Zhang et al., 2024a; Tan et al., 2024; Xie et al., 2024)。在移动领域，一个关键挑战是让智体具备操作知识，而 LLM 通常缺乏这些知识。现有的方法包括：（1）在运营数据上训练模型，成本高昂且缺乏可扩展性（Hong et al., 2023; Cheng et al., 2024; You et al., 2024; Zhang et al., 2024b; Chen and Li, 2024; Lu et al., 2024b; Chai et al., 2024; Rawles et al., 2024; Xu et al., 2024; Li et al., 2024a; Wan et al., 2024; Xing et al., 2024; Liu et al., 2024）； (2) 实现自主探索，但这是资源密集型的 (Yang et al., 2023; Wang et al., 2024c; Li et al., 2024b; Wang et al., 2025)；(3) 手动生成知识，但效率低下，且依赖于迭代的人为干预 (Wang et al., 2024b)。

视频指导已成为训练智体的重要方式，使它们能够有效地理解动态环境并与之交互。早期的研究侧重于使用大语言模型 (LLM) 作为视频理解的中央智体。扩展这个想法，(Wang et al., 2024e) 可以提高长期时间理解能力。除了理解之外，视频指导还被用于现实世界的应用。(Wang et al., 2024a) 将 LLM 集成到视频编辑工作流程中，并自动执行基于语言的视频描述和编辑。同样，(Zhang et al., 2024c) 引入一种检索相关视频帧的有效方法，从而实现结构化视频处理。在机器人技术中，(Chane-Sane et al., 2023) 利用人类演示视频来教机器人新的操作技能，而无需明确的监督。这些研究展示视频引导状态日益增长的作用，从视频理解和检索到现实世界的任务执行，为更先进的多模式学习系统奠定基础。

尽管取得进展，但现有方法仍然受到有限操作知识的限制。如图所示，即使经过广泛的探索，当前的智体仍然难以完成诸如在拍照时禁用位置记录之类的任务。这种限制源于缺乏全面的训练数据、由于应用程序更新而导致学习的知识迅速过时以及无法访问特定于设备的操作信息。虽然 Odyssey 等方法利用外部任务路径，但它们面临着可扩展性和数据收集方面的挑战（Lu，2024b）。由于任务序列冗长，AppAgent 的自我探索成本高昂（Yang，2023），而 Mobile-Agent-V2 对手动编程的依赖仍然效率低下（Wang，2024b）。这些挑战凸显移动自动化需要更具可扩展性和适应性的解决方案。

请添加图片描述

Mobile-Agent-V 是一种通过视频指导增强移动自动化的框架。其关键组件包括视频处理、滑动窗口、视频智体、深度反思智体、决策智体，这些组件协同工作，提高运营效率和准确性。

Mobile-Agent-V 的整体工作流程如图所示。给定一个捕获演示任务的输入视频 V，系统首先通过均匀采样和冗余消除提取关键帧 F′。执行从位于关键帧序列开始处的初始滑动窗口开始。在每次迭代中，决策智体根据当前窗口、视频指令和历史决策生成动作 O_i。如果任务成功完成，则流程终止。否则，深度反思智体将验证并优化该动作以确保与演示任务保持一致。然后在设备上执行优化后的决策 RO_i，将其状态更新为 D_i+1。视频智体随后确定下一个窗口起点 S_i+1，以便在任务进展过程中动态调整观察范围。此迭代过程持续进行，直到任务完成或达到预定义的最大探索限制。

请添加图片描述

完整的流程在如下算法中概述：

请添加图片描述

视频处理

传统的均匀采样通常用于视频理解，它只对具有相对静态场景和帧间连续运动的真实世界视频有效。然而，在移动视频录制中，大多数帧保持静态，而其余帧由于间歇性的人机交互和快速的设备响应而快速变化。这使得均匀采样不足以满足移动设备视频的需求。

为了解决这个问题，首先以频率 d 对 V 进行均匀采样，以获得关键帧集 F。接下来，计算连续关键帧之间的相似度，并删除相似度高于阈值 s 的关键帧，从而得到一个简化的集合 F_s。最后，过滤掉时间间隔小于阈值 f_s 的关键帧，得到最终的关键帧集 F ′。

滑动窗口

为了提高 MLLM 对视频的理解能力，通过仅选择与当前操作相关的关键帧来减少输入长度。这是通过滑动窗口实现的，其中窗口的起点和终点之间的关键帧 V_w 作为决策的输入。

理想情况下，如果关键帧提取准确，窗口大小应为 2，覆盖操作前后的状态以预测状态转换。但是，为了增强鲁棒性，窗口大小通常大于 2，并且起点向后移动以捕捉先前的状态，从而获得更好的上下文。

决策智体

动作空间。决策智体负责生成改变设备状态的动作。为了确保通过操作工具无缝执行，采用与现有框架类似的动作空间。Mobile-Agent-V 定义六个基本动作：单击、滚动、键入、返回、主页和完成。它们分别对应于点击特定位置、沿指定方向滚动、在活动输入字段中输入文本、导航到上一页、返回主屏幕和完成任务。

决策。与依赖内部操作知识的先前方法不同，Mobile-Agent-V 中的决策智体直接从视频内容中得出动作。这对上下文遵循提出了更高的要求。通过利用滑动窗口机制，过滤掉不相关的帧，在保留关键信息的同时减少输入长度。

深度反思智体

即使使用滑动窗口，处理低质量的关键帧也需要增加窗口大小，因为较小的窗口可能由冗余帧主导，从而阻止关键关键帧被包含进来。在无法确保完美提取关键帧的情况下，决策智体在对长多帧序列进行推理时仍然面临挑战。为了解决这个问题，引入深度反思智体，它对决策智体的输出进行深入验证和改进。具体来说，它遵循一个结构化的过程：分析视频中的每个操作，识别记录序列中的当前设备状态，验证决策智体的操作是否与视频中的相应操作一致，如果检测到差异，则根据观察的轨迹改进操作。这种反思机制通过确保严格遵守演示的操作来提高决策准确性，从而最终得出改进的决策 RO_i。

视频智体

为了在整个任务执行过程中动态调整滑动窗口，引入了视频智体。最初，窗口从第一个关键帧跨越到第 W 个关键帧。每次操作后，视频智体都会分析操作前后的屏幕截图、当前窗口内的关键帧以及用户输入，以识别相应的关键帧。然后，它确定更新后的窗口起点，确保自适应前进。

此外，视频智体还可以处理异常情况，例如导致意外状态的错误转换或由冗余或缺失关键帧引起的差异。为了提高可靠性，它可以标记不一致并生成诊断反馈，从而促进错误恢复并提高决策稳健性。

将 Mobile-Agent-V 与几个开源智体框架进行了比较，包括 ApAgent（Yang，2023）、Mobile-Agent（Wang，2024c）和 Mobile-Agent-v2（Wang，2024b）。为了评估其从视频中学习操作知识的能力，引入人工策划的知识基线，其中专家手动从视频中提取关键操作步骤并将其作为文本输入提供。此文本替换 Mobile-Agent-V 中的视频输入。

Mobile-Agent-V 和基线都使用 GPT-4o 作为 MLLM，确保与基线保持一致。该模型通过官方 API 访问，具有默认超参数。

实验在 OnePlus 7 Pro 智能手机上使用 Android Debug Bridge (ADB) 进行交互，与基线保持一致。可点击位置从设备的 XML 层次结构中提取，在屏幕截图上进行视觉标记，并由智体用于精确的操作选择。