Mobile-Agent-V:通过视频引导的多智体协作学习移动设备操作

25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。

移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。Mobile-Agent-V通过利用视频输入来增强任务执行能力,而无需专门的采样或预处理。Mobile-Agent-V集成滑动窗口策略,并结合视频智体和深度反思智体,以确保动作和用户指令对齐。通过这种创新方法,用户可以在指导下记录任务流程,使系统能够自主学习并高效执行任务。与现有框架相比,Mobile-Agent-V的性能提高30%。

用户每天执行大量操作,对移动设备的依赖性不断增加,这凸显简化交互的必要性。目前,人工智能推动移动自动化,提高生产力研究。ChatGPT 和 Claude 等系统使设备能够根据用户输入自主处理任务。

多模态大语言模型 (MLLM) 的发展显著改善移动设备操作框架,并使用这些模型作为智体 (Liu et al., 2023b; Zhu et al., 2023; Ye et al., 2023a; Dai et al., 2023; Liu et al., 2023a; Chen et al., 2023; Bai et al., 2023; Ye et al., 2023b; Wang et al., 2023; Lu et al., 2024a; Ye et al., 2024; Wu et al., 2024)。这些框架利用智体的感知、决策和反思来执行跨多个应用程序的复杂任务,从而拓宽移动设备的自主能力。

为了提高用户体验,基于大语言模型 (LLM) 的智体框架在 GUI 操作方面正在迅速发展 (Wang,2024d;Liu,2025)。在 Web 上,基于 HTML 的解析因其可解释性而占主导地位,而一些框架(例如 ChatGPT 的 Web 助手)则利用视觉感知 (Zhou,2023;Deng,2023;Zheng,2024;He,2024;Lù,2024;Yoran,2024;Reddy,2024)。相比之下,基于 PC 的框架,依靠系统 API 或自动化工具来增强控制和灵活性 (Zhang et al., 2024a; Tan et al., 2024; Xie et al., 2024)。在移动领域,一个关键挑战是让智体具备操作知识,而 LLM 通常缺乏这些知识。现有的方法包括:(1)在运营数据上训练模型,成本高昂且缺乏可扩展性(Hong et al., 2023; Cheng et al., 2024; You et al., 2024; Zhang et al., 2024b; Chen and Li, 2024; Lu et al., 2024b; Chai et al., 2024; Rawles et al., 2024; Xu et al., 2024; Li et al., 2024a; Wan et al., 2024; Xing et al., 2024; Liu et al., 2024); (2) 实现自主探索,但这是资源密集型的 (Yang et al., 2023; Wang et al., 2024c; Li et al., 2024b; Wang et al., 2025);(3) 手动生成知识,但效率低下,且依赖于迭代的人为干预 (Wang et al., 2024b)。

视频指导已成为训练智体的重要方式,使它们能够有效地理解动态环境并与之交互。早期的研究侧重于使用大语言模型 (LLM) 作为视频理解的中央智体。扩展这个想法,(Wang et al., 2024e) 可以提高长期时间理解能力。除了理解之外,视频指导还被用于现实世界的应用。(Wang et al., 2024a) 将 LLM 集成到视频编辑工作流程中,并自动执行基于语言的视频描述和编辑。同样,(Zhang et al., 2024c) 引入一种检索相关视频帧的有效方法,从而实现结构化视频处理。在机器人技术中,(Chane-Sane et al., 2023) 利用人类演示视频来教机器人新的操作技能,而无需明确的监督。这些研究展示视频引导状态日益增长的作用,从视频理解和检索到现实世界的任务执行,为更先进的多模式学习系统奠定基础。

尽管取得进展,但现有方法仍然受到有限操作知识的限制。如图所示,即使经过广泛的探索,当前的智体仍然难以完成诸如在拍照时禁用位置记录之类的任务。这种限制源于缺乏全面的训练数据、由于应用程序更新而导致学习的知识迅速过时以及无法访问特定于设备的操作信息。虽然 Odyssey 等方法利用外部任务路径,但它们面临着可扩展性和数据收集方面的挑战(Lu,2024b)。由于任务序列冗长,AppAgent 的自我探索成本高昂(Yang,2023),而 Mobile-Agent-V2 对手动编程的依赖仍然效率低下(Wang,2024b)。这些挑战凸显移动自动化需要更具可扩展性和适应性的解决方案。

请添加图片描述

Mobile-Agent-V 是一种通过视频指导增强移动自动化的框架。其关键组件包括视频处理、滑动窗口、视频智体、深度反思智体、决策智体,这些组件协同工作,提高运营效率和准确性。

Mobile-Agent-V 的整体工作流程如图所示。给定一个捕获演示任务的输入视频 V,系统首先通过均匀采样和冗余消除提取关键帧 F′。执行从位于关键帧序列开始处的初始滑动窗口开始。在每次迭代中,决策智体根据当前窗口、视频指令和历史决策生成动作 O_i。如果任务成功完成,则流程终止。否则,深度反思智体将验证并优化该动作以确保与演示任务保持一致。然后在设备上执行优化后的决策 RO_i,将其状态更新为 D_i+1。视频智体随后确定下一个窗口起点 S_i+1,以便在任务进展过程​​中动态调整观察范围。此迭代过程持续进行,直到任务完成或达到预定义的最大探索限制。

请添加图片描述

完整的流程在如下算法中概述:

请添加图片描述

视频处理

传统的均匀采样通常用于视频理解,它只对具有相对静态场景和帧间连续运动的真实世界视频有效。然而,在移动视频录制中,大多数帧保持静态,而其余帧由于间歇性的人机交互和快速的设备响应而快速变化。这使得均匀采样不足以满足移动设备视频的需求。

为了解决这个问题,首先以频率 d 对 V 进行均匀采样,以获得关键帧集 F。接下来,计算连续关键帧之间的相似度,并删除相似度高于阈值 s 的关键帧,从而得到一个简化的集合 F_s。最后,过滤掉时间间隔小于阈值 f_s 的关键帧,得到最终的关键帧集 F ′。

滑动窗口

为了提高 MLLM 对视频的理解能力,通过仅选择与当前操作相关的关键帧来减少输入长度。这是通过滑动窗口实现的,其中窗口的起点和终点之间的关键帧 V_w 作为决策的输入。

理想情况下,如果关键帧提取准确,窗口大小应为 2,覆盖操作前后的状态以预测状态转换。但是,为了增强鲁棒性,窗口大小通常大于 2,并且起点向后移动以捕捉先前的状态,从而获得更好的上下文。

决策智体

动作空间。决策智体负责生成改变设备状态的动作。为了确保通过操作工具无缝执行,采用与现有框架类似的动作空间。Mobile-Agent-V 定义六个基本动作:单击、滚动、键入、返回、主页和完成。它们分别对应于点击特定位置、沿指定方向滚动、在活动输入字段中输入文本、导航到上一页、返回主屏幕和完成任务。

决策。与依赖内部操作知识的先前方法不同,Mobile-Agent-V 中的决策智体直接从视频内容中得出动作。这对上下文遵循提出了更高的要求。通过利用滑动窗口机制,过滤掉不相关的帧,在保留关键信息的同时减少输入长度。

深度反思智体

即使使用滑动窗口,处理低质量的关键帧也需要增加窗口大小,因为较小的窗口可能由冗余帧主导,从而阻止关键关键帧被包含进来。在无法确保完美提取关键帧的情况下,决策智体在对长多帧序列进行推理时仍然面临挑战。为了解决这个问题,引入深度反思智体,它对决策智体的输出进行深入验证和改进。具体来说,它遵循一个结构化的过程:分析视频中的每个操作,识别记录序列中的当前设备状态,验证决策智体的操作是否与视频中的相应操作一致,如果检测到差异,则根据观察的轨迹改进操作。这种反思机制通过确保严格遵守演示的操作来提高决策准确性,从而最终得出改进的决策 RO_i。

视频智体

为了在整个任务执行过程中动态调整滑动窗口,引入了视频智体。最初,窗口从第一个关键帧跨越到第 W 个关键帧。每次操作后,视频智体都会分析操作前后的屏幕截图、当前窗口内的关键帧以及用户输入,以识别相应的关键帧。然后,它确定更新后的窗口起点,确保自适应前进。

此外,视频智体还可以处理异常情况,例如导致意外状态的错误转换或由冗余或缺失关键帧引起的差异。为了提高可靠性,它可以标记不一致并生成诊断反馈,从而促进错误恢复并提高决策稳健性。

将 Mobile-Agent-V 与几个开源智体框架进行了比较,包括 ApAgent(Yang,2023)、Mobile-Agent(Wang,2024c)和 Mobile-Agent-v2(Wang,2024b)。为了评估其从视频中学习操作知识的能力,引入人工策划的知识基线,其中专家手动从视频中提取关键操作步骤并将其作为文本输入提供。此文本替换 Mobile-Agent-V 中的视频输入。

Mobile-Agent-V 和基线都使用 GPT-4o 作为 MLLM,确保与基线保持一致。该模型通过官方 API 访问,具有默认超参数。

实验在 OnePlus 7 Pro 智能手机上使用 Android Debug Bridge (ADB) 进行交互,与基线保持一致。可点击位置从设备的 XML 层次结构中提取,在屏幕截图上进行视觉标记,并由智体用于精确的操作选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35852.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单片机开发资源分析的实战——以STM32F103C8T6为例子的单片机资源分析

目录 第一点:为什么叫STM32F103C8T6 从资源手册拿到我们的对STM32F103C8T6的资源描述 第二件事情,关心我们的GPIO引脚输出 第三件事情:去找对应外设的说明部分 前言 本文章隶属于项目: Charliechen114514/BetterATK: This is…

《基于Spring Boot+Vue的智慧养老系统的设计与实现》开题报告

个人主页:@大数据蟒行探索者 一、研究背景及国内外研究现状 1.研究背景 根据1982年老龄问题世界大会联合国制定的标准,如果一个国家中超过65岁的老人占全国总人口的7%以上,或者超过60岁的老人占全国总人口的10%以上,那么这个国家将被定义为“老龄化社会”[1]。 随着国…

微软OneNote无法同步解决方案

目录 前言原因UWP特性 解决方案C***h注册表 参考链接 前言 假设有多台Windows电脑,最方便且免费的多设备笔记同步方案就是微软自家的OneNote,使用OneDrive自带的5G云存储。 但是在国内大陆的OneNote,经常会出现无法同步、同步失败&#xff1…

硬件设计抽象级别详解:门级、RTL级、行为级与HLS

硬件设计抽象级别详解:门级、RTL级、行为级与HLS 引言 在数字系统设计领域,硬件描述语言(HDL)提供了多种抽象级别来描述电路功能和结构。从最底层的门级描述到高层的行为级描述,每一种抽象级别都有其特定的用途和优势。理解这些不同级别以及…

WPF程序使用AutoUpdate实现自动更新

AutoUpdate.NET使用 一、AutoUpdater.NET 简介 AutoUpdater.NET 是一个开源库,支持从各种源(如GitHub、FTP、HTTP服务器等)下载并安装更新。它提供了灵活的配置选项,允许开发者根据需求定制更新检查逻辑和用户体验。 二、安装 …

Qwen2-Audio:通义千问音频大模型技术解读

引言:从llm到mlm(audio) 大型语言模型(LLM)的发展日新月异,它们在文本理解、生成、推理等方面展现出惊人的能力。然而,交互模态不仅仅依赖于文字,语音、语调、环境音等听觉信息同样承载着丰富的内容。阿里巴巴通义千问团队,推出了 Qwen-Audio 系列模型,这里我们一起…

问题 | ACOS(X) 与 ACOSD(X)的区别

github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 [TOC](ACOS(X) 与 ACOSD(X)的区别) ACOSD(X) 是反余弦函数,结果以角度形式表示。ACOS(X) 用于计算 X 中每个元素的反余弦值。当 X 为复数时,结…

两款软件助力图片视频去水印及图像编辑

今天给大家分享两款呼声很高的软件,它们都能处理图片和视频去水印相关的问题。其中一款软件在去水印的同时,图像编辑功能也十分出色;另一款软件专注于图片和视频去水印,去除效果好且支持批量处理。下面就来详细了解一下。 Remover…

Hessian矩阵详解与应用

前言 本文隶属于专栏《机器学习数学通关指南》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见《机器学习数学通关指南》 ima 知识库 知识库广场搜索&#…

【软件系统架构】单体架构

一、引言 在软件开发的漫长历程中,架构的选择一直是至关重要的决策。单体架构作为一种经典的架构模式,曾经在许多项目中发挥着不可替代的作用。虽然如今微服务等架构逐渐流行,但理解单体架构对于深入掌握软件架构体系仍然有着重要意义。 二、…

[C++初阶] :从C到C++

目录 C发展史,C语言的特性C新增关键字namespace关键字C语言的命名缺陷(重定义现象)域与指定访问操作符 “::”命名空间域详解namespace std C的输入与输出函数重载什么是重载,重载的几种常见形态重载的作用注意不构成重载的情况 缺省参数1.全…

[快乐学坊management_1] With Cursor | Mysql设计 | 服务接口设计与开发

目录 数据库设计流程 三张表 测试 接口设计 部门管理接口文档 1. 查询所有部门 2. 新增部门 ⭕3. 根据ID查询部门 4. 修改部门 5. 删除部门 (部门分页条件查询) 错误响应示例 接口设计规范 服务端开发 接口开发 数据库设计流程 01 明确业…

实用插件推荐 -------- 一个可以将任意语言(python、C/C++、go、java等)的程序转换为汇编语言的小插件

链接为: Compiler Explorer 界面: 参考自:如何获取虚函数表及内存分析_com的虚函数表怎么寻找-CSDN博客

vue学习八

十七 组件通信方式 1 props 父传子 //父组件 <script setup>//book来源省略import Subview1 from ./Subview1.vue;function updatebook(updatetimes){book.value.updatetimes updatetimes} </script> <template><Subview1 :book"book" :upd…

51单片机的寻址方式(完整)

目录 一、立即数寻址 二、直接寻址 三、寄存器寻址 四、寄存器间接寻址 五、变址寻址 六、位寻址 七、指令寻址 &#xff08;一&#xff09;绝对寻址 &#xff08;二&#xff09;相对寻址 在 51 单片机中&#xff0c;寻址方式是指在执行指令时&#xff0c;CPU 寻找操作…

每日一题:动态规划

如题&#xff08;基础题&#xff09;&#xff1a; 经典的爬楼梯问题&#xff0c;先从递归想起&#xff1b; class Solution { public:int climbStairs(int n) {if(n1)return 1;if(n2)return 2;return climbStairs(n-1)climbStairs(n-2);} }; 之后可以想办法&#xff08;如哈希…

【论文阅读】FairCLIP - 医疗视觉语言学习中的公平性提升

FairCLIP - 医疗视觉语言学习中的公平性提升 1.研究背景与动机2.核心贡献3.方法论细节4.实验结果与洞见5.总结 FairCLIP: Harnessing Fairness in Vision-Language Learning FairCLIP - 医疗视觉语言学习中的公平性提升 Accepted by CVPR2024 github:链接 1.研究背景与动机…

Linux 入门:权限的认识和学习

目录 一.shell命令以及运行原理 二.Linux权限的概念 1.Linux下两种用户 cannot open directory .: Permission denied 问题 2.Linux权限管理 1).是什么 2).为什么&#xff08;权限角色目标权限属性&#xff09; 3).文件访问者的分类&#xff08;角色&#xff09; 4).文…

大语言模型的压缩技术

尽管人们对越来越大的语言模型一直很感兴趣&#xff0c;但MistralAI 向我们表明&#xff0c;规模只是相对而言的&#xff0c;而对边缘计算日益增长的兴趣促使我们使用小型语言获得不错的结果。压缩技术提供了一种替代方法。在本文中&#xff0c;我将解释这些技术&#xff0c;并…

Java高频面试之集合-14

hello啊&#xff0c;各位观众姥爷们&#xff01;&#xff01;&#xff01;本baby今天来报道了&#xff01;哈哈哈哈哈嗝&#x1f436; 面试官&#xff1a;为什么 HashMap 的容量是 2 的倍数呢&#xff1f; HashMap的容量被设计为2的幂次&#xff0c;主要基于以下原因&#xff…