ANDROIDWORLD: A Dynamic BenchmarkingEnvironment for Autonomous Agents论文学习

这个任务是基于androidenv的。这个环境之前学过,是一个用来进行强化学习的线上环境。而这篇文章的工作就是要给一些任务加上中间的奖励信号。这种训练环境的优点就是动态,与静态的数据集(比如说我自己的工作)不同,因此可以在更大更真实的任务上训练。

“我们改编了一个流行的桌面web代理来在Android上工作,我们发现它在移动设备上的效率较低,这表明未来的研究需要实现通用的,跨平台的代理。最后,我们还进行了鲁棒性分析,表明任务变化会显著影响代理性能,表明如果没有这样的测试,代理性能指标可能无法完全反映实际挑战。”

可以看到这篇工作的核心就是“评估”,如何去评估代理在实际工作中的表现。如果没有这个评估的话,强化学习就难以进行下去。现有的评估方法基本上就是拿人类范例比较,而且经常就只给一个标准答案。androidworld闪亮登场,为的就是解决这些问题。

之前有一些用人类品测或者LLM评测来作为中间奖励,但这样扩展性不太行。

“与现有的测试环境不同(miniwob++[48]是一个明显的例外),ANDROIDWORLD中的每个任务都是使用随机生成的参数动态实例化的,具有数百万个独特任务目标和条件的代理。MiniWob++由简单的合成网站组成,而ANDROIDWORLD利用了实际的Android应用程序。ANDROIDWORLD必须解决的一个主要挑战是,如何确保在使用现实世界的应用程序和动态变化的任务参数时,奖励信号是持久的。ANDROIDWORLD的关键见解是利用Android操作系统的广泛和一致的状态管理功能,使用与应用程序本身使用相同的机制来存储和更新数据。”

androidworld只需要2GB内存和8GB硬盘。除了116个Android任务外,我们还通过集成miniwob++[48,34]基准将ANDROIDWORLD扩展为web任务。

miniwob是啥?

MiniWoB(Miniature World of Bits)是一个微型的基准测试环境集合,用于在网页环境下研究和测试强化学习(Reinforcement Learning,RL)算法。MiniWoB 提供了一系列简单的网页任务,主要用于研究智能体(agent)在网页操作、任务完成和用户界面交互中的表现。这些任务通常基于一些典型的网页活动,如点击按钮、输入文本、选择下拉菜单等。”

简单来说就是一个在网页环境下的类似于androidenv的东西。

“为了证明ANDROIDWORLD作为基准的实用性,我们构建并发布了一个多模态代理M3A (Android的多模态自治代理),并在ANDROIDWORLD上建立了最先进的结果。我们使用多模态和纯文本输入分析了M3A(Multimodal Autonomous Agent for Android)的性能,我们观察到,虽然多模态感知在某些情况下可以提高性能,但它通常不会优于纯文本方法。”

纯文本目前还是效果更好的办法,多模态战未来。

“总的来说,我们做出了以下贡献:(i)创建了一个新的,高度多样化和逼真的移动UI控制代理环境;(ii)用最先进的多模态智能体建立基准性能,(iii)仔细分析表明,由于模型和环境中固有的随机性,需要在不同的任务参数和条件下评估智能体。”

首先介绍一下androidworld怎么和android设备交互。

“ANDROIDWORLD为代理提供了一个接口来接收观察并在Android上执行操作。它使用AndroidEnv[58]和Android Device Bridge来促进Android和代理之间的交互。观察空间由全分辨率屏幕截图和为可访问性目的开发的UI树表示组成。操作空间类似于人类使用的空间,由手势(如轻敲、长按和滑动)、输入和导航按钮(如回家和返回)组成。除了这些自然的动作之外,ANDROIDWORLD还公开了一组有限的调用api的函数,比如发送文本消息,以帮助代理完成目标。”

下面是一些例子:

可以看到,这样子就可以通过不断地修改一些细节的方法排列组合出海量的任务了。

“除了管理应用程序和操作系统的状态,ANDROIDWORLD精确地定义和控制任务执行期间的状态。每个任务都有自己独特的设置、奖励决定逻辑和拆除程序(详见附录C.2和C.3),以确保完全可复制的任务套件。”

这种方法提供了对代理适应性的更细粒度的分析——这是实际部署的一个重要属性。除了测试智能体鲁棒性之外,任务的动态构建支持在线学习方法的使用,特别是强化学习[48,34,23,18]。它还简化了不同训练/测试数据集的生成,便于监督学习实验[23,47,15]。

”可以用来生成数据集,完美。

“ANDROIDWORLD通过使用Android调试桥(adb)管理应用程序状态来提供奖励信号。通过adb工具,ANDROIDWORLD可以完全访问系统资源,包括文件系统、应用程序数据库和系统设置。从系统状态确定奖励信号有几个好处。它是高度精确的,因为应用程序的状态可以使用与应用程序本身相同的机制来快速检查和操作。使用底层系统状态比匹配表面的UI更改要持久得多。”

归根结底还是要用adb,不可能不用的啦。

同时本片工作还结合了miniwob,并将其命名为mobileminiwo++。每个mobileminiwo++任务使用标准ANDROIDWORLD接口实例化,继承自TaskEval基类,并包含initialize state和is successful等方法。由于miniwo++利用JavaScript进行任务配置和成功检测,文章构建了一个WebView应用程序来在Python和应用程序之间进行通信。例如,每个任务的is_success()函数通过Android意图从WebView应用程序中检索奖励值。

下面介绍一下本文使用的模型:

我们为Android开发了一个多模式自主代理M3A。它是zero-shot,集成了ReActstyle[72]和reflection style[49]的提示,以消费用户指令和屏幕内容,推理,采取行动,并根据其行动的结果更新其决策

在第一阶段,M3A生成一个以JSON表示的操作,并对该操作进行解释(当然模型有收到截图,边界标记和UI结构树)。文章还做了一个纯文本版本的。代理每做一个动作或者是观察了当下成功或失败的情况都要做出解释。

(好家伙,都用的付费模型,没用过自己的)

“我们观察到,在应用筛选启发式删除不可交互元素后,大多数屏幕包含的候选元素少于50个。”

agent目前暴露出的问题:

“代理很难理解移动ui,通常无法检测到完成任务所必需的视觉线索(参见图6a)。此外,智能体与特定的UI模式和功能支持作斗争,当它们犯推理错误时(参见图6b),它们通常缺乏像人类一样探索和适应的能力(参见图6c)。此外,智能体有时难以处理仅仅涉及确认系统状态的任务,例如确认WiFi是否打开,这表明在任务和屏幕理解方面都存在挑战。”

而且模型定位能力堪忧,记性也不好。大模型动作还很慢。

后续实验发现修改任务的参数对模型的性能有很大影响。可见模型有不确定性,模型自己的鲁棒性不强。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/468588.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为ENSP--ISIS路由协议

项目背景 为了确保资源共享、办公自动化和节省人力成本,公司E申请两条专线将深圳总部和广州、北京两家分公司网络连接起来。公司原来运行OSFP路由协议,现打算迁移到IS-IS路由协议,张同学正在该公司实习,为了提高实际工作的准确性和…

python-26-Python ORM系列之pymysql实现对数据库的增删改查及新建表

python-26-Python ORM系列之pymysql实现对数据库的增删改查及新建表 一.简介 在Python基础系列ORM部分我们为大家介绍了如何搭建MySQL数据和MySQL一些访问配置,同时细节的同学应该已经了解到了ORM的2个库pymysql和sqlalchemy; PyMySQL — MySQL 数据库…

ADSP21489 M25P16启动后无法使用USBi的问题

项目背景是ADSP21489 使用SPI MASTER 启动模式,程序存储在M25P16中 编译cces产生运行代码 第二步,插上USBi仿真器下载sigma topo 发现无法正常下载 操作多次发现需要目标板重新上点后需要拔插usbi才能下载和启动dsp程序 原因分析: 就是第一次插上usbi后,在给目标板上电,可…

量子计算包kaiwu安装过程踩过的坑

目录 1 安装过程 2 官方代码测试 3 踩坑说明 首先,目前的kaiwu版本仅支持python3.8,所以必须要下载python3.8才能运行kaiwu 1 安装过程 step1: 在页面的SDK标签下,找到对应操作系统的kaiwu包。 step2: 下载python3.8到本地,可…

线程相关概念

线程概念 线程是操作系统中一种基本的执行单元,是程序的最小调度单位。一个程序可以包含多个线程,每个线程代表一个独立的执行路径,使得程序可以并发地处理多个任务。 线程的基本概念 线程与进程的区别: 进程是资源分配的单位&…

SSH实验5密钥登录Linuxroot用户(免密登录)

当用户尝试通过SSH连接到远程服务器时,客户端会生成一对密钥:公钥和私钥。公钥被发送到远程服务器,并存储在服务器的~/.ssh/authorized_keys文件中。而私钥则由客户端保管,不会传输给服务器。 在连接过程中,客户端使用…

域名邮箱推荐:安全与稳定的邮件域名邮箱!

域名邮箱推荐及绑定攻略?最好用的域名邮箱服务推荐? 域名邮箱,作为一种个性化且专业的电子邮件服务,越来越受到企业和个人的青睐。烽火将详细介绍域名邮箱登录的全过程,从注册到登录,帮助您轻松掌握这一重…

政治经济学笔记

【拯救者】政治经济学速成(基础习题) 研究生产关系必须联系生产力和上层建筑 1.生产力与生产关系 生产力代表生产的物质内容,生产关系是生产的社会形式。生产力决定生产关系,生产关系对生产力具有 反作用 *其中的”反作用”指的是…

《TCP/IP网络编程》学习笔记 | Chapter 7:优雅地断开套接字连接

《TCP/IP网络编程》学习笔记 | Chapter 7:优雅地断开套接字连接 《TCP/IP网络编程》学习笔记 | Chapter 7:优雅地断开套接字连接基于 TCP 的半关闭单方面断开连接带来的问题套接字和流针对优雅断开的 shutdown 函数为何需要半关闭?基于半关闭…

python | 包

1. 在python中什么是包? ​ 包是一种组织代码的方式,如下图所示红色部分目录mypackage就称为一个包,它之所以称为一个包完全是因为它里面有蓝色方框里的文件__init__.py。 ​ 这个目录被定义为一个包之后,我们就可以通过import来…

Qt信号和槽-->day04

Qt信号和槽 标准的信号和槽函数Qt中的槽函数Qt中的信号 connect案例 自定义信号和槽案例分析 信号槽的拓展信号连接信号案例 信号槽的两种连接方式Qt5中的处理方式Qt4中的处理方式Qt5处理信号槽重载问题案例 lambda表达式简单案例Qt中的应用 补充知识点 标准的信号和槽函数 QW…

Golang | Leetcode Golang题解之第552题学生出勤记录II

题目: 题解: const mod int 1e9 7type matrix [6][6]intfunc (a matrix) mul(b matrix) matrix {c : matrix{}for i, row : range a {for j : range b[0] {for k, v : range row {c[i][j] (c[i][j] v*b[k][j]) % mod}}}return c }func (a matrix) p…

腾讯首个3D生成大模型Hunyuan3D-1.0分享

Hunyuan3D-1.0是腾讯混元团队开发的首个同时支持文字、图像转3D的大模型,可以基于文本描述或单张图像生成3D模型。 Hunyuan3D-1.0采用了多视图生成和多视图重建两阶段的方法,能够从不同视角捕捉对象的纹理和几何信息。 在多视图生成阶段,Hu…

【JavaEE初阶 — 多线程】内存可见性问题 volatile

1. 内存可见性问题 内存可见性的概念 什么是内存可见性问题呢? 当一个线程对共享变量进行了修改,那么另外的线程都是立即可以看到修改后的最新值。在Java中,可以借助 synchronized、volatile 以及各种Lock 实现可见性。如果我们将变量声…

排序算法.

排序算法是最常用的一种算法.它解决的主要问题是在一定的时间复杂度和空间复杂度的条件下,对n个数按照一定的顺序进行排序.排序算法主要分为四大类,即插入类,交换类,选择类和归并类,不同的排序算法的时间复杂程度和空间复杂程度差别很大. 排序算法主要有以下几种: 1.插入类排…

iOS18.1通話錄音實測 錄音夠清晰 文字轉錄廣東話用唔到?

iOS 18.1功能實測|期待已久的通話錄音功能終在iOS18.1推出,讓用家可以在通話過程中輕鬆錄音,並附上逐字稿功能,為使用者提供更靈活的通話記錄方式。記者實測通話錄音功能,看看錄音清晰度、方便性、逐字轉錄的表現。 打…

403 Request Entity Too Lager(请求体太大啦)

昨天收到 QA 的生产报障,说是测试环境的附件上传功能报了 403 的错误,错误信息:403 Request Entity Too Lager。我尝试复现问题,发现传个几兆的文件都费劲啊,一传一个失败。不用说,项目用到 ng 代理&#x…

【C++】新手入门指南

> 🍃 本系列为初阶C的内容,如果感兴趣,欢迎订阅🚩 > 🎊个人主页:[小编的个人主页])小编的个人主页 > 🎀 🎉欢迎大家点赞👍收藏⭐文章 > ✌️ 🤞 &#x1…

ElasticSearch备考 -- Cross cluster replication(CCR)

一、题目 操作在cluster1(local)中操作索引task,复制到cluster2(remote)中 二、思考 CCR 我们可以对标MySQL 理解为为主从,后者备份。主节点负责写入数据,从/备节点负责同步时主节点的数据。 …

IDEA在编译时: java: 找不到符号符号: 变量 log

一、问题 IDEA在编译的时候报Error:(30, 17) java: 找不到符号符号: 变量 log Error:(30, 17) java: 找不到符号 符号: 变量 log 位置: 类 com.mokerson.rabbitmq.config.RabbitMqConfig 二、解决方案 背景:下载其他同事代码时,第一次运行&#xff0c…