比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行

家人们,苹果一直在悄悄进步!

近期,据小鹿观察,各大科技巨头不仅在提升模型解决复杂问题的能力上竞争激烈,而且还在大语言模型应用于用户界面(UI)交互方面上暗暗发力!

最近,Anthropic对其Claude3.5 Sonnet的UI交互功能进行了升级,而微软则推出了开源工具OmniParser,旨在将屏幕内容转换为结构化数据,以便更有效地利用。

能不能一键丝滑地集成这些大语言模型到系统级应用中应该是各大巨头的下一个赛点了!

苹果公司在产品交互上一直都坚持进步,今天小鹿发现苹果做了一个专门理解和与移动用户界面交互的模型Ferret-UI 2,这个模型不仅能“看懂”屏幕上的内容,还能理解用户的指令和问题,从而执行任务或提供信息。

意思是,这个模型用起来后能时刻观察你在手机屏幕上的一举一动,并时刻准备听你召唤提供帮助,执行任务。

根据官方论文的实验结果,在交互页面上的元素识别、意图识别,其测试得分达到了89.73,显著领先于GPT-4o的77.73分!

图片

创新点

Ferret-UI 2 实现了更准确地识别和理解不同设备和操作系统上的UI元素,从而执行复杂的用户中心交互任务。

主要优势有:

  • 多平台、跨设备支持:早期的 Ferret-UI 主要支持移动设备(如 iPhone 和 Android 手机)的UI理解,而 Ferret-UI 2 扩展到了平板(如 iPad)、网页和智能电视(如 Apple TV)等多种平台。其中,在iPhone端基本可以运行流畅,iPad端准确率达68%,安卓设备上的成功率达到71%。

图片

  • 高分辨率自适应:Ferret-UI 2可以适应不同分辨率的屏幕,可以在高清大屏或手机小屏上都保持准确的UI识别效果。无论屏幕大小或清晰度如何,它都能精准识别屏幕上的按钮、图标和文本等元素。

  • 支持更复杂的用户交互任务:Ferret-UI 2 不仅能执行基础点击和操作指令,还能理解更复杂的用户意图。模型能够根据用户的模糊指令做出准确响应。

实现方法

不同于传统的基于坐标点击的操作方式,Ferret-UI 2能够根据用户的自然语言指令自动定位并执行相应的操作

研究团队利用了GPT-4V生成训练数据,使得模型不仅能够识别UI元素,还能执行特定的操作,如滑动页面、填写表单和选择选项,提高了系统对界面元素之间空间关系的理解。

论文标题:《Multi-modal|UI Understanding, Multi-round Reasoning SegmentationFerret-UI 2: Mastering Universal User Interface Understanding Across Platforms》

论文链接:http://arxiv.org/abs/2410.18967v1

模型地址:https://huggingface.co/jadechoghari/Ferret-UI-Llama8b

图片

构建数据

为了训练一个强大的多平台UI理解模型,研究团队构建了自己的数据集,完整的数据集生成流程图如图2所示。

图片

原始注释收集。

用于训练Ferret-UI 2的数据来自不同平台类型的数据的组合,包括iPhone、Android、iPad、网页和AppleTV等。

图片

  • 研究团队在多种使用场景下收集的iPhone、iPad和AppleTV数据,并人工标注小部件边界框坐标和标签。为了节省标注成本,不收集文本注释,文本边界框被替换为使用OCR置信度阈值为0.5的屏幕范围内OCR检测到的文本和边界框。

  • 网页数据来源于WebUI数据集(Wu等,2023)。所有类型的UI小部件的边界框和非图片小部件的文本注释直接从源HTML视图层次结构树解析,提供高质量的注释。

  • Android数据的截图、边界框和文本注释是从RICO数据集转换而来的。

研究团队对所有收集的数据进行了筛选处理:

  • 筛除或调整超出预设边界的边界框,并在筛选后移除那些不再包含任何边界框的空白截图

  • 删除文本注释中含有超过5%非ASCII字符的截图

尽管数据来自不同的源头,其标签的类型也各不相同,但研究团队剔除了与研究关系不大的标签(如UI类型),并将剩余的标签统一归类到一个共有13个类别的标签体系中,包括:‘复选框’、‘按钮’、‘容器’、‘对话框’、‘图标’、‘页面控制’、‘图片’、‘分段控制’、‘滑块’、‘标签栏’、‘文本’、‘文本字段’和‘切换’,从而得到了一个包含原始UI小部件注释的跨平台统一数据集。

在此方法中,每个UI组件都被标记了角落式边界框和独特的数字标签,以便于识别。

此外,为了更好地区分空间接近或嵌套的组件,同一类的UI组件被标记以相同的颜色,从而增强了视觉提示的效果,帮助模型更有效地识别组件边界。

Ferret-UI2区分了基本和高级任务。

对于基本任务,Ferret-UI2将简单的引用和定位数据转换为对话形式,使模型能够对各种UI屏幕建立基本理解。

对于更侧重于用户体验的高级任务,Ferret-UI2采用了基于GPT-4o的“标记集视觉提示”技术来生成训练数据,并用单步用户中心交互取代了之前方法中简单的点击指令。在生成多轮感知和交互问答的训练样本时,他们采用了Set-of-Mark(SoM)视觉提示,如图3所示。

图片

模型架构

Ferret-UI 2 采用了创新的模型架构,如图4所示。

图片

Ferret-UI 2结合了 Any-Resolution(AnyRes)方法,增强了对指代和定位的处理能力,使编码器能够捕捉不同分辨率下的图像信息。该架构采用了自适应 N 网格机制,基于算法动态确定最优网格大小,以最小的分辨率失真和像素变化对屏幕截图的每个区域进行编码。

动态高分辨率图像编码模块利用 CLIP 图像编码器提取全局和局部特征,将这些特征送入大型语言模型(LLM),实现对高分辨率图像的编码。视觉采样器能够根据用户指令识别和选择相关的 UI 区域,输出对 UI 元素的感知或交互描述。

在生成训练数据时,Ferret-UI 2 使用 Set-of-Marks(SoM)视觉提示,增强了模型对 UI 元素空间关系的理解能力。型通过端到端的训练过程,直接从原始数据注释中学习,生成高质量的训练数据,并优化模型性能。

实验结果

为了评估Ferret-UI2的性能,研究团队构建了涵盖五个平台的45个基准测试,包括每个平台的6个基本任务和3个高级任务。结果表明,Ferret-UI 2在各类任务中的表现均优于Ferret-UI和GPT-4o,尤其是在用户指向和定位任务中,其准确率显著提高,远远超过了GPT-4o。

图片

结语

Ferret-UI 2改善了跨不同平台的用户界面(UI)理解和交互,支持多平台,具有高分辨率图像编码和自适应网格化功能,并且改进了数据生成。

大语言模型在人机交互中的体验优化确实是非常重要的!

随着技术的不断进步,人工智能系统正在朝着更加智能、自然和无缝的交互方向发展。现代应用程序已经扩展到多模态交互,包括视觉和语音识别,使用户界面能够更全面地理解用户的多维度需求。而像Ferret-UI这样的工作,就是在多模态交互的基础上,将大语言模型与设备无缝缝合,为自然语言、人类语音等原始交互信号无障碍驱动设备提供技术基础~

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/464843.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

InstructIR: High-Quality Image Restoration Following Human Instructions 论文阅读笔记

这是Radu大佬所在的Wrzburg大学的computer vision lab实验室发表在ECCV2024上的一篇论文,代码开源。文章提出了一种文本引导的All-in-One的restoration模型,如下图所示: 这个工作其实跟"InstructPix2Pix: Learning to Follow Image Edit…

解决使用Golang的email库发送qq邮件报错short response,错误类型为textproto.ProtocolError

问题阐述 使用email库发送QQ邮件,采用587端口: package mainimport ("fmt""net/smtp""github.com/jordan-wright/email" )func SendEmail(sendTo string, subject string, body string) (err error) {e : email.NewEmai…

【北京迅为】《STM32MP157开发板嵌入式开发指南》-第七十二章 Debian文件系统

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器,既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构,主频650M、1G内存、8G存储,核心板采用工业级板对板连接器,高可靠,牢固耐…

Spring框架的JDBC模板技术

目录 一、JDBC模板类的使用 1.引入依赖 2.测试类 3.运行,查看数据库 二、使用Spring框架来管理模板类 1.配置文件 2.测试类 3.运行,查看数据库 三、Spring框架管理开源的连接池 1.配置开源的连接池 2.将数据库连接的信息配置到属性文件中 3.核…

【万字详文介绍】:迭代扩张卷积神经网络(IDCNN)

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢…

2-Ubuntu/Windows系统启动盘制作

学习目标: 掌握使用Win32DiskImager、Rufus等工具制作系统启动盘的基本步骤。独立将ISO镜像文件写入USB闪存驱动器,确保在需要时顺利安装或修复系统。通过学习如何选择正确的源文件和目标驱动器,理解启动盘的使用场景和注意事项,…

简介Voronoi图Voronoi Diagrams

这是计算机的经典算法。 问题引入 倘若一张大白纸上有很多三角点,掉进去一个五星点,问,哪个三角离着五星最近?简单,算距离呗,这个五星到其他所有三角点的距离,找到最小的那个就行。 若掉进去…

【进阶sql】复杂sql收集及解析【mysql】

开发时会出现,必须写一些较复杂sql的场景 可能是给会sql的客户 提供一些统计sql 或是临时需要统计数据信息但是 开发一个统计功能有来不及的情况 也可能是报表系统组件 只支持 sql统计的情况 特地记录下这些sql 作为积累 substring 截取查询出的字符串&#xff…

SLF4J: Failed to load class “org.slf4j.impl.StaticLoggerBinder“

SLF4J常见问题 导入依赖&#xff1a; <dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version> </dependency> <dependency><groupId>org.slf4j</groupId><arti…

002-Kotlin界面开发之Kotlin旋风之旅

Kotlin旋风之旅 Compose Desktop中哪些Kotlin知识是必须的&#xff1f; 在学习Compose Desktop中&#xff0c;以下Kotlin知识是必须的&#xff1a; 基础语法&#xff1a;包括变量声明、数据类型、条件语句、循环等。面向对象编程&#xff1a;类与对象、继承、接口、抽象类等。…

RSTP的工作过程

RSTP简介&#xff1a; 生成树协议&#xff08;STP&#xff09;用于在网络中防止环路产生&#xff0c;但 STP 的收敛速度较慢。 RSTP&#xff08;Rapid Spanning Tree Protocol &#xff09;快速生成树协议&#xff1a;RSTP 是对 STP 的改进&#xff0c;它能在网络拓扑发生变化…

【IEEE出版 | EI稳定检索】2024智能机器人与自动控制国际学术会议 (IRAC 2024,11月29-12月1日)

2024智能机器人与自动控制国际学术会议 &#xff08;IRAC 2024&#xff09; 2024 International Conference on Intelligent Robotics and Automatic Control 官方信息 会议官网&#xff1a;www.icirac.org 2024 International Conference on Intelligent Robotics and Autom…

nginx 搭建网站

1.查看防火墙状态systemctl status firewalld 2.getenforce 3.安装nginx yum install nginx -y 4.网站信息 echo "welcome to yinchuankejixuanyuan" > /usr/share/nginx/html/index.html 5.查看命令状态 nginx -t 6.重启 systemctl restart nginx

从0开始搭建一个生产级SpringBoot2.0.X项目(八)SpringBoot 使用Redis

前言 最近有个想法想整理一个内容比较完整springboot项目初始化Demo。 SpringBoot使用Redis 缓存数据 一、 pom引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId>&…

Logstash 安装与部署(无坑版)

下载 版本对照关系&#xff1a;ElasticSearch 7.9.2 和 Logstash 7.9.2 &#xff1b; 官方下载地址 选择ElasticSearch版本一致的Logstash版本 https://www.elastic.co/cn/downloads/logstash 下载链接&#xff1a;https://artifacts.elastic.co/downloads/logstash/logst…

FBX福币交易所A股三大指数小幅低开 稀土永磁板块回调

查查配分析11月5日电 周二,A股三大指数小幅低开。沪指开盘跌0.10%报3306.81点,深证成指开盘跌0.09%报10653.20点,创业板指开盘跌0.05%报2184.90点。 FBX福币凭借用户友好的界面和对透明度的承诺,迅速在加密货币市场中崭露头角,成为广大用户信赖的平台。 来源:同花顺iFinD 盘面…

基于python深度学习的交通标志图像识别设计与实现,卷积神经网络(CNN)作为主要架构

摘要 随着自动驾驶技术的发展&#xff0c;交通标志的识别与理解在智能交通系统中扮演着越来越重要的角色。本文设计并实现了一个基于深度学习的交通标志图像识别系统&#xff0c;通过对交通标志识别基准数据集的分析与处理&#xff0c;建立了一套完整的图像识别流程。使用Pyth…

js WebAPI黑马笔记(万字速通)

此笔记来自于黑马程序员&#xff0c;pink老师yyds 复习&#xff1a; splice() 方法用于添加或删除数组中的元素。 注意&#xff1a; 这种方法会改变原始数组。 删除数组&#xff1a; splice(起始位置&#xff0c; 删除的个数) 比如&#xff1a;1 let arr [red, green, b…

跟李沐学AI:BERT

什么是NLP中的迁移学习 使用预训练好的模型来抽取词、句子的特征&#xff1a;Word2Vec或者预训练好的语言模型。 使用预训练好的语言模型&#xff0c;一般不会再对语言模型进行微调&#xff0c;即不进行更新。 Word2Vec一般用于替代embedding层 但是Word2Vec往往忽略了时序…

【ArcGIS】绘制各省碳排放分布的中国地图

首先&#xff0c;准备好各省、自治区、直辖市及特别行政区&#xff08;包括九段线&#xff09;的shp文件&#xff1a; 通过百度网盘分享的文件&#xff1a;GS&#xff08;2022&#xff09;1873 链接&#xff1a;https://pan.baidu.com/s/1wq8-XM99LXG_P8q-jNgPJA 提取码&#…