LLM之Agent(十四)| 字节开源ComputerUse纯视觉驱动GUI 智能体模型 UI-TARS

       Agent TARS 是字节跳动于 2025 年 3 月开源的多模态 AI 智能体,它能够像人类一样操作电脑、手机和网页,完成各种复杂任务。以下是其详细介绍:

一、简介

        Agent TARS 是一款开源的多模态 AI 智能体,能够基于视觉理解网页内容,并与浏览器、命令行和文件系统无缝集成,实现复杂任务的规划与执行。它旨在为用户提供高效、便捷的自动化体验,具有多模态交互能力、强大的任务规划与执行功能,以及高度的可扩展性和灵活性。

主要功能

  • 代理工作流:利用复杂的 agent 框架来创建 agent flow,帮助你完成任务的规划和执行 ,平滑地编排搜索 、 浏览 、 探索链接等任务,同时通过 Event Stream 与 UI 连接,并合成信息以产生最终输出;

  • 全工具支持(浏览器、CLI、文件等):利用复杂的代理框架来执行复杂的浏览器任务,例如 Deep Research 和其他 Operator 功能。还可以利用模型上下文协议 (MCP) 与各种工具无缝集成,包括搜索 、 文件编辑 、CLI 和编码;

  • 实时工件展示:为了增强用户对 AI 流程和结果的参与度,Agent TARS 应用程序提供了一个直观的流式用户界面,展示了浏览器和文档等多模式工件;

  • 浏览器操作:支持自动化网络交互,自行浏览网页执行任务;

  • 数据处理:实时数据分析,处理和分析数据;

  • 命令行支持:支持系统级操作,与命令行工具集成;

  • 文件系统操作:支持文件管理和输入/输出操作;

  • 代码生成与解释:智能代码合成,自动生成代码,并能解释和优化代码逻辑;

技术原理

  • 多模态感知与推理:Agent TARS 能够结合文字、图像、交互历史等多种模态信息,实时理解动态变化的界面,像人类大脑一样无缝协同工作;

  • 端到端任务执行:将感知、推理、动作执行等能力集成在一个模型内,能够直接接收自然语言指令和屏幕截图,输出鼠标点击、键盘输入等操作;

  • 自我学习与优化:具备自我学习和优化的能力,通过持续交互从错误中学习,越用越聪明;

应用场景

  • 网页自动化:自动浏览网页,提取信息,用于市场研究、新闻聚合或学术搜索;

  • 任务管理:规划和执行复杂任务,适用于项目管理、个人助理和自动化工作流;

  • 代码辅助:生成和优化代码,帮助软件开发、代码学习和教育;

  • 数据分析:实时处理数据,用于金融分析、市场趋势和数据可视化;

  • 人机协作:支持实时协作和知识共享,便于团队合作和教育辅助;

优势与创新

  • 纯视觉感知:像人类一样“看”懂界面,无需依赖 API 或解析底层代码,天然跨平台且抗界面变动;

  • 多模态推理:将多种能力集成在一个模型内,能够结合多种模态信息,实时理解动态变化的界面;

  • 自我进化能力:通过持续交互从错误中学习,越用越聪明;

  • 开源与免费商用:采用开源模式,并且免费商用(Apache 2.0 许可),促进技术的传播和创新;

        Agent TARS 凭借其强大的技术实力和创新特性,正在引领 AI 智能体技术的发展潮流,为个人用户和企业提供了高效、便捷的智能化解决方案。

二、使用

目前,Agent TARS 仅支持 macOS,其他平台的支持正在开发中!

下载地址:https://github.com/bytedance/UI-TARS-desktop/releases?q=Agent+Tars&expanded=true#/

当然,也可以使用Homebrew命令来安装桌面版

brew install --cask agent-tars

     在开始之前,需要设置一些必要的配置,可以点击左下角的按钮打开设置页面:

setting-icon.png

        然后,可以设置模型配置和搜索配置。对于模型配置,可以设置模型提供方和 对应的API Key:

model-config.png

对于 Azure OpenAI,需要设置更多参数,包括 apiVersion、deploymentName 和 endpoint。

搜索与AI Models配置类似,配置界面如下:

search-settings.png

之后,就可以开始quick start了

     可以在输入框中输入一个问题,然后按 Enter 键发送您的问题。示例如下:

first-journey.jpeg

       还支持 Human In the Loop,这意味着用户可以通过输入框与工作过程中的智能体进行交互。如果想改变当前 Agent 的工作方向,可以在顶部位置的特殊输入框里插入你的想法,然后按 Enter 发送你的想法。示例如下:

human-in-the-loop.jpeg

三、分享功能

可以通过顶部菜单上的共享按钮与他人共享您的线程。

有两种模式可以共享您的线程:

  • 本地 Html:Agent TARS 会将用户的线程捆绑成一个 html 文件,使用该文件与他人共享;

  • 远程服务器 URL:Agent TARS 将生成一个 url 供您与他人共享您的线程,Agent TARS 会将 html 包上传到远程服务器。

3.1 本地模式

local-share

3.2 远程模式

      对于远程共享模式,用户需要在共享模式中设置远程服务器 url:

remote-share

       然后,Agent TARS 将向远程服务器发布上传 html 包的请求,然后您可以与他人共享 URL。具体请求信息如下:

Method: POST

Body: 

file: the html bundle file(type: multipart/form-data)

Response: 

data: { url: string }

参考文献:

[1] 论文:https://github.com/bytedance/UI-TARS

[2] 桌面版:https://github.com/bytedance/UI-TARS-desktop

[3] 浏览器版:https://github.com/web-infra-dev/midscene

[4] 发布Blog:https://agent-tars.com/2025/03/18/announcing-agent-tars-app#/

[5] 示例演示:https://agent-tars.com/showcase#/

[6] GUI模型部署教程:https://bytedance.sg.larkoffice.com/docx/TCcudYwyIox5vyxiSDLlgIsTgWf#/

[7] UI TARS SDK:https://github.com/bytedance/UI-TARS-desktop/blob/main/docs/sdk.md#/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40162.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科技赋能|ZGIS综合管网智能管理平台守护地下城市生命线

地下管网作为城市公共安全的重要组成部分,担负着城市的信息传递、能源输送、排涝减灾等重要任务,是维系城市正常运行、满足群众生产生活需要的重要基础设施,是城市各功能区有机连接和运转的维系,因此,也被称为城市“生…

AI-Sphere-Butler之Ubuntu服务器如何部署Nginx代理,并将HTTP升级成HTTPS,用于移动设备访问

环境: AI-Sphere-Butler WSL2 Ubuntu22.04 Nginx 问题描述: AI-Sphere-Butler之Ubuntu服务器如何部署Nginx代理,并将HTTP升级成HTTPS,用于移动设备访问 解决方案: 一、生成加密证书 1.配置OpenSSL生成本地不加…

游戏引擎学习第180天

我们将在某个时候替换C标准库函数 今天我们要进行的工作是替换C标准库函数,这是因为目前我们仍然在使用C语言开发,并且在某些情况下会调用C标准库函数,例如一些数学函数和字符串格式化函数,尤其是在调试系统中,我们使…

C/S与B/S架构

目录 C/S架构 什么是C/S架构 优缺点 B/S架构 什么是B/S架构 优缺点 对比项C/S 架构B/S 架构安装相对复杂,要安装单独客户端软件易于安装,与平台无关,只需要浏览器软件部署和维护部署维护较为繁琐,升级难易于部署和维护&…

python之网络编程

网络编程 互联网时代,现在基本上所有的程序都是网络程序,很少有单机版 的程序了。 网络编程就是如何在程序中实现两台计算机的通信。 Python语言中,提供了大量的内置模块和第三方模块用于支持各种 网络访问,而且Python语言在网络…

@Autowired 和 @Resource 注解的区别

前言 Autowired 和 Resource 是 Spring 中用于依赖注入的注解,但两者在实现机制和使用方式上有显著差异。 主要区别 1.来源不同 Autowired:由 Spring 框架提供(org.springframework.beans.factory.annotation),与 S…

2024年数维杯数学建模B题生物质和煤共热解问题的研究解题全过程论文及程序

2024年数维杯数学建模 B题 生物质和煤共热解问题的研究 原题再现: 随着全球能源需求的不断增长和对可再生能源的追求,生物质和煤共热解作为一种潜在的能源转化技术备受关注。生物质是指可再生能源,源自植物和动物的有机物质,而煤…

计算机网络——物理层设备

目录 ​编辑 中继器 集线器(Hub) 集线器,中继器的一些特性 集线器和中继器不能“无限串联” 集线器连接的网络,物理上是星型拓扑,逻辑上是总线型拓扑 集线器连接的各网段会“共享带宽” 中继器 如果我们想要网络…

NVIDIA NeMo 全面教程:从入门到精通

NVIDIA NeMo 全面教程:从入门到精通 文章目录 NVIDIA NeMo 全面教程:从入门到精通目录框架介绍NeMo的核心特点NeMo的架构NeMo与其他框架的比较NeMo的模型集合NeMo的工作流程NeMo 2.0的新特性 安装指南系统要求使用Docker容器安装步骤1:安装Do…

Chrome 134 版本开发者工具(DevTools)更新内容

Chrome 134 版本开发者工具(DevTools)更新内容 一、隐私与安全面板 旧的 Security 面板已演变为隐私与安全面板,并新增了一个专注于隐私的部分。在该部分中,可以: 在 DevTools 打开时,临时限制第三方 Co…

顺序表和链表

目录 线性表顺序表概念与结构分类静态顺序表动态顺序表 动态顺序表的实现SeqList.hSeqLIst.c 和 test.c初始化SLInit增容SLCheckCapacity尾插SLPushBack打印SLPrint头插SLPushFront尾删SLPopBack头删SLPopFront查找SLFind任意插SLInsert任意删SLErase销毁顺序表SLDestroy 顺序表…

性能测试、负载测试、压力测试的全面解析

在软件测试领域,性能测试、负载测试和压力测试是评估系统稳定性和可靠性的关键手段。​它们各自关注不同的测试目标和应用场景,理解这些差异对于制定有效的测试策略至关重要。 本文对性能测试、负载测试和压力测试进行深入分析,探讨其定义、…

FPGA_YOLO(二)

上述对cnn卷积神经网络进行介绍,接下来对YOLO进行总结,并研究下怎么在FPGA怎么实现的方案。 对于一个7*7*30的输出 拥有49个cell 每一个cell都有两个bbox两个框,并且两个框所包含的信息拥有30个 4个坐标信息和一个置信度5个,剩下就是20个类别。 FPGA关于YOLO的部署 1…

Windows系统安装Node.js和npm教程【成功】

0.引言——Node.js和npm介绍 项目描述Node.js基于Chrome V8引擎的JavaScript运行环境,使JavaScript可用于服务器端开发。采用单线程、非阻塞I/O及事件驱动架构,适用于构建Web服务器、实时应用和命令行工具等npmNode.js的包管理器与大型软件注册表。拥有…

使用外部事件检测接入 CDH 大数据管理平台告警

CDH 大数据管理平台 CDH(Cloudera Distribution Hadoop)是一个企业级的大数据平台,由 Cloudera 公司提供,它包含了 Apache Hadoop 生态系统中的多种开源组件,并对其进行了优化和集成,以支持大规模数据存储…

Node.js的安装和环境配置

漂亮女同事想了解Node.js的安装和环境配置。首先,我说需要回忆一下自己安装Node.js的经历,确保步骤是正确的。可能用户是刚接触开发的新手,所以需要详细但清晰的指导。 首先,应该介绍Node.js是什么,不过用户可能已经知…

在普通用户下修改root用户密码

1 从普通用户切换到root用户 sudo -s 再输入密码。 2 输入passwd ,会提醒你输入当前用户密码,验证后会提醒你输入root用户密码。 3 切换到root用户,使用修改过的密码登陆。 4 成功进入root用户。

【#2】介绍第三方库

一、JsonCpp 库 🔥 JSONCPP 是一个开源的 C 库,用于解析和生成 JSON(JavaScript Object Notation)数据。它提供了简单易用的接口,支持 JSON 的序列化和反序列化操作,适用于处理配置文件、网络通信数据等场…

Qt开发:QInputDialog的使用

文章目录 一、QInputDialog的介绍二、 QInputDialog的基本用法三、使用 QInputDialog的实例四、QInputDialog的信号与槽 一、QInputDialog的介绍 QInputDialog 是 Qt 提供的一个对话框类,用于获取用户输入的文本、整数或浮点数。它提供了简单易用的静态方法和可定制…

SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测

SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测 目录 SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【SCI一区级】Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测(程…