AI智能体崛起:从“工具”到“助手”的进化之路

目录

AI智能体的崛起

AI智能体的定义与决策模型

AI智能体的特点与优势

AI智能体的应用与类型

面临的挑战

未来展望


近年来,人工智能领域的焦点正从传统的聊天机器人(Chat Bot)快速转向更具潜力的AI智能体(AI Agent)。作为大模型驱动的新兴产物,AI智能体正在重新定义人工智能的应用边界,成为科技行业的下一个风口。

AI智能体的崛起

AI智能体在技术与功能上的突破吸引了广泛关注。例如,AI智能体 Devin 被誉为“第一位由AI担任的软件工程师”,能够自主学习新技术、生成代码、调试bug以及部署应用,成为AI智能体的典型代表。这类智能体不仅可以代替现有的许多软件工具,还能帮助人类完成工作中的繁琐任务,如撰写文案、设计图纸、制作视频甚至编写代码。

OpenAI、微软、Meta和谷歌等科技巨头纷纷在AI智能体领域加速布局:

  • OpenAI 宣布将在2025年1月推出一款能够协助编写代码和规划旅行的AI智能体。
  • Anthropic 则发布了一款名为 Claude 3.5 Sonnet 的AI智能体,能够通过屏幕截图模拟人类与计算机的交互。
  • 微软 已组建全球最大的AI智能体生态系统,并通过 Copilot Studio 帮助企业打造定制化的AI智能体,赋予其执行复杂任务的能力。
  • 谷歌 的 Jarvis 项目将智能体嵌入 Chrome 浏览器,模拟人类操作,从分析内容到在线购物皆能胜任。

据 PitchBook 统计,过去一年,AI智能体领域的初创公司吸引的投资金额同比增长80%以上,相关交易数量达156笔,涵盖法律、税务等多个行业的智能体应用。

AI智能体的定义与决策模型

尽管AI智能体的研究仍处于早期阶段,但行业内已有一些较为一致的共识:

  • AI智能体是一种更先进的人工智能工具,能够感知环境、模拟人类思考与决策,执行复杂任务并从反馈中学习。
  • 它可与其他软件或工具交互,像职场助手一般处理简单任务或与专家协同解决复杂问题。

AI智能体的决策流程可以通过PPMA模型(感知 Perception、规划 Planning、记忆 Memory、行动 Action)来概括:

  1. 感知(Perception): 通过文本、图像或声音收集环境信息,为智能体理解世界提供基础。例如,自动驾驶中的雷达和摄像头。
  2. 规划(Planning): 根据目标制定决策并将复杂任务分解为可执行步骤,如AI项目管理工具规划任务时间表。
  3. 记忆(Memory): 包括短期和长期记忆,用于存储和检索信息。例如,科研智能体保存历史数据以加速新项目进程。
  4. 行动(Action): 根据规划执行具体操作,可涵盖物理行动或虚拟任务,如调用API获取实时数据。

AI智能体的特点与优势

为什么我们不用一个单独强大的AI,而要用到智能体?

我们告诉 AI 写代码并在第一次尝试时运行它。如果你使用 GPT-3.5 0 prompt,它的正确率是 48%。

GPT-4 做得更好,正确率达到了 67.7%,但如果你围绕 GPT-3.5 使用一个 Agent 工作流程,实际上它的表现甚至比 GPT-4 还要好。如果你将这种类型的工作流程应用于 GPT-4,它也表现得非常好。你会注意到,GPT-3.5 与一个 Agent 工作流程相结合实际上超过了 GPT-4 的表现

GPT-4工作得很好,但今天的使用场景仍然有限。而围绕Agent 搭建工作流程,可能比一个单独的模型带给我们更多惊喜。

相较于传统AI模型或聊天机器人,AI智能体具备以下显著特点:

  1. 执行复杂任务: 能够独立处理多步骤工作,如分析客户邮件、访问数据库、根据政策处理投诉等。
  2. 自主性强: 可在无人监督的情况下完成任务,例如销售领域的Agent Force智能体,能够预审业务线索并联系潜在客户。
  3. 工具调用: 能灵活使用网络搜索或编程工具解决问题,即使面对意外情况也能及时调整策略。

AI智能体的应用与类型

在设计AI智能体时,可选择多种开发模式,例如吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式:复盘 Reflection、工具调用 Tool Use、任务规划 Planning 及 工作流 Multiagent Collaboration。

1、复盘 Reflection:让 Agent 审视和修正自己生成的输出

我们并不能总是可靠地让AI工作,比起我们自己一行行的对比查询验证,你只需要写一个审查的 Agent ,就会很快获得生产力的提升。

更进一步,你可以有两个 Agent ,其中一个是代码 Agent ,另一个是批评 Agent 。这些可以是相同大模型 ,但也不同的方式进行提示。我们对一个说,你是专家级的代码撰写者。对另一个说,你是专家级的代码审查者,审查这段代码。

2、工具调用 Tool Use:LLM 生成代码、调用 API 等进行实际操作

在多模态模型出现之前,大模型普遍只能处理文字,并不能直接处理图像,所以唯一的选择是生成一个可以操纵图像的函数调用。很有趣的是,很多在使用方面的工作似乎都起源于视觉领域,因为在 GPT-4 等出现之前, LLM 对图像是盲目的,这就是使用工具,扩展了 LLM 可以做的事情。

3、任务规划 Planning:让 Agent 分解复杂任务并按计划执行

这是一个从 HuggingGPT 论文中改编的例子,你说,请生成一张图片,图片中的女孩在读书,而且与图像example.jpg中的男孩姿势相同,请用语音描述新图像。所以给出这样一个例子,今天有 AI Agent ,你可以决定首先需要做的是确定男孩的姿势。然后,找到正确的模型,可能在 HuggingFace 上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片,遵循指令。然后使用图像检测,最后使用文本到语音。

我们通过让AI实施一些行之有效的SOP来完成工作,等待一段时间,或许会有新的东西。

4、工作流 Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务

ChatDev 是一个多 Agent 系统的示例,你可以提示一个 LLM 有时表现得像软件工程公司的 CEO,有时像设计师,有时像产品经理,有时像测试人员。

通过提示 LLM 告诉它现在你是 CEO,现在你是软件工程师,它们合作,进行扩展的对话,以至于如果你告诉它,请开发一个游戏,开发一个多人游戏,它们实际上会花费几分钟编写代码,测试它,迭代它,并最终生成一个出人意料的复杂程序。

Agent 之间的合作能够带来更加丰富和多样的输入,而且因为它能够模拟出一个更加接近真实工作环境的场景,其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让 LLM 不仅仅是执行单一任务的工具,而是成为一个能够处理复杂问题和工作流程的协作系统。

这种方法的潜在价值巨大,因为它为自动化和提升工作流程的效率提供了新的可能性。例如,通过模拟一个软件开发团队的不同角色,一个企业可以自动化某些开发任务,从而加快项目的进度并减少错误。同样,这种多 Agent 合作方式也可以应用于其他领域,如内容创作、教育和培训、以及策略规划等,进一步拓宽 LLM 在各个行业的应用范围。

通过 Agent Reflection、规划与多 Agent 合作等设计模式,我们不仅能够提升 LLM 的性能,还能够拓展它们的应用领域,使它们成为更加强大和灵活的工具。随着这些技术的不断发展和完善,我们期待着未来 AI Agent 能够在更多的场景中发挥关键作用,为人们带来更加智能和高效的解决方案。

面临的挑战

尽管AI智能体潜力巨大,但目前仍存在一些难题:可靠性不足、跨平台与多模态能力不足 及隐私与安全问题等。

  • 问题1:可靠性不足

目前的AI智能体能够完成一些任务,但是并不可靠,正确率仍然远低于人类。比如说AI智能体可以生成代码,但是他们却并不知道该如何测试他们正在编写的代码,以及产生幻觉或者是分心。

与此同时,许多用户也并没有办法完全信任AI智能体,让AI智能体搜集资料是可行的,但让wan quan1负责撰写稿件是另外一回事。

  • 问题2:跨平台和多模态能力有待完善

我们缺乏一个跨平台的身份认证。李开复在潜望的采访提到,智能助手应该是跨平台的,它可以和任何平台、任何地方的智能助手或智能体连接;

但目前国内大部分应用并没有提供API接口,提供了访问功能也有限,导致AI智能体无法接入,获取各种类型的信息,完成跨平台服务。甚至很多只有APP端没有网页端,这导致大部分生成式AI产品,只能在自己的网站或者是应用上来提供服务。比如说你在ChatGPT的网站上聊天,让它生成旅行的建议,ChatGPT就会给你规划路线,建议游玩的景点,但是不能帮你预定门票和酒店。想要让AI像一个个人助理一样,就需要AI接入票务网站、酒店还有机票官网等等不同的平台。

另外还有一些系统,尽管说提供了接口,但是由于标准不够统一,可能会花费大量的时间和精力去做适配。

AI智能体在跨系统的过程当中,会遇到各种各样的难题,这也是为什么google们的AI智能体在尽可能的图片识别能力,通过屏幕的截图来访问不同的软件和网站。但是当下AI识别图片信息的成本要远远高于文字。以OpenAI为例,处理同样信息量的文字和图片,图片的成本是文字的几十倍甚至是上百倍。如果AI需要实时监控电脑屏幕的变化,那么消耗的成本还会进一步的上升。

  • 问题3:隐私与安全问题

一个时时监控你屏幕的AI智能体,你一定不放心它的隐私与安全问题。不论是智能助手还是智能体,互相之间的连接与通信应该是安全的,最好是端到端加密的。

未来展望

AI智能体的最终愿景是成为人类的全能助手,提升效率、降低成本并优化用户体验。例如,在度假规划中,智能体能够根据用户偏好推荐最佳航班和酒店,并完成行程安排。

从工具调用到多智能体协作,再到规划与复盘设计模式,AI智能体正展现出巨大潜力,逐步成为各行业中的关键技术推动者。尽管目前仍有许多问题亟待解决,但随着技术的不断发展,AI智能体必将在更多场景中释放更大价值,推动人类社会迈向更智能高效的未来。

参考文档及致谢:

吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果_澎湃号·湃客_澎湃新闻-The Paper

AI智能体下一步,模拟人机交互,所有人的工作流将被改变 

https://zhuanlan.zhihu.com/p/689492556?utm_medium=social&utm_psn=1756970518132240384&utm_source=wechat_session

One Agent For Many Worlds, Cross-Species Cell Embeddings, and more

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/478906.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RAG架构类型

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

jmeter基础06_(练习)常见的http请求

课程大纲 上节课已经尝试进行了get请求,获取网站http://httpbin.org/的首页。 本节课使用网站“httpbin.org”演示几种基础的http请求。post、put、delete方法使用方法相同,所以仅以post为例来演示。 本节课所有请求仅填写:请求行、请求体。j…

SycoTec 4060 ER-S德国高精密主轴电机如何支持模具的自动化加工?

SycoTec 4060 ER-S高速电主轴在模具自动化加工中的支持体现在以下几个关键方面: 1.高精度与稳定性:SycoTec 4060 ER-S锥面跳动小于1微米,确保了加工过程中的极高精度,这对于模具的复杂几何形状和严格公差要求至关重要。高精度加工…

MySQL系列之数据类型(Numeric)

导览 前言一、数值类型综述二、数值类型详解1. NUMERIC1.1 UNSIGNED或SIGNED1.2 数据类型划分 2. Integer类型取值和存储要求3. Fixed-Point类型取值和存储要求4. Floating-Point类型取值和存储要求 结语精彩回放 前言 MySQL系列最近三篇均关注了和我们日常工作或学习密切相关…

Spring |(五)IoC/DI的注解开发

文章目录 📚核心容器🐇环境准备🐇容器的创建方式🐇bean的三种获取方式🐇BeanFactory的使用 📚IoC/DI注解开发🐇环境准备🐇注解开发定义bean🐇纯注解开发模式&#x1f407…

Linux -日志 | 线程池 | 线程安全 | 死锁

文章目录 1.日志1.1日志介绍1.2策略模式1.3实现日志类 2.线程池2.1线程池介绍2.2线程池的应用场景2.3线程池的设计2.4代码实现2.5修改为单例模式 3.线程安全和函数重入问题3.1线程安全和函数重入的概念3.2总结 4.死锁4.1什么是死锁4.2产生死锁的必要条件4.3避免死锁 1.日志 1.…

AI时代的PPT革命:智能生成PPT工具为何备受青睐?

在日常工作和学习中,PPT是我们不可或缺的表达工具。制作一份精美的PPT常常需要耗费数小时,甚至几天的时间。从选择主题到调整排版,琐碎的细节让人筋疲力尽。但现在一种名为“AI生成PPT”的技术正悄然崛起,彻底颠覆了传统PPT制作的…

结构方程模型(SEM)入门到精通:lavaan VS piecewiseSEM、全局估计/局域估计;潜变量分析、复合变量分析、贝叶斯SEM在生态学领域应用

目录 第一章 夯实基础 R/Rstudio简介及入门 第二章 结构方程模型(SEM)介绍 第三章 R语言SEM分析入门:lavaan VS piecewiseSEM 第四章 SEM全局估计(lavaan)在生态学领域高阶应用 第五章 SEM潜变量分析在生态学领域…

CANopen多电机控制的性能分析

在 CANopen 总线上控制多台电机并实时获取位置和速度信息,通信速度受到总线带宽、电机数量、数据刷新频率等因素影响。在 LabVIEW 开发中,利用 PDO 优化数据传输,合理设置刷新周期,并结合高效任务管理,可以显著提高多电…

图论入门编程

卡码网刷题链接:98. 所有可达路径 一、题目简述 二、编程demo 方法①邻接矩阵 from collections import defaultdict #简历邻接矩阵 def build_graph(): n, m map(int,input().split()) graph [[0 for _ in range(n1)] for _ in range(n1)]for _ in range(m): …

政安晨【零基础玩转各类开源AI项目】探索Cursor-AI Coder的应用实例

目录 Cusor的主要特点 Cusor实操 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! Cursor 是 Visual Studio Code 的一个分支。这使我们能够…

Taro 鸿蒙技术内幕系列(三) - 多语言场景下的通用事件系统设计

基于 Taro 打造的京东鸿蒙 APP 已跟随鸿蒙 Next 系统公测,本系列文章将深入解析 Taro 如何实现使用 React 开发高性能鸿蒙应用的技术内幕 背景 在鸿蒙生态系统中,虽然原生应用通常基于 ArkTS 实现,但在实际研发过程中发现,使用 C…

二,[ACTF2020 新生赛]Include1感谢 Y1ng 师傅供题。

进入靶场后,发现tips可以点击 点击后进入此页面 猜测此为文件上传漏洞,构造payload,并成功得到base64编码后的源码 详解payload: php://filter/readconvert.base64-encode/resourceflag.php 1.php://filter是PHP中的一个流封装协议&#xf…

EXTI配置流程 含中断延时消抖点亮小灯

如图可知,配置流程分成以下一个部分 ①使能GPIO时钟 __HAL_RCC_GPIOA_CLK_ENABLE();// 打开时钟 ②初始化利用 HAL_GPIO_Init 一步到位,可以初始化外设GPIO的一切 4个参数 (引脚 Pull 这里选择的模式是从下面这几个里面选 速度&#x…

AIGC-----AIGC在虚拟现实中的应用前景

AIGC在虚拟现实中的应用前景 引言 随着人工智能生成内容(AIGC)的快速发展,虚拟现实(VR)技术的应用也迎来了新的契机。AIGC与VR的结合为创造沉浸式体验带来了全新的可能性,这种组合不仅极大地降低了VR内容的…

Docker部署mysql:8.0.31+dbsyncer

Docker部署mysql8.0.31 创建本地mysql配置文件 mkdir -p /opt/mysql/log mkdir -p /opt/mysql/data mkdir -p /opt/mysql/conf cd /opt/mysql/conf touch my.config [mysql] #设置mysql客户端默认字符集 default-character-setUTF8MB4 [mysqld] #设置3306端口 port33…

大语言模型LLM的微调代码详解

代码的摘要说明 一、整体功能概述 这段 Python 代码主要实现了基于 Hugging Face Transformers 库对预训练语言模型(具体为 TAIDE-LX-7B-Chat 模型)进行微调(Fine-tuning)的功能,使其能更好地应用于生成唐诗相关内容的…

解决SSL VPN客户端一直提示无法连接服务器的问题

近期服务器更新VPN后,我的win10电脑一致无法连接到VPN服务器, SSL VPN客户端总是提示无法连接到服务端。网上百度尝试了各种方法后,终于通过以下设置方式解决了问题: 1、首先,在控制面板中打开“网络和共享中心”窗口&…

《基于FPGA的便携式PWM方波信号发生器》论文分析(三)——数码管稳定显示与系统调试

一、论文概述 基于FPGA的便携式PWM方波信号发生器是一篇由任青颖、庹忠曜、黄洵桢、李智禺和张贤宇 等人发表的一篇期刊论文。该论文主要研究了一种新型的信号发生器,旨在解决传统PWM信号发生器在移动设备信号调控中存在的精准度低和便携性差的问题 。其基于现场可编…

基础入门-Web应用架构搭建域名源码站库分离MVC模型解析受限对应路径

知识点: 1、基础入门-Web应用-域名上的技术要点 2、基础入门-Web应用-源码上的技术要点 3、基础入门-Web应用-数据上的技术要点 4、基础入门-Web应用-解析上的技术要点 5、基础入门-Web应用-平台上的技术要点 一、演示案例-域名差异-主站&分站&端口站&…