淘汰ChatGPT的Auto-GPT是炒作?自己跑代码,不需要人类,GitHub已破5万星

902c12605fad068ac6431221d7c4e45d.jpeg


  视学算法报道  

编辑:编辑部

【导读】Auto-GPT究竟是一个开创性的项目,还是一个被过度炒作的AI实验?这篇文章为我们揭开了喧嚣背后的真相,并揭示了Auto-GPT不适合实际应用的局限性。

这两天,Auto-GPT——一款让最强语言模型GPT-4能够自主完成任务的模型,让整个AI圈疯了。

此前爆火的ChatGPT,唯一不太好用的地方,就是需要人类来prompt。

而Auto-GPT的一大突破是,可以让AI自我提示,就是说,这个AI完全不需要咱们人类了。

35c79fe23b722daa6dcf79158c220d2c.png

短短七天时间,它就在GitHub上获得了惊人star数(已经突破5万),并吸引了无数开源社区的关注。

ef27e43e7a41c1add41fdad941c8533d.png

项目地址:https://github.com/Torantulino/Auto-GPT?ref=jina-ai-gmbh.ghost.io

Auto-GPT到底有多火,看这张网友做的对比图就知道了——仅仅几天的时间,它就追平了某个红极一时项目差不多积攒了11年的star。

2013034d6a0788110c6a982824fda5c9.jpeg

不过,在为Auto-GPT狂欢的同时,我们也有必要退一步审视其潜在的不足之处,探讨这个「AI神童」所面临的局限和挑战。

近日,Jina AI CEO Han Xiao发表了一篇长文《揭秘Auto-GPT :生产陷阱的炒作和硬道理》,与我们深入探讨了Auto-GPT究竟是一个开创性的项目,还是另一个被过度炒作的人工智能实验。

c2018d8508a44771c0482af7e41ab5ae.jpeg

Auto-GPT是如何工作的?

不得不说,Auto-GPT在AI领域掀起了巨大的波澜,它就像是赋予了GPT-4记忆和实体一样,让它能够独立应对任务,甚至从经验中学习,不断提高自己的性能。

为了便于Auto-GPT是如何工作的,让我们可以用一些简单的比喻来分解它。

首先,想象Auto-GPT是一个足智多谋的机器人。

我们每分配一个任务,Auto-GPT都会给出一个相应的解决计划。比如,需要浏览互联网或使用新数据,它便会调整其策略,直到任务完成。这就像拥有一个能处理各种任务的私人助手,如市场分析、客户服务、市场营销、财务等。

具体来说,想让Auto-GPT运行起来,就需要依靠以下4个组件:

  1. 架构:

Auto-GPT是使用强大的GPT-4和GPT-3.5语言模型构建的,它们充当机器人的大脑,帮助它思考和推理。

  1. 自主迭代:

这就像机器人从错误中学习的能力。Auto-GPT 可以回顾它的工作,在以前的努力的基础上再接再厉,并利用它的历史来产生更准确的结果。

  1. 内存管理:

与矢量数据库(一种内存存储解决方案)集成,使Auto-GPT能够保留上下文并做出更好的决策。这就像给机器人配备了长时记忆,可以记住过去的经历。

  1. 多功能性:

Auto-GPT的文件操作、网页浏览和数据检索等功能使其用途广泛。这就像赋予机器人多种技能来处理更广泛的任务。

然而,这些诱人的前景可能还尚未转化为Auto-GPT真正可以实现的能力。

天价的成本

想要在现实的生产环境中使用Auto-GPT,首先面临的障碍便是其高昂的成本。

由于任务需要通过一系列的思维迭代来完成,为了供更好的推理和提示,模型每个step通常都会用尽所有token。

然而,GPT-4的token并不便宜。

根据OpenAI的说法,具有8K上下文窗口的GPT-4模型,对于提示部分,每1000个token收费0.03美元;而对于结果部分,每1000个token收费0.06美元。

而1000个token大概可以换算成750个英文单词。

315d4f3c88c088633fa1505ecf7906ec.png

让我们分解思维链中每个step的成本,假设每个动作都用尽了8000个token的上下文窗口,其中80%是提示(6,400个token),20%是结果(1,600个token)。

提示成本:6,400个token x 0.03美元/1,000个token = 0.192美元

结果成本:1,600 个代币 x 0.06 美元/1,000个token = 0.096美元

因此,每个step的成本就是:0.192美元  + 0.096美元 = 0.288美元

平均而言,Auto-GPT完成一项小任务需要50个step。

因此,完成单个任务的成本就是:50个step x 0.288美元/step = 14.4美元

VUEGPT THOUGHTS: Let's start by checking if there are any updates to VueJS. If there are, we can update to the latest version and proceed. Otherwise, we can move on to creating the TODO list website application.
REASONING: Starting with the most updated and stable version of the framework will ensure our project has the latest features, bug fixes and is properly supported. Creating the TODO list website application is our primary goal, so we can move on to that if there are no updates.
PLAN: 
-  Check for VueJS updates
-  Update to latest version if there are updates
-  If no updates, move on to creating the TODO list website application
CRITICISM: None
NEXT ACTION:  COMMAND = google ARGUMENTS = {'input': 'VueJS latest version update'}
Enter 'y' to authorise command, 'y -N' to run N continuous commands, 'n' to exit program, or enter feedback for VueGPT...

以VueGPT为例:这是一个Auto-GPT创建的AI,旨在使用Vue JS创建网站应用程序,我们来看看它在思维链中的一个step

而且这还是一次就能出结果的情况,如果需要重新生成,成本会更高。

从这个角度来看,Auto-GPT目前对大部分用户和组织来说,都是不现实的。

开发与生产

乍一看,花14.4美元来完成一项复杂的任务,好像并无不妥。

举个例子,我们首先让Auto-GPT制作一份圣诞节食谱。然后,再找它要一份感恩节食谱的话,猜猜会发生什么?

没错,Auto-GPT会按照相同的思维链从头再做一遍,也就是说,我们需要再花14.4美元才行。

但实际上,这两个任务在「参数」的区别应该只有一个:节日。

既然我们已经花了14.4美元开发了一种创建食谱的方法,那么再用化相同的钱来调整参数,显然是不符合逻辑的。

d049aed3e1eb9e5145e99e5fab09bbeb.png

想象一下,在玩《我的世界》(Minecraft),每次都要从头开始建造一切。显然,这会让游戏变得非常无趣

而这便暴露了Auto-GPT的一个根本问题:它无法区分开发和生产。

当Auto-GPT完成目标时,开发阶段就完成了。不幸的是,我们并没有办法将这一系列操作「序列化」为一个可重用的函数,从而投入生产。

因此,用户每次想要解决问题时都必须从开发的起点开始,不仅费时费力,而且还费钱。

这种低下效率,引发了关于Auto-GPT在现实世界生产环境中实用性的质疑,也突显了Auto-GPT在为大型问题解决提供可持续、经济有效的解决方案方面的局限性。

循环的泥潭

不过,如果14.4美元真的能解决问题,那么它仍然是值得的。

但问题在于,Auto-GPT在实际使用时,经常会陷入到死循环里……

f9784e2e81f9b9769995b2cefc35e330.png

6ca07a545efdd6838f64cbe2b9ccd30c.png

那么,为什么Auto-GPT会陷入这些循环?

要理解这一点,我们可以把Auto-GPT看作是依赖GPT来使用一种非常简单的编程语言来解决任务。

解决任务的成功取决于两个因素:编程语言中可用的函数范围和GPT的分治法能力(divide and conquer ),即GPT能够多好地将任务分解成预定义的编程语言。遗憾的是,GPT在这两点上都是不足的。

Auto-GPT提供的有限功能可以在其源代码中观察到。例如,它提供了用于搜索网络、管理内存、与文件交互、执行代码和生成图像的功能。然而,这种受限的功能集缩小了Auto-GPT能够有效执行的任务范围。

此外,GPT的分解和推理能力仍然受到限制。尽管GPT-4相较于GPT-3.5有了显著的改进,但其推理能力远非完美,进一步限制了Auto-GPT的解决问题的能力。

这种情况类似于尝试使用Python构建像《星际争霸》这样复杂的游戏。虽然Python是一种强大的语言,但将《星际争霸》分解为Python函数极具挑战性。

本质上,有限功能集和GPT-4受限的推理能力的结合,最终造成了这个循环的泥潭,使Auto-GPT在许多情况下无法实现预期的结果。

人类与GPT的区别

分治法是Auto-GPT的关键。尽管GPT-3.5/4在前任基础上有了显著的进步,但在使用分治法时,其推理能力仍然无法达到人类水平。

  • 问题分解不充分:

分治法的有效性在很大程度上取决于将复杂问题分解为较小、易于管理的子问题的能力。人类推理通常可以找到多种分解问题的方法,而GPT-3.5/4可能没有同样程度的适应性或创造力。

  • 识别合适基本案例的难度:

人类可以直观地选择适当的基本案例以得到有效的解决方案。相比之下,GPT-3.5/4可能难以确定给定问题的最有效基本案例,这会显著影响分治过程的整体效率和准确性。

  • 问题背景理解不充分:

虽然人类可以利用其领域知识和背景理解来更好地应对复杂问题,但GPT-3.5/4受其预先训练的知识所限,可能缺乏用分治法有效解决某些问题所需的背景信息。

  • 处理重叠子问题:

人类通常可以识别出解决重叠子问题时,并有策略地重用先前计算过的解决方案。而GPT-3.5/4可能没有同样程度的意识,可能会多次冗余地解决相同的子问题,从而导致解决方案的效率降低。

Vector DB:过度的解决方案

Auto-GPT依赖向量数据库进行更快的k-最近邻(kNN)搜索。这些数据库检索先前的思维链,并将它们融入到当前查询上下文中,以便为GPT提供一种记忆效果。

d6b7b06e10e1d40c73cf1d0cd4194609.png

然而,考虑到Auto-GPT的约束和局限性,这种方法被批评为过度且不必要地消耗资源。其中,反对使用向量数据库的主要论点源于与Auto-GPT思维链相关的成本约束。

一个50步的思维链将花费14.4美元,而一个1000步的链将花费更多。因此,记忆大小或思维链的长度很少超过四位数。在这种情况下,对最近邻点进行穷举搜索(即256维向量与10,000 x 256矩阵之间的点积)被证明是足够高效的,用时不到一秒钟。

相比之下,每个GPT-4调用大约需要10秒钟来处理,所以实际上限制系统处理速度的是GPT,而非数据库。

尽管在特定场景下,向量数据库可能在某些方面具有优势,但在Auto-GPT系统中实现向量数据库以加速kNN「长时记忆」搜索似乎是一种不必要的奢侈和过度的解决方案。

智能体机制的诞生

Auto-GPT引入了一个非常有趣的概念,允许生成智能体来委托任务。

虽然,这种机制还处于初级阶段,其潜力尚未被充分挖掘。不过,有多种方法可以增强和扩展当前的智能体系统,为更高效、更具动态性的互动提供新的可能性。

80a45434898bdb16d5e5dd9fcc550085.png

使用异步智能体可以显着提高效率

一个潜在的改进是引入异步智能体。通过结合异步等待模式,智能体可以并发操作而不会阻塞彼此,从而显著提高系统的整体效率和响应速度。这个概念受到了现代编程范式的启发,这些范式已经采用了异步方法来同时管理多个任务。

另一个有前景的方向是实现智能体之间的相互通信。通过允许智能体进行通信和协作,它们可以更有效地共同解决复杂问题。这种方法类似于编程中的IPC概念,其中多个线程/进程可以共享信息和资源以实现共同目标。

生成式智能体是未来的方向

随着GPT驱动的智能体不断发展,这种创新方法的未来似乎十分光明。

新的研究,如「Generative Agents: Interactive Simulacra of Human Behavior」,强调了基于智能体的系统在模拟可信的人类行为方面的潜力。

论文中提出的生成式智能体,可以以复杂且引人入胜的方式互动,形成观点,发起对话,甚至自主计划和参加活动。这项工作进一步支持了智能体机制在AI发展中具有前景的论点。

3521ae6b2493ac6e77184daaa5356bfd.gif

通过拥抱面向异步编程的范式转变并促进智能体间通信,Auto-GPT可以为更高效和动态的问题解决能力开辟新可能。

将《生成式智能体》论文中引入的架构和交互模式融入其中,可以实现大型语言模型与计算、交互式智能体的融合。这种组合有可能彻底改变在AI框架内分配和执行任务的方式,并实现更为逼真的人类行为模拟。

智能体系统的开发和探索可极大地促进AI应用的发展,为复杂问题提供更强大且动态的解决方案。

总结一下


总之,围绕Auto-GPT的热议引发了关于AI研究现状以及公众理解在推动新兴技术炒作中的作用的重要问题。

正如上面所展示的,Auto-GPT在推理能力方面的局限性、向量数据库的过度使用以及代理机制的早期发展阶段,揭示了它距离成为实际解决方案还有很长的路要走。

围绕Auto-GPT的炒作,提醒我们肤浅的理解可能让期望过高,最终导致对AI真正能力的扭曲认识。

话虽如此,Auto-GPT确实为AI的未来指明了一个充满希望的方向:生成式智能体系统。

最后,Han Xiao总结道:「让我们从Auto-GPT的炒作中吸取教训,培养关于AI研究的更为细致和知情的对话。」

这样,我们就可以利用生成式代理系统的变革力量,继续推动AI能力的边界,塑造一个技术真正造福人类的未来。

参考资料:

https://jina.ai/news/auto-gpt-unmasked-hype-hard-truths-production-pitfalls/

c114c6f76fb6a87e0816e59ecd8791ad.png

outside_default.png

点个在看 paper不断!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28844.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIPRM for ChatGPT 提示词模板扩展工具实践

(1)基本介绍 AIPRM for ChatGPT是一个Chrome浏览器扩展程序,基于Chromium内核开发的浏览器都可以使用该扩展,比如微软的Edge浏览器等。 在AIPRM的帮助下,我们可以在ChatGPT中一键使用各种专门为网站SEO、SaaS、营销、…

惊!掌握通义千问的关键,从这些必知内容开始!

今年快过半了,要说顶流话题还得是ChatGPT,相关话题的热度居高不下,而其从GPT-3.5到GPT-4的升级,也让我们深刻了解了什么叫一代版本一代神,从GPT-3.5到GPT-4,真的就是一个跨阶级式的升级。 技术内涵 ChatGPT…

讯飞星火大模型申请及测试:诚意满满

“ 大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加:keeepdance,备注:chatgpt,拉你进群。 最近国产大模型跟下饺子似,隔几天就发布一个。厂家发布得起劲&#xf…

拍摄电话?窃听邮件?了解社会工程学攻击和你可能受到的风险

数据来源 本文仅用于信息安全的学习,请遵守相关法律法规,严禁用于非法途径。若观众因此作出任何危害网络安全的行为,后果自负,与本人无关。 社会工程学 社会工程学-渗透测试 社会工程学作用 亦思社会工程学 你注册过哪些网站&…

文心千帆为你而来

1. 前言 3月16号百度率先发布了国内第一个人工智能大语言模型—文心一言。文心一言的发布在业界引起了不小的震动。而文心一言的企业服务则由文心千帆大模型平台提供。文心千帆大模型平台是百度智能云打造出来的一站式大模型开发与应用平台,提供包括文心一言在内的…

第二弹进阶吴恩达 ChatGPT Prompt 技巧

第一弹笔记在这里: 总结吴恩达 ChatGPT Prompt 免费课程 今天分享第二弹,进阶篇。 第一点,任务序列化。 通常看完一篇长文,脑子里往往充满无数疑问。急切想知道所有答案,必须列一个问题清单。对话式问法,对…

CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…

Python与ChatGPT

Python的用途非常广泛,很多应用场景都可以使用 python 来满足自己的需求,比如自己平常使用 Python 来做网络应用后端开发、做批量处理小工具、做测试软件等,而目前非常热门的 ChatGPT 也与 python 有很大的关系。 据了解,在ChatG…

IOS越狱---checkra1n windows系统越狱

本篇教程适用小白初次越狱,无高阶操作,大佬请止步,本篇教程可能没有任何能学习的地方,以下问题如有不清楚的地方欢迎加微信 vaintech讨论交流 首先介绍所需要的工具 一支U盘(2g以上)一台电脑要被越狱的手…

【iOS逆向】某App越狱检测

1.目标 此篇文本为入门文章,大家莫抱过多期望。此文章的目的是教大家如何从UI入手,去定位自己想要的东西。 2.操作环境 mac系统 frida-ios-dump:砸壳 已越狱iOS设备:脱壳及frida调试 IDA Pro:静态分析 3.流程 …

Chat-GPT 聚合平台 Poe:集成多个 AI 聊天机器人

Chat-GPT 聚合平台 Poe:集成多个 AI 聊天机器人 介绍 Poe 是知名问答社区 Quora 推出的 AI 平台——开放探索平台 (Platform for Open Exploration, Poe)。Poe 集成了多个基于大型语言模型的聊天机器人,包括 ChatGPT,以及 Sage、Claude、Dr…

越狱手机如何让APP绕过越狱检测

当你越狱之后,某些APP检测到你越狱后,一些功能就会被禁用,比如微信、支付宝的指纹支付,下面这款插件就会帮你绕过越狱检测,正常使用APP里面的所有功能。 文章目录 1. 环境2. Cydia简介3. 过程(Liberty为例)3.1. 添加添…

完美越狱来了,unc0ver 更新 7.0.0 版本,但是别着急冲

说起完美越狱, 仿佛是很久的事情了。 时隔多年,完美越狱终于来了。 Fugu14 完美越狱发布,unc0ver 7.0.0 版本发布。 完美越狱 先说说事情起因、经过、结果。 9月01日,开发者 Linus Henze 演示了 iOS 14.5.1 完美越狱的视频。…

iOS“远程越狱”间谍软件Pegasus技术分析

关注我的博客,访问更多内容! 背景:通过研究发现,用户点击短信内的链接后,攻击者就会利用3个0day漏洞,对用户手机“远程越狱”,然后安装间谍软件,随后就能对设备进行全面控制&#x…

20、Theos越狱调试Wallet

前面的总结中使用砸壳重签后的App进行调试,本篇在越狱环境下不重签App进行调试,但是还是需要砸壳获取Headers. 一、Cycript 1.1 在越狱环境中使用Cycript 在越狱环境上,安装Cycript插件.需要先安装adv-cmds插件,因为被Cycript插件所依赖、在Cydia中,安装Cycript 在设备中找到…

用上这几个开源管理系统做项目,领导看了直呼专业!

大家好,我是宝哥! SCUI Admin 中后台前端解决方案 SCUI 是一个中后台前端解决方案,基于 VUE3和 elementPlus 实现。使用最新的前端技术栈,提供各类实用的组件方便在业务开发时的调用,并且持续性的提供丰富的业务模板帮…

chatgpt赋能python:用Python自动答题,助你轻松应对各种考试

用Python自动答题,助你轻松应对各种考试 Python作为一门高效简洁的编程语言,被广泛运用于数据分析、Web开发等领域。同时,它也可以被用来进行自动化任务,例如自动化答题。这篇文章将介绍如何用Python自动答题,并提供一…

7分钟环游地球!ChatGPT开启时空传送门,输入地址一秒穿越

v 新智元 新智元 2023-05-20 21:27 发表于北京 新智元报道 编辑:桃子 拉燕 【新智元导读】7分钟环游世界,还是坐在家里的那种。 环游世界,或是很多人梦寐以求的人生。 无奈,身为打工人,又有多少人能真正得偿所愿。…

一文读懂什么是chatGPT

第一章:chatGPT是什么 ChatGPT是一种基于语言模型的对话生成系统。它是由OpenAI开发的,通过训练大规模的神经网络模型来实现。ChatGPT可以接收用户的输入,并生成与之相关的自然语言回复。它可以用于各种对话场景,如客户服务、虚拟…

今天,GPT-4登陆Office全家桶,打工人的生产方式被颠覆了

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 作者丨机器之心 编辑丨3D视觉工坊 点击进入—>3D视觉工坊学习交流群 未来和 AI 一起工作是这样的。 「用人工智能重塑生产力」,微软老早就在 3 月 16 日活动主题上为我们打了预防针&#xff0c…