爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长

机器之心报道

机器之心编辑部

《西部世界》的游戏逐渐走进现实。

我们能否创造一个世界?在那个世界里,机器人能够像人类一样生活、工作、社交,去复刻人类社会的方方面面。

这种想象,曾在影视作品《西部世界》的设定中被完美地还原出来:众多预装了故事情节的机器人被投放到一个主题公园内,它们可以像人类一样行事,记得自己看到的东西、遇到的人、说过的话。每天,机器人都会被重置,回到它们的核心故事情节中。

d9c6c3dec35df7fb0a502c4e52634102.png

《西部世界》剧照,左边人物为预装了故事情节的机器人。

再把想象力扩张一下:放在今天,如果我们想把 ChatGPT 这样的大语言模型变成西部世界的主人,又会怎么做?

在最近爆火的一篇论文中,研究者们成功地构建了一个「虚拟小镇」,25 个 AI 智能体在小镇上生存,它们不仅能够从事复杂的行为(比如举办情人节派对),而且这些行为比人类角色的扮演更加真实。

685292d445ebe52a7c55e50244a3879c.png

  • 论文链接:https://arxiv.org/pdf/2304.03442v1.pdf

  • Demo 地址:https://reverie.herokuapp.com/arXiv_Demo/

从《模拟人生》这样的沙盒游戏到认知模型、虚拟环境等应用,四十多年来,研究者们一直设想去创建能够实现可信人类行为的智能体。在这些设想中,由计算驱动的智能体的行为会与其过往经验一致,并对环境做出可信的反应。这种人类行为的模拟可以用现实社会现象填充虚拟空间和社区,训练「人们」去处理罕见但困难的人际关系、测试社会科学理论、制作理论和可用性测试的人类处理器模型、提供泛在计算应用和社交机器人动力,还能为在开放世界(Open World)中驾驭复杂人类关系的 NPC 角色奠定基础。

但人类行为的空间是巨大而复杂的。尽管在大型语言模型可以模拟单个时间点上的可信人类行为,但要想确保长期一致性,通用智能体需要一个架构来管理不断增长的记忆,因为新的互动、冲突和事件随着时间推移而出现和消退,同时还要处理多个智能体之间展开的级联社会动态。

如果一种方法能够在很长一段时间内检索相关的事件和互动,对这些记忆进行反思,并归纳和得出更高层次的推论,并应用这种推理来创建对当下和长期智能体行为有意义的计划和反应,那么距离梦想实现就不远了。

这篇新论文介绍了「Generative Agents」(生成式智能体),一种利用生成模型来模拟可信人类行为的智能体,并证明它们能产生可信的个人和突发群体行为的模拟:

  • 能够对自己、其他智能体和环境进行广泛的推断;

  • 能够创建反映自身特点和经验的日常计划,执行这些计划,做出反应,并在适当的时候重新计划;

  • 能够在终端用户改变环境或用自然语言命令它们时做出反应。

2ee6d1cb467baeb4cd5b71553300c8f9.png

「Generative Agents」背后是一个新的智能体架构,能够存储、合成和应用相关的记忆,使用大型语言模型生成可信的行为。

举个例子,「Generative Agents」如果看到它们的早餐正在燃烧,会关掉炉子;如果浴室有人,会在外面等待;如果遇到想交谈的另一个智能体,会停下来聊天。一个充满「Generative Agents」的社会是以新兴的社会动态为标志的,在这个社会中,新的关系被形成,信息被扩散,并在智能体之间产生协调。

具体而言,研究者在这篇论文中公布了几点重要细节: 

  • Generative Agents,是对人类行为的可信模拟,它以智能体不断变化的经验和环境为条件进行动态调整;

  • 一个新颖的架构,使 Generative Agents 有可能记住、检索、反思、与其他智能体互动,并通过动态演变的环境进行规划。该架构利用了大型语言模型的强大 prompt 能力,并对这些能力进行了补充,以支持智能体的长期一致性、管理动态演变的记忆能力,以及递归地产生更多的世代;

  • 两项评估(对照评估和端到端评估),确定架构各组成部分的重要性的因果关系,以及确定因记忆检索不当等原因而产生的故障;

  • 讨论了交互系统中 Generative Agents 的机会和伦理及社会风险。研究者认为应该对这些智能体进行调整,减轻用户形成寄生社会关系的风险,对其进行记录以减轻由 deepfake 和定制说服所带来的风险,并在设计过程中以补充而非取代人类利益相关者的方式进行应用。

文章一经发布,就引起了全网的热议。本就看好「AutoGPT」方向的 Karpathy 连连赞叹,认为「Generative Agents」比之前玩概念的「Open World」高了不是一点半点:

d49835597af34c11a0a0171ce5cd51af.png

更有研究者断言,这项研究的发布,意味着「大型语言模型实现了新的里程碑式进展」:

40365b0c5a45c6f35151740eb5699535.png

「Generative Agents」行为及其交互

为了使「Generative Agents」更加具体化,该研究将它们实例化为沙盒世界中的角色。

541aff992924a12986d3e0f0fcd71de3.png

25 个智能体居住在名为 Smallville 的小镇,每个智能体由一个简单的化身表示。所有的角色都可以:

  • 与别人和环境交流;

  • 记住并回忆它们所做的和观察到的事情;

  • 反思这些观察结果;

  • 制定每天的计划。

f642a20f42ae43200f746cb965a221b6.png

研究者用自然语言描述了每个智能体的身份,包括它们的职业以及与其他智能体的关系,并将这些信息作为种子记忆。举例来说,智能体 John Lin 有如下描述(本文截取了一段):

「John Lin 是一名药店店主,他乐于助人。他一直在寻找使客户更容易获得药物的方法。John Lin 的妻子是大学教授 Mei Lin ,它们和学习音乐理论的儿子 Eddy Lin 住在一起;John Lin 非常爱它的家人;John Lin 认识隔壁的老夫妇 Sam Moore 和 Jennifer Moore 好几年了……」

身份设定好之后,接着就是智能体如何与世界交互了。

在沙盒的每个 step 内,智能体都输出一个自然语言语句,以描述它们当前的动作,例如语句「Isabella Rodriguez 正在写日记」、「Isabella Rodriguez 正在查看邮件」等。然后这些自然语言被转化为影响沙盒世界的具体动作。动作以一组表情符号的形式显示在沙盒界面上,这些表情符号提供了动作的抽象表征。

为了实现这一点,该研究采用了一种语言模型,可以将动作转换为一组表情符号,这些表情符号出现在每个智能体化身上方的对话框中。例如,「Isabella Rodriguez 正在写日记」显示为 d2be59c166e2053c20a7e65e8995b517.png,「Isabella Rodriguez 正在查看邮件」显示为0afa75a83722aa612243d1ddb35db604.png 。 除此以外,通过单击智能体头像可以访问完整的自然语言描述。

智能体之间用自然语言进行交流,假如智能体意识到在其周围有其他智能体,它们会思考要不要走过去进行聊天。例如 Isabella Rodriguez 和 Tom Moreno 就即将到来的选举进行了对话:

c97eb5bbbca9fcf05ed3bb17ec89c663.png

除此以外,用户还可以指定智能体扮演什么角色,例如,指定其中一个智能体为记者,你就可以向该智能体咨询新闻方面的内容。

智能体与环境的交互

Smallville 小镇有许多公共场景,包括咖啡馆、酒吧、公园、学校、宿舍、房屋和商店。此外,每个公共场景还包括自身具有的功能以及对象,例如房子中有厨房、厨房中有炉子 (图 2)。在智能体的生活空间中还有床、桌子、衣柜、架子,以及浴室和厨房。

93995ede67c829601790340bb9496434.png

智能体可以在 Smallville 内随处走动,进入或离开一座建筑,导航前行,甚至去接近另一个智能体。智能体的移动由 Generative Agents 的架构和沙盒游戏引擎控制:当模型指示智能体移动到某个位置时,该研究会计算其在 Smallville 环境中到达目的地的步行路径,然后智能体开始移动。

此外,用户和智能体还可以影响该环境下其他物体的状态,例如,当智能体睡觉时床是被占用的,当智能体用完早餐冰箱可能是空的。最终用户还可以通过自然语言重写智能体环境。例如用户在 Isabella 进入浴室时将淋浴器状态设置为漏水,之后 Isabella 会从客厅找到工具并尝试修复漏水问题。

智能体一天的生活

从一段描述开始,智能体开始计划一天的生活。随着时间在沙盒世界中的流逝,智能体的行为随着彼此之间的交互以及与世界的互动、自身建立的记忆等逐渐改变。下图为药店店主 John Lin 一天的行为。

4c97a4a25e0f39a94be3389535d1ec9c.png

在这个家庭中,John Lin 早上七点第一个起床,然后刷牙、洗澡、穿衣服、吃早餐,接着在客厅的餐桌旁浏览新闻。早上 8 点,John Lin 的儿子 Eddy 也跟着起床准备上课。他临出门时和 John 进行对话,内容为:

e5d107e3de3c9494fbf0c8ed8358a1f4.png

Eddy 出发后不久,他的妈妈 Mei 也醒了过来,Mei 问起儿子,John 回忆起它们刚刚的对话,然后有了下面对话

ac254d8278c048b3ac012441a2bc1ee2.png

社交能力

除此以外,「Generative Agents」还表现出社会行为的涌现。通过相互交互,「Generative Agents」在 Smallville 环境下交换信息,形成新的关系。这些社会行为是自然产生的,而不是预先设定好的。例如当智能体注意到对方的存在时,可能会进行一场对话,对话信息可以在智能体之间传播。

让我们看几个例子:

信息传播。当智能体注意到对方,它们可能会进行对话。当这样做时,信息可以从智能体传播到另一智能体。例如,在 Sam 和 Tom 在杂货店的对话中,Sam 告诉了 Tom 他在当地选举中的候选资格:

9f62c8f244d9f40f5cf1e6a4bfb99494.png

95ac49a149e9ddf0796b2a87ead691fd.png

当天晚些时候,在 Sam 离开后,从另一个渠道听到消息的 Tom 和 John 讨论了 Sam 赢得选举的机会:

420680468233261fabcee223015bab18.png

ee5e8a166e09db47ab683120ccf85f03.png

渐渐地,Sam 的候选资格成为了镇上的话题,有人支持他,也有人犹豫不决。

关系记忆。随着时间的推移,小镇上的智能体形成了新的关系,并记住了它们与其他智能体的互动。例如,Sam 一开始并不认识拉 Latoya Williams。在约翰逊公园散步时,Sam 碰到了 Latoya,互相做了自我介绍,Latoya 提到自己正在进行一个摄影项目:「我在这里为正在进行的一个项目拍摄照片。」在后来的互动中,Sam 与 Latoya 的互动表明了对这件事的记忆,Sam 问道:「Latoya,你的项目进展如何?」Latoya 回答:「进展得很好!」

协调能力。Isabella Rodriguez 经营一家 Hobbs 咖啡馆,打算在 2 月 14 日下午 5 点到 7 点举办一场情人节派对。从这个种子开始,当 Isabella Rodriguez 在 Hobbs 咖啡馆或其他地方遇到朋友和顾客时,就会发出邀请。13 日下午,Isabella 开始装饰咖啡馆。Isabella 的常客和密友 Maria 来到咖啡馆。Isabella 请求 Maria 帮忙布置派对,Maria 同意了。Maria 的角色描述是它喜欢 Klaus。那天晚上,Maria 邀请它的暗恋对象 Klaus 一起参加派对,Klaus 欣然接受。

情人节那天,包括 Klaus 和 Maria 在内的五名智能体在下午 5 点出现在 Hobbs 咖啡馆,它们享受着庆祝活动(图 4)。在这个场景中,终端用户只设置了 Isabella 举办派对的初始意图和 Maria 对 Klaus 的迷恋:传播信息、装饰、约对方、到达派对以及在派对上互动的社交行为 ,由智能体架构发起。

a341df0c6a20e8775fbfd55a85c2930e.png

架构

Generative Agents 需要一个框架来指导其在开放世界中的行为,旨在让 Generative Agents 能够与其他智能体进行交互并对环境变化做出反应。

Generative Agents 将其当前环境和过去的经验作为输入,生成行为作为输出。Generative Agents 的架构将大型语言模型和合成与检索相关信息的机制结合到一起,以调节语言模型的输出。

如果没有合成与检索机制,大型语言模型可以输出行为,但 Generative Agents 可能不会根据智能体过去的经验做出反应,以至于无法做出重要的推理,也可能无法保持长期的连贯性。即使使用当前性能最好的模型(例如 GPT-4),长期规划和连贯性方面的挑战仍然存在 。

由于 Generative Agents 会产生大量必须保留的事件和记忆流(memory stream),因此其架构的核心挑战是确保在需要时检索和合成智能体记忆中最相关的部分。

fe62270785c30ce6a48b58bbe94b8360.png

Generative Agents 的架构中心是记忆流 —— 一个全面记录智能体经验的数据库。智能体会从记忆流中检索相关记录,以规划智能体的动作行为并对环境做出适当反应,并且每次行为都会被记录以递归合成更高级别的行为指导。Generative Agents 架构中所有的内容都被记录下来并以自然语言描述的形式来进行推理,从而使智能体能够利用大型语言模型的推理功能。

当前,该研究实现了使用 ChatGPT 的 gpt3.5-turbo 版本。研究团队预计 Generative Agents 的架构基础 —— 记忆、规划和反思 —— 可能会保持不变。较新的语言模型(例如 GPT-4)拥有更好的表达能力和性能,这会进一步扩展 Generative Agents。

记忆与检索

Generative Agents 的架构实现了一个检索功能,该功能将智能体的当前情况作为输入并返回记忆流的一个子集以传递给语言模型。检索功能有多种可能的实现方式,具体取决于智能体在决定如何行动时考虑的重要因素。

反思

该研究还引入了第二种类型的记忆,称为「反思」。反思是由智能体生成的更高层次、更抽象的思想。反思是周期性产生的,在该研究中,只有当智能体对最近事件的重要性分数总和超过某个阈值,智能体才会开始反思。

2247f1b67a54468896ad376c3decb3c8.png

实际上,该研究提出的 Generative Agents 每天大约反思两到三次。反思的第一步是让智能体确定要反思的内容,方法是根据智能体最近的经历确定可以提出的问题。

规划与反应

规划被用于描述智能体未来行动的顺序,并帮助智能体随着时间的推移保持行为一致。规划应该包含位置、开始时间和持续时间。

为了创建合理的规划,Generative Agents 会自上而下递归地生成更多细节。第一步是制定一个计划,粗略地概述当天的「日程」。为了创建初始规划,该研究向语言模型 prompt 智能体的总体描述(例如,姓名、特征和它们最近经历的摘要等等)。

在执行规划的过程中,Generative Agents 会感知周围环境,感知到的观察结果会存储在它们的记忆流中。该研究用这些观察 prompt 语言模型来决定智能体是应该继续它们的现有规划,还是做出其他反应。

实验及评估

该研究对 Generative Agents 进行了两项评估:一项是控制评估,以测试智能体是否能独立地产生可信的个体行为;另一项是端到端评估,其中多个 Generative Agents 在两天的游戏时间内开放式交互,这是为了了解智能体的稳定性和涌现(emergent)社会行为。

比如,伊莎贝拉计划举办一场情人节派对。她传播了这个信息,在模拟结束时,12 个角色已经知道了这件事。其中 7 个人「犹豫不决」——3 个人已有其他计划,4 个人没有表露想法,这和人类的相处一样。

d125781ec0d18a4d8a5a7f71aa9dad3d.png

在技术评估层面,该研究通过用自然语言「采访」智能体,来评估智能体保持「性格」、记忆、规划、反应和准确反思的能力,并进行了消融实验。实验结果表明,这些组成部分中的每一个对于智能体在任务中的出色表现都至关重要。

7d82bf68d389b18457c4a5bc407c45c7.png

在实验评估中,智能体出现的最常见错误包括:

  • 其未能检索相关记忆;

  • 对智能体记忆进行捏造修饰;

  • 从语言模型中「继承」过于正式的言语或行为。

推荐阅读:我的2022届互联网校招分享我的2021总结浅谈算法岗和开发岗的区别互联网校招研发薪资汇总
2022届互联网求职现状,金9银10快变成铜9铁10!!公众号:AI蜗牛车保持谦逊、保持自律、保持进步发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)
发送【1222】获取一份不错的leetcode刷题笔记发送【AI四大名著】获取四本经典AI电子书

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69042.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 添加App快捷方式到桌面

原创文章,如有转载,请注明出处:http://blog.csdn.net/myth13141314/article/details/68926849 主要原理是通过向系统发送创建快捷方式的广播 设置Intent,传递快捷方式的信息,名字和图标等 Intent shortcut new Int…

如何把一个网页设置快捷方式放到桌面上去,或者手机桌面当App一样使用

分别讲电脑端和手机端: 电脑端: 在尝试好几种方式后,还是觉得最最简单的方法,还是用电脑自带的方式不借助任何外力方便,利用谷歌的方式也讲一下哈(利用谷歌会有自己的图标这点不错); 其他方式: https://zh.wikihow.com/%E6%8A%8A%E7%BD%91%E7%AB%99%E7%9A%84%E5%BF%AB%E6%8D…

给你的AppImage创建桌面快捷方式

运行环境:Ubuntu 22.04 LTS 1.首先准备好AppImage文件并放在一个你知道的地方 2.打开终端,在/usr/share/applications下新建APP.desktop文件(APP可以改成你的应用名称) cd /usr/share/applications sudo touch APP.desktop 3. root模式下使用vi编辑qi编辑APP.deskto…

iPhone苹果手机如何将百度小程序添加到手机桌面方便使用?

苹果iPhone手机将百度小程序添加到手机桌面后,下次使用直接可以在iPhone苹果手机桌面找到像APP一样的图标,点击直接打开百度小程序方便使用; 如何将百度小程序添加到手机桌面方便使用? 1、打开手机百度APP,搜索要添加…

iOS 添加快捷方式到主屏幕

参考文章: iOS 添加到主屏幕/ iOS Add To Desktop iOS创建桌面快捷方式代码 在上面文章和其他资料基础上实现此功能,详细介绍和技术点可参考上述文章。Demo是以第三方CocoaHTTPServer为基础,建立本机服务器,调起Safari创建快…

OpenAI 直播大秀语音指挥 AI 自动编程

本文转载自IT之家 刚刚,OpenAI 又玩出了一个新高度。 只输入自然语句,AI 就自动做了个小游戏! 划重点:不! 用! 你! 编! 程! 来,感受一下这个 feel。 第一…

直播预告 | 腾讯云工业AI系列直播

随着工业革命的不断推进,人工智能等新技术新理念在各行业兴起。同时,各行业也逐步向数字化、智能化、自动化转型,进入现代化工业新阶段。 工业质检是整个制造中一个非常重要的环节,但工业AI质检的有效落地是我们面临的一个巨大挑…

Steam教育对儿童在幼儿园阶段概念理解

孩子对有关科学领域的探究和学习,往往受到好奇心和兴趣的直接驱使,少儿编程就是从这一点出发,来培养孩子的科学思维与能力的。具体而言,少儿编程是怎样助力培养孩子的科学素养呢? 增强孩子处理信息的能力。现实中充斥着…

聚观早报 | 推特临时培训员工应对世界杯;世界杯足球内置传感器

今日要闻:推特临时培训员工应对世界杯;京东靠降本增效实现转亏为盈;世界杯足球内置传感器;艾格重返迪士尼CEO职位;特斯拉明年或开启收购计划 推特临时培训员工应对世界杯 据消息, 2022年世界杯拉开帷幕,推特的使用量即将激增,其…

Chrome浏览器模拟微信客户端访问网址,方法图文讲解模拟微信

我们访问有的网址,网址里限制了只能微信客户端访问才能打开,要不然就打不开或者跳转到其他页面去了。 下面图文并茂的讲解下怎么用 Chrome 模拟微信UserAgent。 0x0、打开Chrome控制台 打开控制台快捷键在Chrome下Windows系统按下F12,Ma…

2021高考成绩查询数学和物理,2021湖南高考物理这么难真的好吗?全国数学卷简单,谁会是赢家?...

相信很多湖南省高考考生的家长已经感受到了孩子考完物理后的情绪低落了,原因是湖南省今年的高考物理试题比较难。在考完全国统一的数学科目后,普遍反映说数学简单,而物理却非常难。在这种情况下,会影响高考录取吗?什么…

食(实)用刷题方法和只因(技)巧,让你做一个合格的卷王。真的不进来看看?

Hello,这里是君兮,由于最近学业繁忙技术类博客的更新可能要停滞一段时间了,今天给大家分享一下我的刷题方法和技巧,保证你刷一遍的题顶别人刷两遍。尤其是初学者要认真看哦。 君兮_的个人主页 勤时当勉励 岁月不待人 C/C 游戏开发…

啥?简单的题都不会,可咋整呢?

目录 一、寻找原因二、寻找解决方法三、常见的刷题网站刷题技巧 明明自觉学会了不少知识,可真正开始做题时,却还是出现了“一支笔,一双手,一道力扣(Leetcode)做一宿”的窘境?你是否也有过这样的…

靠刷题考进了清华?学霸告诉你答案

http://www.sohu.com/a/227559664_100116835 大家好!我是北大在读博士邱崇,最近好多学弟学妹向我询问有没有实用的学习方法,于是今天我邀请到我的一位好友,向大家分享他的刷题大法,绝对实用,有效果&#xf…

新高考不选物理可以学计算机吗,新高考仅选物理就可以读计算机类专业了吗?(以广东为例)...

原标题:新高考仅选物理就可以读计算机类专业了吗?(以广东为例) 计算机类专业不仅是各大高校的热门专业,在今年的求职行业榜单中也位列第一,同时是各大企业竞相需要的专业人才。因此,对于从2018年启动新高考的广东省来说…

让AI来做 2023高考数理化考题,能比顶尖的考生做得强吗?

AI在某些方面可以比人类更快、更准确地完成任务,但在某些方面也存在局限性。对于高考理科题,AI可能会在计算和逻辑推理方面表现出色,但在理解和解释问题、判断和评估信息等方面可能不如人类。因此,AI可能会在某些题目上表现出色&a…

新高考没有选物理可以学计算机专业吗,高考选科是不是物理特别重要?新高考没有选物理是不是完了?...

选择科目 测一测我能上哪些大学 选择科目 领取你的专属报告 > 选择省份 关闭 请选择科目 确定 v> 众所周知,选科是我国新高考中最重要的事情之一,且涉及到了很多选考科目。其中,要数物理的话题性相对最强。那么,高考选科是不…

Android 第三方应用接入微信平台(1)

关键字:微信开放平台 Android第三方应用接入微信 微信平台开放后倒是挺火的,许多第三方应用都想试下接入微信这个平台, 毕竟可以利用微信建立起来的关系链来拓展自己的应用还是挺不错的,可 以节约很多在社交方面的开销&#x…

港股上市公司的中报翻译工作

根据国家有关规定,上市公司必须披露定期报告,也就是公司业绩。定期报告包括年度报告、中期报告、第一季报、第三季报。年度报告由上市公司在每个会计年度结束之日起4个月内编制完成(即一至四月份),中期报告由上市公司在半年度结束后两个月内完…

基于java+jsp的大学生心理健康网站

心理健康网是基于java语言将IT技术用于心理健康信息的管理, 协助大学生开展心理健康工作提高工作效率。系统使用Myeclipse开发,数据库同时支持sqlserver,mysql,资料有开题报告,毕业论文,源代码程序等.可以做适用于大学生毕业设计参考使用. 系统主要可分为以下几个模块&#xf…