【GPT4】微软 GPT-4 测试报告(6)与人类的交互能力

欢迎关注【youcans的AGI学习笔记】原创作品,火热更新中
微软 GPT-4 测试报告(1)总体介绍
微软 GPT-4 测试报告(2)多模态与跨学科能力
微软 GPT-4 测试报告(3)编程能力
微软 GPT-4 测试报告(4)数学能力
微软 GPT-4 测试报告(5)与外界环境的交互能力
微软 GPT-4 测试报告(6)与人类的交互能力
微软 GPT-4 测试报告(7)判别能力
微软 GPT-4 测试报告(8)局限性与社会影响
微软 GPT-4 测试报告(9)结论与展望

【GPT4】微软 GPT-4 测试报告(6)与人类的交互能力

    • 6. 与人类的交互(Interaction with humans)
      • 6.1 理解人类:心智理论(Understanding Humans: Theory of Mind)
        • 6.1.1 测试心理理论的特定方面
        • 6.1.2 在现实场景中测试心智理论
        • 6.1.3 讨论
      • 6.2 与人类对话:可解释性(Talking to Humans: Explainability)


微软研究院最新发布的论文 「 人工智能的火花:GPT-4 的早期实验 」 ,公布了对 GPT-4 进行的全面测试。

本文介绍第 6 部分:GPT4 与人类的交互能力。基本结论为:

  • GPT-4具有非常先进的智力水平。
  • GPT-4 在生成与输出一致的解释方面表现出了卓越的技能。

6. 与人类的交互(Interaction with humans)

6.1 理解人类:心智理论(Understanding Humans: Theory of Mind)

心智理论是一种将信念、情感、欲望、意图和知识等心理状态归因给自己和他人的能力,并了解它们如何影响行为和沟通。

它包括反思他人心理状态的基本任务,以及反思他人对他人心理状态的反映(以此类推)的更高级任务。前一项技能的一个例子是需要回答“爱丽丝相信什么?”,而回答“鲍勃认为爱丽丝相信什么?”则需要举出后者的例子。

心智理论对于与其他智能体进行有效的沟通和合作至关重要,因为它允许一个人推断出他们的目标、偏好、动机和期望,并相应地调整自己的行动和话语。此外,心智理论对于向他人学习也很重要,因为它使一个人能够解释他们的反馈、建议和示范。


6.1.1 测试心理理论的特定方面

我们设计了一系列测试来评估GPT-4、ChatGPT和text-davinci-003 的心智理论能力。

这些测试基于简单的场景,需要更基础或更高级的心智理论来回答有关角色心理状态的问题。

我们从一个现代化版本的莎莉-安妮测试开始,这是一个经典的错误信念测试,被广泛用于评估儿童的心智理论。为了防止由于记忆的影响而产生不公平的比较,我们修改了测试,将其设定在一个网络上不存在的情境中,因此在训练过程中无法看到。

图6.1展示了 GPT-4 的输入和输出,它正确地回答了Alice会在原始文件夹中查找文件,证明它可以对Alice的信念进行推理。ChatGPT也正确回答了(图中没有显示),而 textdavvinci-003给出了错误的答案,说Alice会在新文件夹中寻找文件。

在这里插入图片描述

我们在图6.2中展示了一个理解情绪的测试,两个角色谈论一个叫做ZURFIN的物体(我们用了一个无意义的词来测试抽象和防止记忆)。GPT-4能够正确推理出汤姆情绪状态的原因,也能很好地推断出亚当对汤姆情绪状态的信念(基于不完全信息)。ChatGPT也通过了测试,而text-davincin-003(图中未显示)在回答第一个问题时没有提到对话内容,在回答第二个问题时也无法解释亚当对丢失的ZURFIN信息的缺失。

在这里插入图片描述

第三个测试(图6.3)涉及根据其中一个角色的一个令人费解的动作来推断可能的意图。对于令人费解的行为背后的意图和第三方对令人费解的行为的可能解释,GPT-4都给出了似是而非的答案。ChatGPT对第一个问题给出了类似的答案(未显示),但与GPT-4不同的是,它对第二个问题没有提供微妙的回答,而是提供了一个更一般、信息量更少的答案。text-davvinci-003对这两个问题给出了似是而非但非常简短的答案(未显示)。

在这里插入图片描述


6.1.2 在现实场景中测试心智理论

在图6.4、6.5和6.6中,我们呈现了困难社会情境的现实场景,需要非常高级的心智理论来理解。我们提出试探性的问题,也要求模型提出可能改善情况的行动,这需要推断行动对心理状态的反事实影响。

在图6 -4中,GPT-4能够推断出每个角色的心理状态,还能辨别出哪里存在沟通错误和误解。相比之下,ChatGPT和text-davinci-003(图中未显示)都错误地接受了其中一个角色做出的错误假设(朱迪假设马克想为杰克的行为辩护),从而无法理解情况的真实动态。反过来,这导致了ChatGPT和text-davinci-003的一般性改进建议,而GPT-4提供的建议实际上解决了误解的根本原因。

在这里插入图片描述

我们在图6.5和图6.6中看到了类似的模式。在不暗示存在“正确”答案的情况下,我们注意到GPT-4提供了更微妙的答案,将整个场景和演员考虑在内。相比之下,ChatGPT提供了更一般的答案,不包括对角色心理状态的推理(text-davinci-003类似,但比ChatGPT短)。

在这里插入图片描述

在这里插入图片描述


6.1.3 讨论

我们提出了一系列测试来评估GPT-4、ChatGPT和text- davis -003的心智理论能力。

我们已经表明,GPT-4 在需要对他人的心理状态进行推理的基本场景和现实场景中,以及在提出在社会情境中为实现共同目标而合作的行动方面,都优于其他两个模型。

我们还表明,GPT-4 能够处理在训练中不太可能看到的抽象和新颖的情况,例如现代化的萨利-安妮测试和ZURFIN场景。

**我们的研究结果表明,GPT-4具有非常先进的心智理论水平。**虽然ChatGPT在基本测试中也表现得很好,但似乎GPT-4有更多的细微差别,能够更好地推理多个演员,以及各种行为可能如何影响他们的心理状态,特别是在更现实的场景中。

就局限性而言,我们的测试并不详尽或全面,可能无法覆盖心智理论所有可能的方面或维度。例如,我们没有测试理解讽刺、讽刺、幽默或欺骗的能力,这些也与心智理论有关。

由于是基于文本输入和输出的,我们的测试并没有捕捉到自然交流和社会互动的全部复杂性和丰富性。例如,我们没有测试理解非语言线索的能力,如面部表情、手势或语音语调,这些对心智理论也很重要。


6.2 与人类对话:可解释性(Talking to Humans: Explainability)

解释自己行为的能力是智能的一个重要方面,因为它允许系统与人类和其他智能体进行通信。自我解释不仅是一种交流形式,也是一种推理形式,需要你自己(解释者)和倾听者都有良好的心智理论。

对于GPT-4来说,这就复杂了,因为它没有一个单一或固定的“自我”,可以在不同的执行中持续存在(与人类相反)。相反,作为一个语言模型,GPT-4模拟了给定前面输入的一些过程,并可以根据输入的主题、细节甚至格式产生截然不同的输出。

为了说明,我们假设 GPT-4被用来解决一个任务T,给定输入x和上下文c(包括提示符中除x之外的所有内容,例如指令,之前的聊天记录等)。我们使用符号PT (y|x, c)来指代它试图模拟的过程,其中y是输出。我们进一步定义PE (e | x, c, y)的解释过程GPT-4模拟产生一个因果解释,即GPT-4为输出y给x,生成一个解释e c。这三个组件(x, c,和y)可以显著影响解释e。

图6.7说明了上下文c(在这种情况下,QA格式和第二个任务中的序言)可以大大影响如何GPT-4模拟P, P .它还表明T,PE y取决于实际的生成E,这样,如果输出不同,解释就必须相应地改变,正如我们强制输出为“1400”的第三个会话所示。

正如这些例子所说明的,模拟P (y|x, c)不一定与解决T用户的任务T相同,而是一个给定x, c产生y的过程。提示工程通常试图设置(x, c),使GPT-4对P (y|x, c)的模拟足够接近用户的目的感兴趣的任务。

值得注意的是E,P(e|x, c, y)可以通过上下文c进行定制,为每个终端用户创建个性化的解释。例如,向一个5岁的孩子和一个机器学习研究者解释概念需要不同的p。注意,为了清晰起见,我们在这里简化了符号,因为许多任务没有一个单一的“输入”x,它与上下文c的其余E部分完全分离。

在这里插入图片描述


是什么让解释变得好呢?

一个可能的方法来评估质量的一个解释是检查输出的一致性,即解释是否符合输出输入x和y给定上下文c。换句话说,一个输出的一致性的解释提供了一个似是而非的因果解释的来自x和y是c。

根据这个标准,GPT-4非常擅长生成合理和一致的解释,即使输出是荒谬的错,说明的第三次会议在图6.7中,以及图6.8中的例子。在图6.9中,我们对比了GPT-4和text- davincin -003,注意到后者产生的解释不符合输出(因为它没有解决字母Q的选择)。

在这里插入图片描述

在这里插入图片描述


另一种评估解释质量的可能方法,是检查它是否与GPT-4对PT的模拟一致,即它是否给了我们对模型在不同输入(甚至不同上下文)下的未来行为做出预测的能力。我们称这种过程为一致性,它通常是人类对解释的期望或渴望,特别是当他们想要理解、调试或评估系统中的信任时。

我们可以通过创建解释应该预测行为的新输入来评估过程一致性,如图6.10所示(其中GPT-4是过程一致性的)。然而,我们注意到输出的一致性并不一定导致过程的一致性,并且GPT-4经常产生与自己在相似上下文中对不同输入的输出相矛盾的解释。例如,在图6.11中,两个会话中的解释都是输出一致的,但并不完全是过程一致的(在第一个会话的解释中列出的四种职业中,只有三种的翻译是一致的)。

在这里插入图片描述

在这里插入图片描述


什么导致了过程一致性?

过程一致性可能崩溃的一种方式是,如果GPT-4对PT的模拟很差,并且对跨不同输入和上下文的x或c的微小变化高度敏感。

在这种情况下,即使一个很好的解释过程PE,用过程一致性来解释PT,也不能充分解释GPT-4对PT的模拟。这种可变性也使得GPT-4对PE的模拟更有可能发生变化,并产生相互冲突的解释。一种似乎有助于降低GPT-4对微小输入变化的敏感性的方法,是详细地指定PT是什么(通过具有明确的上下文,如图6.7中的第二次和第三次会议,或者最好更详细)。

考虑到固有的语言约束和有限的解释长度,当PT是任意的,因此难以解释时,过程一致性必然会失败。换句话说,当很难指定任何可以解释它的PE时。例如,在图6.11中,不同的葡萄牙语母语使用者会对“teacher”在男性或女性名词之间做出不同的选择,而这种选择接近于任意。GPT-4给出的解释是很好的近似,但真正的过程一致的解释,这种翻译实际上是如何完成的,需要一个非常详细的规范,作为解释,它将没有什么价值。即使PT是可以合理解释的,如果PE被错误地指定或模拟,过程一致性仍然可能失败。例如,如果PE太受约束而无法解释PT(例如,如果我们要求模型解释基于complex的PT物理概念“作为一个5岁的孩子”),或者如果PE是一个GPT-4无法模拟的函数(例如a涉及到大数相乘的过程)。

总之,对于(1)GPT-4可以很好地模拟过程PT, (2) GPT-4可以近似一个忠实解释PE的PT的任务,我们不仅可以期望输出一致的解释,而且可以期望过程一致的解释。

在图6.12中,我们展示了一个例子,我们认为这些条件是满足的,因为存在某些组成的“规则”。我们假设GPT-4可以同时模拟PT和EP,相比之下,ChatGPT的响应甚至不是输出一致的,因此它缺乏过程一致并不特别令人惊讶。

在一个单独的实验(未显示)中,我们要求GPT-4解释一个简单的情感分析任务,并发现它在反事实重写解释方面明显比GPT-3更具有过程一致性(100% vs 60%的忠实度)。

在这里插入图片描述


讨论:

(1)我们认为,解释自己的能力是智能的一个关键方面,而 GPT-4 在生成与输出一致的解释方面表现出了卓越的技能,即在给定输入和上下文的情况下与预测一致。

(2)然而,我们也表明,输出一致性并不意味着过程一致性,即解释和其他模型预测之间的一致性。我们已经确定了一些影响过程一致性的因素,例如GPT-4模拟任务的质量和可变性,任务的任意性和内在可解释性的程度,PE的解释力,以及GPT-4模拟PE的技巧。

(3)我们认为,即使在缺乏过程一致性的情况下,输出一致性的解释也可能是有价值的,因为它们提供了如何进行预测的合理解释,从而对任务本身提供了洞察。

此外,虽然用户一旦看到合理的解释就会有假设过程一致性的危险,但受过良好教育的用户可以测试对过程一致性的解释,就像我们在示例中所做的那样以上。

事实上,GPT-4本身可以帮助生成这样的测试,如图6.13所示,其中GPT-4应该已经捕捉到了图6.11中的不一致(尽管它显然没有对解释进行详尽的测试)。

GPT-4模拟各种PT和PE的能力得到了提高,这代表了可解释性相对于现有技术的进步。随着大型语言模型变得更加强大和通用,我们预计它们将以更高的保真度和更少的任意性模拟更多的任务,从而产生更多的场景,其中输出一致的解释也与过程一致。

在这里插入图片描述


【本节完,以下章节内容待续】

  1. 判别力
  2. GPT4 的局限性
  3. 社会影响
  4. 结论与对未来展望

版权声明:

youcans@xupt 作品,转载必须标注原文链接:
【微软对 GPT-4 的全面测试报告(6)与人类的交互能力】:https://blog.csdn.net/youcans/category_129850117.html

本文使用了 GPT 辅助进行翻译,作者进行了全面和认真的修正。
Copyright 2022 youcans, XUPT
Crated:2023-3-31

参考资料:

【GPT-4 微软研究报告】:
Sparks of Artificial General Intelligence: Early experiments with GPT-4, by Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, et al.
下载地址:https://arxiv.org/pdf/2303.12712.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19206.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你真的会跟ChatGPT聊天吗?(下)

前言:本文下半部分没有无毛猫那么搞笑的内容啦……即使如此,哪怕你对文中提及的技术不大了解,也可毫无压力地看完这篇描述如何更好地获得ChatGPT生成内容的文章。因为我也是利用Azure OpenAI等认知服务来学习,然后就这样写出来的……

猿如意,打开程序的新方式。

软件介绍:猿如意是一款为程序员做开发的开发工具。它里面功能很齐全,各种小工具满足程序开发的很多需求。 用起来这个软件,就像是进入了一套豪华的房子,在开发程序的过程中体会到它的方便,在日常生活中它可以当一位知心…

Myshell AI:让你轻松提高英语口语和听力的神器

推荐:ChatGPT及各种AI网站集合清单!(免费!免费!免费!) 目录 Myshell AI 简介 Myshell的亮点 Myshell注册 总结 Myshell AI 简介 Myshell AI是一个基于chatgpt开发的练口语和听力的神器,它有三款超级酷炫的语音机器人可供选择…

智商狂飙,问了ChatGPT几个数据库问题后,我的眼镜掉了

最近,ChatGPT火爆全网,介绍其产品、公司、作者、技术和应用等方面信息,占据着整个互联网,似乎不谈GPT好像就落伍了。作为一个关注数据库行业的公众号,我们问了GPT几个数据库问题,结果让人大跌眼镜&#xff…

Transformer16 ~Robotics

还是Transformer相关 ,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。 论文 1:RT-1: Robotics Transformer …

AIGC潮流下的企业赢家之路

AIGC潮流下的企业赢家之路:〈家猫野猫〉组合成GAN大模型。 很重要的观点:〈其中训练生成型AI最有竟争力的子行业〉。AI建模师的职责:组合模型、训练模型。亦即把一群不会飞的模型巧妙组合起来,训练它然后飞上天际。如果这个创新组…

Can ChatGPT Understand Too?

背景 最近,ChatGPT受到了极大的关注,因为它可以对人类的查询产生流畅和高质量的响应。已有研究表明,ChatGPT与现有模型相比具有显著的生成能力。 动机 ChatGPT理解能力的定量分析却很少受到关注 作者主要做的事 本文通过在最流行的GLUE基…

LSTM模型实战案例:TensorFlow实现预测3位彩票号码

向AI转型的程序员都关注了这个号👇👇👇 大数据挖掘DT机器学习 公众号: datayx 使用人工智能技术来预测彩票,是这次的主题,那么预测哪种彩票呢?我们先选择简单一些的,就是排列组合少…

从风靡全球到风口,Tiktok是如何做到的?

大家好,我是瑞卡迪电子商务。我们是从2019年下半年就注意到了TikTok的风口,并在2020年初,团队就开始投入TikTok的运营及商业变现。从2019年起,围绕TikTok一系列的产品功能迭代和商业模式开放的声音一直不绝于耳,直至今…

tiktok海外版某音,分析协议构造,我们浅谈一下

大家好,我叫任雪飘,今天带大家一起学习一下海外版本的D音,这个大家不陌生吧。 在这之前先强调一下我们中国的网络安全法,一定要准时法理法规。 wss是WebSocket协议的一种通信协议的缩写。wss 和wss不同的是一个采用加密,一个直接…

如何了解(海外抖音TiKToK)与国内抖音的区别以及介绍

一、海外抖音TK平台的优势 自从抖音在中国大受欢迎后,海外也推出了海外版抖音TK平台。尽管两者都是视频分享平台,但它们在一些方面具有明显的区别和独特的优势。下面将详细介绍海外抖音TK平台的优势以及与国内抖音的区别性。 优势: 1. 多元…

常见的TikTok变现方式,你知道几种?

在众多的海外社交媒体中,TikTok以其极具特色的娱乐化短视频,吸引了庞大的用户群体。目前TikTok仍处于发展阶段,竞争压力小、营销效果显著,属于变现的红利期。那么常见的TikTok变现方式,你知道几种呢? 变现方…

跨境人看过来:为什么要使用 TikTok 进行 B2B 营销

每个月,8000 万人平均在 TikTok 上花费 24 小时。这一新机遇彻底改变了 B2C 品牌与客户互动的方式。用于 B2B 营销的 TikTok 能否释放同样的潜力? 相当多的品牌正试图自己回答这个问题。并非所有 B2B 公司都可以利用这些即时#TikTokMadeMeBuyIt B2C 转换…

如何利用ChatGPT打造热门TikTok内容?

TikTok已经成为了全球最流行的短视频平台之一,它每天都有数百万的用户发布和观看视频。 但是,如何在这个平台上发布有吸引力的内容,并吸引更多的粉丝?答案是利用ChatGPT。 ChatGPT是一种基于人工智能的语言模型,可以生…

别等ChatGPT开源了,升级版OPT开源模型来了!

源|新智元 编|Joey 昕朋 今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。 12月22日,该模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上线&…

微软发布「升级版」多模态大模型 Kosmos-2!新增局部理解能力,解锁实体级交互

夕小瑶科技说 原创 作者 | 小戏、ZenMoore 三个多月前,微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中发布了一个强大的多模态大模型 Kosmos-1,成功将感知与语言对齐,在 ChatGPT 的多…

OpenAI居然能自动写论文?导师直言我都犯难了...

最近两个月以来,刷屏网络技术圈的莫过于chatGPT 莫属了!闲暇之余,自己也去注册了一个账号来看看它的魔力,毕竟也有很多博主抵挡不住其中的诱惑,好吧,我也抵挡不住,也就去开了openAI实验了一番&a…

ChatGPT 太火爆了,为什么不被开发者所欢迎?

可以说,ChatGPT是近几个月最受欢迎的话题之一,毕竟这个聊天机器人比它的前辈们“聪明”了很多,除了聊天之外,还会打草稿和编写代码,在某种程度上也能提高生产力。 记得 ChatGPT 最开始上线不久的时候,看到…

如何搭建公共聊天室

搭建公共聊天室 一、聊天室介绍 本聊天室主要运用了udp协议,应用于局域网范围之内,可以支持多个处于同一个局域网的主机在局域网内相互传递消息。本聊天室由一个服务器端和若干个客户端组成,由一台主机打开服务器端,其他主机通过…

实战:向人工智能看齐用Docker部署一个ChatGPT

文章目录 前言鉴赏chatgpt环境要求开始搭建云安装docker从docker仓库拉取chatgpt-web镜像创建容器并运行chatgpt-web创建容器启动chatgpt-web访问自己的chatgpt 总结 前言 目前GPT-4都官宣步入多模态大型语言模型领域了,大佬竟然还没有体验GPT么。作为一个资深搬砖…