Can ChatGPT Understand Too?

背景

最近,ChatGPT受到了极大的关注,因为它可以对人类的查询产生流畅和高质量的响应。已有研究表明,ChatGPT与现有模型相比具有显著的生成能力。

动机

ChatGPT理解能力的定量分析却很少受到关注

作者主要做的事

本文通过在最流行的GLUE基准测试上对ChatGPT进行评估,并与4个具有代表性的微调BERT风格模型进行比较,探索ChatGPT的理解能力。

实验1 ChatGPT vs. BERT

在这里插入图片描述

结果

在这里插入图片描述

结论

1)ChatGPT在释义和相似性任务上表现很差,即,MRPC和STS-B,其中性能下降高达24%评分。
2)ChatGPT在自然语言推理任务上超越了所有BERT风格的模型,即MNLI和RTE,表明其在推理/推理方面的优越性。
3)ChatGPT在单句分类任务上与BERT-base相当,即情感分析(SST-2)和语言可接受性(CoLA),以及QA相关任务,即,QNLI.

分析

Inference Tasks

在这里插入图片描述

为了更深入地了解ChatGPT在推理任务上取得令人印象深刻的性能的原因,我们报告了ChatGPT的每类准确率,并比较了MNLI和RTE任务上的模型。结果如表3所示。可以看出,在所有设置中,ChatGPT的性能都大大优于BERT-base。特别是在"蕴涵"类中,即,这个前提包含了这个假设,ChatGPT甚至以明显的优势超越了所有强大的BERT模型。这些结果继续显示了ChatGPT的有效推理能力,尤其是对事实输入的推理

Paraphrase Task

与上述分析类似,我们还报告了ChatGPT和其他模型在释义任务上的每类准确率,即:MRPC,见表4。令人惊讶的是,在评估“蕴涵”样本时,ChatGPT与BERT-base相比取得了相当的性能,但在“not_蕴涵”类中性能急剧下降(得分高达47%),因为该类中的句子在语义上并不等同.这表明ChatGPT对一对句子之间的语义差异并不敏感,这可能与模型训练过程中缺乏这方面的人工反馈有关.

Similarity Task.

更具体地说,我们可以观察到,当句子对中的句子具有较低的相似度(〈2.5分)时,ChatGPT的表现较差,这类似于表4的观察结果。还可以发现,ChatGPT难以准确地预测决策边界周围(2.5分左右)的一对句子的相似度得分。原因之一是ChatGPT没有在STS-B任务上进行微调,并且不能确定正确的决策边界。在第三节中,我们展示了基于ChatGPT的高级提示策略可以得到很大的改进。

实验三 Improving ChatGPT with Advanced Prompting Strategies

在这里插入图片描述

Standard few-shot prompting

它使ChatGPT能够通过提供一些提示示例作为输入的一部分来执行目标任务。

Manual few-shot CoT prompting

思维链(Chain-ofthought,CoT)提示,提供手工步骤演示,引导模型逐步输出最终答案。

Zero-shot CoT

一种零CoT方法,该方法采用简单明了的基于模板的提示进行CoT推理,而不是手动设计演示。具体来说,我们使用
在这里插入图片描述
在这里插入图片描述

More Results and Analyses

  1. ChatGPT benefits from all these prompting strategies

相对于基线ChatGPT(78.7%),即。,zero-shot ChatGPT,这些促使策略带来一些性能改进。具体来说,标准few-shot促使和zero-shot床的整体性能提高ChatGPT + 5.1%和+ 5.0%平均分数,分别。更令人鼓舞的是,借助手工few-shot床,ChatGPT达到+ 7.5%的平均涨幅甚至优于大多数BERT-style模型(RoBERTalarge除外)。

  1. In the 1-shot scenario, the performance of ChatGPT is relatively sensitive to the given in-context example
    尽管在几次设置中整体性能有所提高,但我们可以发现ChatGPT在这些NLU任务上的表现并不总是更好,尤其是在1次场景中。更具体地,当配备有标准的1-shot提示时,ChatGPT在一些任务上甚至执行得更差,例如,CoLA、MRPC、MNLI和RTE。我们将其归因于随机采样的上下文示例和测试数据之间的较低相关性,如先前的工作(Agrawal等人,2022)表明,单次噪声无关示例可能对输出质量产生灾难性影响4。为了进一步验证这一猜想,我们使用不同的1-shot示例来执行标准1-shot提示。以CoLA任务为例,对比结果如图6所示。如图所示,单镜头性能不稳定,当给出一个更相关的单镜头示例时,ChatGPT可以实现更多的性能提升,这证实了我们的说法。

  2. There is still a performance gap between ChatGPT and fine-tuned RoBERTa-large.
    在手动CoT的帮助下,ChatGPT实现了令人印象深刻的性能改进,并在一些任务上显示了所有比较模型中最先进的(SOTA)性能,例如,CoLA、SST-2和RTE。然而,如图所示,与微调的RoberTa-large相比,ChatGPT在某些任务上仍然表现不佳,尤其是释义任务(MRPC)。这些结果继续表明,尽管ChatGPT可以很好地解决许多NLP问题,但它仍然无法击败当前的SOTA模型,特别是在一些NLU任务上。

Note

一些读者可能会担心我们的工作可能是一种“彩票”,因为我们只在每个任务的验证集的一部分上评估ChatGPT。为了消除这种疑虑,我们调查了在全数据环境中是否有类似的发现。具体来说,以RTE任务为例,我们分别报告了ChatGPT在少数据和全数据设置下的相应结果,如表6所示。可以发现ChatGPT显示出类似的特性(例如,显著受益于手动CoT),表明我们工作的可信度。

结论

1)ChatGPT在处理释义(是否有相同的语义)和相似性任务方面存在不足,尤其负释义和中性相似性样本中表现较差
2)ChatGPT在推理任务上的性能大大优于所有BERT模型;
3)ChatGPT在情感分析和问答任务上的性能与BERT相当。此外,通过结合一些先进的提示策略,ChatGPT的理解能力可以得到进一步提高

在本研究中,我们对ChatGPT在多种自然语言理解任务中的语言理解能力进行了实证研究。通过一系列的定量研究,我们发现ChatGPT在推理任务上表现良好,但在处理释义和相似性任务上存在不足,尤其是对否定实例的处理。此外,我们还尝试使用一些先进的提示策略来提高ChatGPT的理解能力。实验结果表明,在这些提示策略的帮助下,ChatGPT的性能得到了显著提高,在某些任务上甚至优于功能强大的Roberta-large。总体而言,ChatGPT与一些微调的BERT风格模型相比,获得了相当的理解能力,但在一些NLU任务上仍然无法击败目前最好的模型。希望本研究能为进一步研究如何克服ChatGPT的局限性,提高其理解性能提供参考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19195.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LSTM模型实战案例:TensorFlow实现预测3位彩票号码

向AI转型的程序员都关注了这个号👇👇👇 大数据挖掘DT机器学习 公众号: datayx 使用人工智能技术来预测彩票,是这次的主题,那么预测哪种彩票呢?我们先选择简单一些的,就是排列组合少…

从风靡全球到风口,Tiktok是如何做到的?

大家好,我是瑞卡迪电子商务。我们是从2019年下半年就注意到了TikTok的风口,并在2020年初,团队就开始投入TikTok的运营及商业变现。从2019年起,围绕TikTok一系列的产品功能迭代和商业模式开放的声音一直不绝于耳,直至今…

tiktok海外版某音,分析协议构造,我们浅谈一下

大家好,我叫任雪飘,今天带大家一起学习一下海外版本的D音,这个大家不陌生吧。 在这之前先强调一下我们中国的网络安全法,一定要准时法理法规。 wss是WebSocket协议的一种通信协议的缩写。wss 和wss不同的是一个采用加密,一个直接…

如何了解(海外抖音TiKToK)与国内抖音的区别以及介绍

一、海外抖音TK平台的优势 自从抖音在中国大受欢迎后,海外也推出了海外版抖音TK平台。尽管两者都是视频分享平台,但它们在一些方面具有明显的区别和独特的优势。下面将详细介绍海外抖音TK平台的优势以及与国内抖音的区别性。 优势: 1. 多元…

常见的TikTok变现方式,你知道几种?

在众多的海外社交媒体中,TikTok以其极具特色的娱乐化短视频,吸引了庞大的用户群体。目前TikTok仍处于发展阶段,竞争压力小、营销效果显著,属于变现的红利期。那么常见的TikTok变现方式,你知道几种呢? 变现方…

跨境人看过来:为什么要使用 TikTok 进行 B2B 营销

每个月,8000 万人平均在 TikTok 上花费 24 小时。这一新机遇彻底改变了 B2C 品牌与客户互动的方式。用于 B2B 营销的 TikTok 能否释放同样的潜力? 相当多的品牌正试图自己回答这个问题。并非所有 B2B 公司都可以利用这些即时#TikTokMadeMeBuyIt B2C 转换…

如何利用ChatGPT打造热门TikTok内容?

TikTok已经成为了全球最流行的短视频平台之一,它每天都有数百万的用户发布和观看视频。 但是,如何在这个平台上发布有吸引力的内容,并吸引更多的粉丝?答案是利用ChatGPT。 ChatGPT是一种基于人工智能的语言模型,可以生…

别等ChatGPT开源了,升级版OPT开源模型来了!

源|新智元 编|Joey 昕朋 今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。 12月22日,该模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上线&…

微软发布「升级版」多模态大模型 Kosmos-2!新增局部理解能力,解锁实体级交互

夕小瑶科技说 原创 作者 | 小戏、ZenMoore 三个多月前,微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中发布了一个强大的多模态大模型 Kosmos-1,成功将感知与语言对齐,在 ChatGPT 的多…

OpenAI居然能自动写论文?导师直言我都犯难了...

最近两个月以来,刷屏网络技术圈的莫过于chatGPT 莫属了!闲暇之余,自己也去注册了一个账号来看看它的魔力,毕竟也有很多博主抵挡不住其中的诱惑,好吧,我也抵挡不住,也就去开了openAI实验了一番&a…

ChatGPT 太火爆了,为什么不被开发者所欢迎?

可以说,ChatGPT是近几个月最受欢迎的话题之一,毕竟这个聊天机器人比它的前辈们“聪明”了很多,除了聊天之外,还会打草稿和编写代码,在某种程度上也能提高生产力。 记得 ChatGPT 最开始上线不久的时候,看到…

如何搭建公共聊天室

搭建公共聊天室 一、聊天室介绍 本聊天室主要运用了udp协议,应用于局域网范围之内,可以支持多个处于同一个局域网的主机在局域网内相互传递消息。本聊天室由一个服务器端和若干个客户端组成,由一台主机打开服务器端,其他主机通过…

实战:向人工智能看齐用Docker部署一个ChatGPT

文章目录 前言鉴赏chatgpt环境要求开始搭建云安装docker从docker仓库拉取chatgpt-web镜像创建容器并运行chatgpt-web创建容器启动chatgpt-web访问自己的chatgpt 总结 前言 目前GPT-4都官宣步入多模态大型语言模型领域了,大佬竟然还没有体验GPT么。作为一个资深搬砖…

ChatGPT | Poe AI—体验多个不同 AI 人工智能对话模型

近日,随着ChatGPT等AI产品不断推陈出新,问答平台Quora现也开放新的AI聊天机器人应用Poe,可供用户随意访问。用户可以向它提出问题,Poe从多种AI聊天机器人处获取答案,包括ChatGPT背后母公司OpenAI以及Anthropic等其他公…

MySQL 8.0原理与实战一网打尽,甲骨文数据库专家硬刚5年之作

一、MySQL 8.0势在必行 据权威数据库技术排名网站DB-Engines今年4月的最新数据,MySQL是全球最流行的开源数据库,没有之一。在所有数据库排名中,MySQL仅次于Oracle,“屈居”亚军之位。但大家从截图中可以看出,MySQL与O…

嵌入式音视频疑惑汇总

小小的脑袋里,大大的疑问,该文是博主在工作中遇见问题后,主要面向chatGPT学习的记录笔记 1、bypass hdr 是什么? “Bypass HDR” 是指绕过高动态范围(HDR)功能的一种设置。HDR 是指一种显示技术&#xff0…

40岁程序员谈修bug的心态问题

【CSDN 编者按】于程序员而言,如果说写代码是一种能力的体现,那么解决问题的能力也同等重要,排查问题的能力或许能决定你的职业生涯走的有多远。因此,常有人戏言,程序员不是写代码,而是在写 bug。本文作者是…

一次查找分子级Bug的经历,过程太酸爽了

“Debugging is like trying to find a needle in a haystack, except the needle is also made of hay.” Debug调试就像是在大片的干草堆中找针一样,只不过针也是由干草制成的。 在软件开发的世界里,偶尔会出现一些非常隐蔽的 Bug,这时候工…

ChatGPT 修得了别人的 Bug,修不了自己的!OpenAI 直指开源数据库 Redis 漏了底

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的火爆,超出了很多人的想象。今年初,根据 UBS(瑞士银行巨头瑞银集团)的一份报告显示,ChatGPT 推出仅两个月后,它在 2023 …

chatgpt赋能python:Python题库搜题:提高编程效率的利器

Python题库搜题:提高编程效率的利器 作为一名有10年Python编程经验的工程师,经常遇到需要快速查找解决问题的情况,而Python题库搜题是我常用的工具之一。本文将着重介绍Python题库搜题的功能和使用方法,以及如何通过优化搜索关键…