【文献阅读】“ChatGPT: Jack of all trades, master of none”

【文献阅读】“ChatGPT: Jack of all trades, master of none”

  • 摘要
  • 背景
  • 问题
  • 任务介绍
  • 研究方法
    • ChatGPT对话示例
    • 衡量指标
  • 量化分析
    • ChatGPT “博而不精”
    • 任务难易程度与ChatGPT 的表现
    • 随机上下文小样本个性化
    • 对话上下文对生成结果的影响
    • 是否用测试数据集来微调对性能表现的影响
  • 质量分析
    • 探索性案例分析
    • 人类专家的基准性分析
    • 解释性分析
  • 应用前景
  • 总结与未来工作
  • 英语学习

图1 人机时代是否到来?

摘要

OpenAI 发布了 Chat Generative Pre-trained Transformer (ChatGPT),彻底改变了人工智能与人机交互的方法。 它具有在各个领域提供详细和准确答案的能力。 有几篇关于 ChatGPT 评估的工作测试了它在自然语言处理 (NLP) 任务上的有效性。

然而,现有的研究大多是非自动化的,并且只在非常有限的范围内进行了测试。 在这项工作中,我们检查了 ChatGPT 在 25 种不同的 NLP 分析任务上的能力,其中大部分任务甚至对人类来说都是主观的,例如情绪分析、情绪识别、冒犯性识别和姿态检测、自然语言推理、词义消歧、语言可接受性和知识问答。 我们将 ChatGPT 的查询过程自动化并分析了超过 38k 的回答。 我们将其结果与可用的最先进 (SOTA) 解决方案进行比较表明,对于零样本和少样本评估,ChatGPT 模型的平均质量损失约为 25%。 本文展示了测试的任务越困难(SOTA 性能越低),ChatGPT 损失就越大。特别是诸如情绪识别之类的实用 NLP 问题。

我们还测试了通过随机上下文少样本个性化 (Random Contextual Few-Shot Personalization) 对所选主观任务个性化 ChatGPT 响应的能力,我们获得了明显更好的基于用户的预测。 额外的定性分析揭示了 ChatGPT 偏见,这很可能是由于 OpenAI 对人类训练师施加的规则。 我们的结果为关于近期预测 NLP 模型的高质量是否可以表明工具对社会的有用性,以及应该如何建立此类系统的学习和验证程序的基本讨论提供了基础。

背景

  • Transformer 取代 RNN,模型拥有上下文长距离的信息获取能力。同时, GPUs和TPUs的发展支持了大模型的训练。
  • 在大规模文本数据集上训练得到的无监督预训练模型,如Bert-Based用masked tokens;AR-Based用predicting the next word.
  • GPT-1、GPT-2与GPT-3对比表:
GPT-1GPT-2GPT-3
parameters117M1.5B175B
data number40GB40GB45TB
context length51210242048
featureuni-directionalmulti-task trainingzero-shot, few-shot
  • InstructGPT
    模型大但不一定效果好,GPT-3有时给出的答案是有偏差的不可靠的,难以满足用户的需求。因此,提出的InstructGPT采用了Reinforcement Learning from Human Feedback (RLHF)方法使用人类反馈作为奖励信号来更新模型参数。
  • ChatGPT
    ChatGPT是InstructGPT最新的迭代版本。与GPT-3的175B的参数对比,ChatGPT只有3.5B的参数,但是具有更加强大的生成对话能力。
  • 本文工作:
    测试ChatGPT在各项NLP任务上的表现,检验其质量性、全面性等各方面的能力。

图2 Transformer模型的进化历程

问题

  • ChatGPT是否在不同的任务上比SOTA方法性能差?
  • ChatGPT在解决简单NLP任务和在解决复杂任务上能力不同?
  • few-shot方法(Random Contextual Few-Shot Personalization)具体能提升多少性能?
  • 当多个提示词相关/不相关时会产生什么影响?
  • 数据集及训练方式是如何影响ChatGPT的性能表现的?
  • ChatGPT提供者的内部政策并且它的偏向性使其不能对于某些提示词来说不能提供足够的回复?
  • ChatGPT能不能用来验证由人类标注得到数据的质量?
  • 当ChatGPT解决能用来具有分析性和模糊性任务时能用来给出解释性的目的吗?
  • ChatGPT的限制和不希望出现的行为有哪些?
  • ChatGPT能够在哪些领域促进AI技术的发展并且改变人类日常的生活?

任务介绍

在这里插入图片描述

表中各种指标的解释如下:
类别:P (pragmatic) 语用的 S (semantic) 语义的
Context: 提示词是否加入了额外信息
Availaility:ChatGPT是否用了数据集来微调,0-3分表示没有到有
post-processing:表示需要人工后续处理的提示词数量
N: 用来评估的提示词数量

研究方法

在这里插入图片描述

ChatGPT对话示例

在这里插入图片描述在这里插入图片描述

衡量指标

  • F 1 m a c r o = 1 Q ∑ i = 1 Q 2 ⋅ p i ⋅ r i p i + r i F1_{macro}=\frac{1}{Q}\sum^{Q}_{i=1}\frac{2\cdot p_i \cdot r_i}{p_i + r_i} F1macro=Q1i=1Qpi+ri2piri
    Q表示标签种类的数量, p i p_i pi r i r_i ri是第 i i i个标签的precision和recall。

  • ChatGPT与SOTA方法之间的loss:
    L o s s = 100 % ⋅ ( SOTA − ChatGPT ) SOTA Loss=\frac{100\%\cdot (\text{SOTA}-\text{ChatGPT})}{\text{SOTA}} Loss=SOTA100%(SOTAChatGPT)

  • Gain用来衡量加了personalized 数据之后模型的性能提升(F1):
    G a i n = 100 % ⋅ ( Per − NonPer ) 100 % − Nonper Gain=\frac{100\%\cdot (\text{Per}-\text{NonPer})}{100\%-\text{Nonper}} Gain=100%Nonper100%(PerNonPer)

量化分析

在这里插入图片描述

ChatGPT “博而不精”

  • ChatGPT在semantic类型的任务比在pragmatic类型上表现好;
  • ChatGPT的表现总是不如当前任务的SOTA方法好,稳定性也不够;
  • ChatGPT根据任务的难易程度有不同表现,在主观性较强的情感分类问题上表现较差;
  • 虽然ChatGPT的表现总是不如当前任务的SOTA方法好,但ChatGPT几乎所有问题都能做,而且与SOTA差的不是特别多,因此可以说ChatGPT是“博而不精”(“Jack of all trades, master of none.”)

任务难易程度与ChatGPT 的表现

  • 用SOTA的表现衡量该任务的难易程度( difficult = 100 % − SOTA \text{difficult}=100\%-\text{SOTA} difficult=100%SOTA)。一般地,pragmatic任务比semantic任务更难,其中情感类问题(pragmatic)非常难。
  • 任务越难,loss越大;任务越简单,loss越小。

随机上下文小样本个性化

  • ChatGPT的提示词作为一种文本内的个性化(personalized incontext processing), in-context learning
  • ChatGPT的提示词也可以应用few-shot learning。

对话上下文对生成结果的影响

  • 通过设计多种实验验证上下文对生成结果的影响,但结果表明不同setting下的表现差别不大。由此只能得出一些浅显的结论,不具有代表性。(inconclusive)
  • 在同一个setting下,ChatGPT给出了答案也可能大不相同,这也体现了ChatGPT不稳定的缺点,尤其是应用在一些需要稳定性能表现的领域中。

是否用测试数据集来微调对性能表现的影响

任务难度与ChatGPT表现的相关关系
由图可知

  • 任务越困难,损失越多;
  • 测试集微调对性能表现有影响,但具体影响程度不明显;
    测试集微调对性能表现的影响
    由图可知
  • 没有在测试集上微调过,当任务难度增加,性能损失也相应增加;
  • 在测试集上微调过,当任务难度增加,性能损失反而降低;

质量分析

从探索性分析、基准分析、解释性分析三个方面对ChatGPT未达到预期的表现进行案例分析。

探索性案例分析

  • 当被提供虚假情报时,ChatGPT可能会被误导从而给出错误答案;
  • ChatGPT会面临冒犯性和伦理性的问题;
  • Prompt engineering and tuning 在ChatGPT使用过程中非常重要;
  • 不仅问题类的prompt很重要,告诉模型在备选答案里选择哪个答案的prompt也很重要;

人类专家的基准性分析

  • 敏感性分析上比人类专家有更明显的负面倾向;
  • 准确性分析在大部分情况下比人类专家更准;

解释性分析

  • XAI代表可解释AI,能够给出行为背后合理可行的解释,并且具有一定的泛化能力;
  • 但ChatGPT在判断个人、平铺直叙信息、忽略元信息以及评估某人的声明中的新闻报道和引用时,它经常会犯错误,而没有考虑到更广泛的背景;
  • ChatGPT评估的是情况而不是参与者,但某些词语是指人,会导致预设的评估错误。
  • ChatGPT在语义任务中解释其决策时强烈依赖于上下文释义。它倾向于在给定的文本中发现负面内涵并呈现出共同的人类道德感。其局限性包括较少的提示精度和不稳定性,需要后期处理和手动更正。

应用前景

ChatGPT未来的应用前景

  • 改变生活类:
    文本生成、纠错,教育,信息检索,虚拟助手
  • AI发展类:
    可解释人工智能,标注数据集验证,推理模型原型设计,文本数据增强,知识蒸馏

总结与未来工作

  • 通过利用超过38k+的提示词和在25个不同的NLP任务测试得到,ChatGPT能够完成大部分的任务;
  • ChatGPT的性能与SOTA仍有差距,而且问题越难差距越大,使得ChatGPT“博而不精”;
  • 这篇论文中提出的上下文感知和能够实现上下文少样本个性化是ChatGPT的有价值的特征,这一能力使得ChatGPT能够更好地适应特定情境,提供更符合用户期望的结果,并且能够解释自己的决策过程,这些都是ChatGPT的优势之一。
  • 十分相信ChatGPT能够加速AI科技的发展并且改变人类的生活;
  • 未来工作重点在其他推理任务和多样的prompting engineering方法;

英语学习

  • Jack of all trades, master of none 博而不精
  • discourse v./n. 谈论;话题
  • soar v. 飙升
  • proximal adj. 近端的
  • esacalte v. 使…严重;迅速增加;升级
  • plagiarism n. 剽窃;抄袭
  • taxonomy n. 分类
  • manually adv. 手动地
  • utterance n.话语;言论
  • polarity n.极性
  • pragmatic adj. 实际的;实用的
  • denominator n. 分母
  • evoke v. 召唤
  • interlocutor n. 对话者
  • catalize v. 催化
  • discard v.丢弃
  • peculiarity n. 特点
  • inconclusive adj. 不确定的
  • disinformation n. 虚假情报
  • divergent adj. 异同的,发散的
  • retrieval n. 检索

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9169.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QQ邮箱验证码登录(移动端邮箱验证登录)

获取邮箱授权码 登录邮箱------->点击设置------->点击账户&#xff0c;下拉------->找到POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务------->按照步骤开启POP3/SMTP服务 ------->获取授权码 2.在pom.xml中添加依赖&#xff1a; <!--mail--><depend…

关于学校edu邮箱登录第三方邮件客户端(例如Outlook、Foxmail、QQ邮箱、邮件App等)的注意事项

求实习&#xff0c;找工作的时候用了学校的邮箱&#xff0c;但发现收件不方便查看&#xff0c;很容易错过重要信息&#xff0c;所以需要添加到第三方手机客户端中。以iphone12自带的邮件app为例&#xff1a; 第一步 iphone打开设置——邮件——账户——添加账户——其他——添…

outlook登录QQ邮箱

前期准备 QQ邮箱 软件:outlook 步骤 1.打开网页版QQ邮箱:登录QQ邮箱 2.登录 3.打开设置 4.点击账户 5.点击管理服务 6.发送短信 7.生成授权码 8.复制授权码 9.打开outlook,点击文件 10.添加账户,输入复制的授权码, 注意,这里一定是复制的授权码,不是QQ密码!!! 注意,这里…

Outlook登录163邮箱,qq邮箱以及企业邮箱等邮箱

我用的是outlook2013版本 首先打开文件选择添加账户手动设置或其他服务器类型选择POP或IMAP&#xff0c;点下一步下面以163邮箱为例&#xff0c;qq邮箱和企业邮箱都类似(163邮箱和qq邮箱的pop怎么开启在下一篇博客&#xff0c;一定要先看&#xff0c;里面有登录密码的设置)&…

邮箱客户端如何登录?

邮箱登录的几种方式你了解么&#xff1f;什么情况下用什么登录&#xff0c;了解了这些你使用邮箱时会变得更加顺畅&#xff01;今天就以TomVIP邮箱为例&#xff0c;用不同场景为大家说明一下使用邮箱快捷的办公方式&#xff01; 邮箱客户端登录 客户端相当于是另外一个应用程…

桌面客户端上登入Gmai 邮箱

我是小虾&#xff0c;外贸小白正在精进。如果你恰好也是一名外贸人&#xff0c;欢迎关注我的公众号&#xff1a;万能的Excel 获取更多关于邮件营销资料&#xff01; 针对桌面的客户端收发Gmail 邮件&#xff0c;不管是Outlook, foxmail 等都会遇到--无法登录到 传入&#xff…

个人邮箱怎么在微信里登陆?

在使用个人邮箱时&#xff0c;可能会遇到这种情况&#xff1a;来了一封重要的邮件&#xff0c;但是手边没有电脑&#xff0c;登陆不了邮箱。那么我们应该怎么办呢&#xff1f;其实&#xff0c;现在使用微信同样可以做到登陆邮箱&#xff0c;随时随地查收邮件。下面就以Tom邮箱为…

ChatGPT 与 MindShow 一分钟搞定一个PPT

前言 PPT制作是商务、教育和各种场合演讲的重要组成部分。然而&#xff0c;很多人会花费大量时间和精力在内容生成和视觉设计方面。为了解决这个问题&#xff0c;我们可以利用两个强大的工具——ChatGPT和MindShow&#xff0c;来提高制作PPT的效率。 一、ChatGPT 与 MindShow…

ChatGPT 研究框架(PPT)

推荐阅读干货文章&#xff1a; 全球边缘计算大会上海站讲师演讲材料已出&#xff0c;欢迎戳下方链接查看现场精彩回放&#xff01;2023年3月31日&#xff0c;全球边缘计算大会北京站&#xff0c;欢迎合作&#xff01;

ChatGPT大流行的思考-设想篇

在ChatGPT火热当下&#xff0c;我们不妨设想一下它可以应用到我们生活和工作的哪些方面。作者在对ChatGPT有所了解后&#xff0c;从行业、宏观及微观的角度进行设想&#xff0c;积累灵感&#xff0c;并投身到模型建设中。希望对你也有所启发。 一、宏观及微观角度的设想 1. 宏观…

《花雕学AI》07:AI脑洞大开-盘点最火爆人工智能ChatGPT的23种新颖用法

本文提纲&#xff08;呵呵&#xff0c;想必大家都猜到了&#xff0c;它确实是人工智能帮我做的&#xff0c;看起来比较专业吧&#xff01;&#xff09; 一、引言&#xff1a;介绍ChatGPT是什么&#xff0c;它是基于GPT-3的一个开源的多语言聊天机器人框架&#xff0c;可以生成流…

ChatGPT中 top_p 和 temperature 的作用机制

1. temperature 的作用机制 GPT 中的 temperature 参数调整模型输出的随机性。随机性大可以理解为多次询问的回答多样性、回答更有创意、回答更有可能没有事实依据。随机性小可以理解为多次询问更有可能遇到重复的回答、回答更接近事实&#xff08;更接近训练数据&#xff09;…

2023最新商业版ChatGPT网站源码4.8.0+功能强大/新增一键安装

正文: 安装教程: 一台VPS 搭建宝塔 解析域名 上传程序至根目录 访问首页在线安装配置数据库 PHP版本选择:7.3 安装完成后访问网站首页即可&#xff01; 配置APIKEY&#xff0c;登录网站后台自定义配置&#xff0c;不然网站无法使用&#xff01; 网站后台地址/admin 默…

ChatGPT商业源码授权

ChatGPT商业源码是由OpenAI公司开发并拥有版权的&#xff0c;未经授权擅自使用、复制、分发或修改可能涉及侵犯知识产权等法律问题&#xff0c;并可能会受到相应的法律惩罚。 如果您需要使用ChatGPT商业版&#xff0c;可以考虑通过OpenAI官方渠道进行授权购买。此外&#x…

商业版ChatGPT(C端+管理后台)

简介 本项目是一个商用版服务平台&#xff0c;基于Java语言实现服务端功能&#xff0c;前端使用React框架&#xff0c;底层使用官方的ChatGPT API。用户可以通过一键部署方便地使用本平台。除了支持chat对话模型外&#xff0c;还支持openai官方所有api&#xff0c;包括余额查询…

【ChatGPT前世今生】前置知识Seq2Seq入门理解

【ChatGPT前世今生】前置知识Seq2Seq入门理解 1、环境准备与依赖包安装2、数据集准备3、数据集预处理与读取4、定义Seq2Seq模型的基础类5、预处理训练数据集6、定义训练过程7、定义验证过程8、执行训练与验证过程9、展示模型的结果&#xff0c;进行进一步分析 最近一段时间&…

数据分析 × 人文社科:高校交叉学科教学经验分享

随着新一轮科技革命与产业变革的加速演进&#xff0c;学科间的交叉融合不断升级&#xff0c;由数据驱动的系列交叉学科备受瞩目&#xff0c;然而&#xff0c;在实际教学与学科建设的过程中&#xff0c;对于数据科学引入至相关学科&#xff0c;高校教师还是普遍面临着比较多的问…

华为又招了一名天才少年,他背后的故事堪称传奇!

上一篇&#xff1a;ChatGPT的工作原理&#xff08;纯干货&#xff0c;万字长文&#xff09; 2019年6月&#xff0c;华为创始人任正非发起华为“天才少年”项目&#xff0c;用顶级挑战和顶级薪酬去吸引顶尖人才的项目。并表示&#xff0c;华为将从全世界招进20-30名天才少年&…

华为又招了一名天才少年!

2019年6月&#xff0c;华为创始人任正非发起华为“天才少年”项目&#xff0c;用顶级挑战和顶级薪酬去吸引顶尖人才的项目。并表示&#xff0c;华为将从全世界招进20-30名天才少年&#xff0c;2020年还计划从世界范围招进200-300名天才少年。 这不就在上个月&#xff0c;华为最…

打造人工智能创新之源,共建昇思开源新生态

3月31日&#xff0c;由昇思MindSpore开源社区主办的昇思开源三周年生日会如期举行。本次生日会对即将发布的昇思MindSpore 2.0正式版本进行预告、发布了最新版的昇思大模型平台&#xff0c;同时还发布了昇思大模型技术公开课程。生日会给开发者展示了三年来昇思在人才培养、开源…