ChatGPT等GPT-3.5系列大模型的鲁棒性如何?

来自:FudanNLP

最近ChatGPT的爆火,展现出了 GPT-3.5 模型在各种自然语言处理任务中非常出色的性能,在很多任务上展示出了能够与人类媲美的理解和推理能力。

然而,它们在处理开放世界的各种复杂性方面的能力和鲁棒性尚未被完全探索。我们急迫的想知道,这类大模型的鲁棒性真正如何?因此,本研究对 GPT-3.5 系列的大模型进行了全面的实验分析,以探索其大模型的鲁棒性。

访问 http://arxiv.org/abs/2303.00293 

或点击 阅读原文 获取原文链接

d53445314d9ec9826e8b4a1be1d0f7a5.png

ee70db98d26d5e55f7298419ff90cf5d.gif

ABSTRACT

GPT-3.5 模型在各种自然语言处理任务中表现出了出色的性能,展示了它们强大的理解和推理能力。

然而,它们对于处理开放世界的各种复杂性的能力和鲁棒性尚未得到探索,而这对于评估模型的稳定性非常重要并且是建立可信 AI 的关键方面。

在本研究中,我们对 GPT-3.5 进行了全面的实验分析以探索其鲁棒性,使用涵盖了 9 个广泛使用的自然语言理解任务的 21 个数据集(共包括约 116K 测试样例)和来自TextFlint的 66 个文本变形。

论文速看

通过详细的实验和分析,我们得出以下三点结论:

1. 模型理解能力的来源:

        预训练、代码训练、指令微调机制共同对模型理解能力的提升起到了决定性作用。我们推测预训练为模型提供了基础的语义理解能力,代码训练提升了模型的语义依赖和理解能力,而指令微调提升了模型对任务的泛化能力。

2. 鲁棒性的影响因素:

        指令微调阶段仍然采用的有监督训练方式,可能是一个导致指令和任务都存在与“预训练-微调”范式一样的鲁棒性问题的重要原因。因此,除了对于任务的鲁棒性研究,对于指令鲁棒性的也需要进一步研究。

3. 任务标签词和种类的一致性:

        指令微调阶段对模型自然语言理解的表现起到重要作用,具体表现在指令微调阶段和实际应用阶段的任务标签词一致性和标签种类一致性。因此,为了确保这种一致性,Prompt的设计需要考虑到这两个方面,指导模型正确地理解和使用任务标签,同时适应不同的标签种类和应用场景。

42ab9d1fb5196d137476bd137c246a0f.png

具体结论如下:

1. 部分数据集测试结果惊艳:

        GPT-3.5在大多数自然语言处理任务上,达到了最好结果超过了在特定任务上进行监督训练的模型。其中,GPT-3.5在阅读理解和情感分析任务上表现出色,但是在序列标注和关系抽取任务中面临极大挑战。

2. 缺乏鲁棒性:

        GPT-3.5在绝大多数自然语言理解任务上依然存在与“预训练-微调”方法相同的鲁棒性问题。但是,GPT-3.5在某些任务上的鲁棒性达到了SOTA,比如:情感分析,阅读理解和WSC任务。

3. 鲁棒性提升并不稳定:

        在少样本场景下,GPT-3.5的鲁棒性提升情况在不同任务之间差异较大。比如,GPT-3.5的鲁棒性在细粒度情感分析任务中明显提升,但是在自然语言推理和语义匹配任务中下降。

4. 提示敏感性:

        输入指令(即提示)的变化对结果影响程度较高,GPT3.5对于指令变化的鲁棒性仍需提升。在情感分析、自然语言推理、语义匹配、阅读理解任务中,GPT-3.5在不同提示之间的方差较大。

5. 数字敏感性:

        GPT3.5对数字的敏感性远高于预训练-微调模型。例如,在NumWord变换中--用不同的数字替换句子中的数字,GPT-3.5表现出非常高的敏感性。

6. 任务标签的敏感性:

        GPT-3.5在指令微调阶段的任务构建方式(包括任务标签词和任务类型)会对模型产生较大影响。在情感分析的二分类数据集IMDB中,模型会给出大量“中立”(neutral)的回答,而这个回答并不属于实际的标签空间,从而导致模型性能下降。

7. 零样本/少样本场景下表现显著提升:

        在零样本和少样本场景下,GPT-3.5的表现在大多数自然语言理解任务上超过了现有的零样本/少样本学习模型,尤其是在阅读理解、自然语言推理和语言匹配的任务中。

8. 上下文学习能力:

        1-shot与0-shot相比,GPT-3.5的效果在大部分任务上都有提升。但是,1-shot、3-shot、6-shot、9-shot之间模型性能没有显著变化。需要注意的是,增加提示中的实例数量会显著提升序列标注任务的表现。

9. GPT系列模型的差异: 

        GPT-3.5系列(text-davinci-003, text-davinci-002)与GPT-3系列(text-davinci-001)相比,在大多数NLU任务中性能显著提升,尤其是在需要更高水平语言理解的任务中,例如阅读理解,自然语言推理和序列标记。

e7bd23b97b6f5d5c770bf733b55c302d.png

责任编辑:窦士涵、刘妍


最后给大家推荐一下最近小编从最新的斯坦福NLP的公开课都放到了bilibili上了,都已做了中英翻译,大部分已经更新完毕了,给需要的小伙伴~

是最新的呦~

目录

  • 词向量

  • 神经分类器

  • 反向传播和神经网络

  • 句法结构

  • RNN

  • LSTM

  • 机器翻译、Seq2Seq和注意力机制

  • 自注意力和Transformer

  • Transformers和预训练

  • 问答

  • 自然语言生成

  • 指代消解

  • T5和大型预训练模型

  • 待更...

0c395aebc4c9c8ab7a297412cd07b190.png

点击阅读原文直达b站~


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41467.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

独立站建站 | 初学者必学,教你如何使用 WordPress制作网站(二)

上篇文章我们已经讲解到如何选择你的 WordPress 主题。 那么,本篇文章,就继续接上次未完的教程,直接往下看吧。 1.创建内容 WordPress中有两种主要的内容类型:页面和帖子。 页面和帖子之间的区别在于,帖子专门指你…

zencart/opencart/wordpress外贸独立站最少需要多少钱

以程序员的职位进入跨境电商行业已经有10年了,接触过不少大大小小的老板客户,我遇到最多的问题就是搭建一个站要多少钱?实话说这问题问的有些粗糙。如果我遇到不负责的公司他可能会直接报价1W,2W或更多,也有可能遇到兼…

一个完全的新人如何搭建自己的个人网站

首先,申明下本文所指的新人是指会上网站看网页,会自己聊QQ,会在新浪、网易等平台上写博客的人。当然你要说这个只要会上网的人都会了,是的,我所指的新人就是会上网的人。所以本文的技术含量不会很高,高手可…

独立站建站 | 初学者必看,如何使用 WordPress制作网站(一)

关于 WordPress 教程可能有很多,但是也许你看了不少,但仍然没有制作成功。 本篇文章为初学者编写了一个易于理解的使用 WordPress制作网站的分步教程。 只要跟着教程一步一步操作,你就能拥有一个专属于你的WordPress 网站。 废话不多说&am…

外贸建站之独立站系统选择

不少刚跨入外贸电商行业或才以SASS建站系统转到独立的用户经常都会遇到一个问题,我到底选择哪种开源系统来建站呢?我们经常听到有zencart,opencart,wordpress,magento等等国外的优秀开源系统,甚至国内的一些被开源或破解的系统什么ecshop,fas…

独立站有哪些建站平台?

建网站是运营独立网站的第一步。对于跨境卖家来说,选择一个适合自己的建站平台可以让事情变得更简单。那么独立站有什么平台呢?如何选择? 国外:Shopify基本是国外建站系统的首选。Shopify在系统和上下游生态上已经相当成熟,插件…

独家 | 基于NLP的COVID-19虚假新闻检测(附代码)

作者:Susan Li 翻译:杨毅远 校对:吴金笛 本文长度为4400字,建议阅读8分钟 本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集与完整的代码复现了检测以及可视化的过程…

微博舆情 之 特定话题情感分析

本文介绍一下在做微博特定话题情感分析中的做法,核心就是判断文本的情感极性,再根据这个极性来进行情感判定。 主要经过了以下几个步骤: 文本预处理 去乱码、去网络词利用LTP获取分词、句子结构及成分等信息情感信息提取 在同义词词林里面…

基于NLP的COVID-19虚假新闻检测

基于NLP的COVID-19虚假新闻检测 摘要 全文约2400字,建议阅读时间7分钟。本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集以及完整的代码复现了检测以及可视化的过程。 最近有这样一则新闻&#xf…

让一让,神州泰岳要进化了

2018年11月,“中国版Facebook”人人公司宣布将人人网社交平台业务相关资产出售,至此,在国内大学生中风靡一时的社交平台正式落幕。人人网创始人陈一舟在接受媒体采访时谈到几点经验教训,其中之一,“转型比创业难&#…

chatgpt赋能Python-python人机对话代码

简介 Python是一种常用的编程语言,广泛应用于人机对话代码的设计与开发。人机对话是基于自然语言处理技术的,为了更好地实现人机交互,我们需要编写高效的Python代码来处理文字、图像和语音输入输出。本文将介绍Python在人机对话代码中的应用…

chatgpt赋能python:Python人机对话框架:让人机交互变得简单

Python人机对话框架:让人机交互变得简单 人机交互已成为现代社会中不可或缺的一部分,尤其在计算机软件的开发领域,如何实现高效的人机交互对于软件的成功运行至关重要。本文将介绍Python人机对话框架,探讨如何使用该框架实现优秀…

ChatGPT当虚拟助手遇见人工智能|小智AI

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨OpenAI ChatGPT|GPT-4|GPT-3|人机对话|ChatGPT应用|小智ai|小智ai|小智ai|小智ai|小智AI|chatgpt小智AI ChatGPT 是一个引人注目的技术成果,它将人工智能与虚拟助手相结合&#xff0…

MOSS模型量化版部署过程

文章目录 项目背景配置环境与准备部署推理命令行部署报错1报错2: 使用免费试用的阿里云GPU部署在AutoDL平台上部署 项目背景 2023年4月21日,复旦大学自然语言处理实验室正式开放MOSS模型,是国内首个插件增强的开源对话大语言模型。MOSS 相关…

chatgpt赋能python:Python中的复制粘贴教程

Python中的复制粘贴教程 在Python编程中,复制和粘贴是极其常见的操作。虽然这似乎是很基础的操作,但在实际应用中仍有很多人不知道如何正确地复制和粘贴代码。本文将介绍Python中的复制粘贴教程,提供一些实用的技巧和小窍门,帮助…

部落冲突-家乡-兵种(训练营兵种、暗黑训练营兵种)

1 训练营兵种 1.1 野蛮人 1.1.1 野蛮人 这些无畏的勇士长着引人注目的胡子,他们依靠着壮硕的肌肉在敌人的村庄肆虐。训练一队野蛮人,他们将为您出生入死! 1.1.2 超级野蛮人 生命值更高、力量更强、速度更快,最重要的是秀发更浓密。成为超级…

2020-12-22

新开普电子股份有限公司_任意文件下载 物联网平台 GET /api/device/foreignId//…%255c…%255c…%255c…%255c…%255c…%255c…%255c…%255cwindows/win.ini HTTP/1.1 Accept: text/html,application/xhtmlxml,application/xml;q0.9,/;q0.8 Accept-Encoding: gzip,deflate Hos…

新开普一卡通系统(Ecard-T4.5 1200) 补卡-挂失常见问题汇集

1. 挂失补卡后的bug bug描述:某用户在进行挂失操作时,选择“是否立即补卡”,如果放在读卡器上的卡是一张已发的卡的话,该用户将造成该用户cardno 的卡库不一致。 原因分析:使用的数据库表:rec_card_make , …

蚂蚁金服斥资2.5亿入股A股公司新开普旗下完美数联

雷帝网 乐天 1月8日报道 A股公司新开普日前发布公告,宣布蚂蚁金服旗下子公司上海云鑫及公司控股子公司完美数联签署了《业务合作框架协议》。 截至公告日,新开普持有完美数联85.7143%股权。上海云鑫拟出资2.5亿元对完美数联增资。 交割全部完成后&#x…

TensorFlow第二届开发者峰会

天体物理学家使用 TensorFlow 分析开普勒任务中的大量数据,以发现新的行星; 医学研究人员利用 TensorFlow 机器学习技术来评估一个人心脏病发作和中风的几率; 科学家在非洲用 TensorFlow 检测木薯植物疾病,从而提高产量并帮助更…