背景
最近,ChatGPT受到了极大的关注,因为它可以对人类的查询产生流畅和高质量的响应。已有研究表明,ChatGPT与现有模型相比具有显著的生成能力。
动机
ChatGPT理解能力的定量分析却很少受到关注
作者主要做的事
本文通过在最流行的GLUE基准测试上对ChatGPT进行评估,并与4个具有代表性的微调BERT风格模型进行比较,探索ChatGPT的理解能力。
实验1 ChatGPT vs. BERT
结果
结论
1)ChatGPT在释义和相似性任务上表现很差,即,MRPC和STS-B,其中性能下降高达24%评分。
2)ChatGPT在自然语言推理任务上超越了所有BERT风格的模型,即MNLI和RTE,表明其在推理/推理方面的优越性。
3)ChatGPT在单句分类任务上与BERT-base相当,即情感分析(SST-2)和语言可接受性(CoLA),以及QA相关任务,即,QNLI.
分析
Inference Tasks
为了更深入地了解ChatGPT在推理任务上取得令人印象深刻的性能的原因,我们报告了ChatGPT的每类准确率,并比较了MNLI和RTE任务上的模型。结果如表3所示。可以看出,在所有设置中,ChatGPT的性能都大大优于BERT-base。特别是在"蕴涵"类中,即,这个前提包含了这个假设,ChatGPT甚至以明显的优势超越了所有强大的BERT模型。这些结果继续显示了ChatGPT的有效推理能力,尤其是对事实输入的推理
Paraphrase Task
与上述分析类似,我们还报告了ChatGPT和其他模型在释义任务上的每类准确率,即:MRPC,见表4。令人惊讶的是,在评估“蕴涵”样本时,ChatGPT与BERT-base相比取得了相当的性能,但在“not_蕴涵”类中性能急剧下降(得分高达47%),因为该类中的句子在语义上并不等同.这表明ChatGPT对一对句子之间的语义差异并不敏感,这可能与模型训练过程中缺乏这方面的人工反馈有关.
Similarity Task.
更具体地说,我们可以观察到,当句子对中的句子具有较低的相似度(〈2.5分)时,ChatGPT的表现较差,这类似于表4的观察结果。还可以发现,ChatGPT难以准确地预测决策边界周围(2.5分左右)的一对句子的相似度得分。原因之一是ChatGPT没有在STS-B任务上进行微调,并且不能确定正确的决策边界。在第三节中,我们展示了基于ChatGPT的高级提示策略可以得到很大的改进。
实验三 Improving ChatGPT with Advanced Prompting Strategies
Standard few-shot prompting
它使ChatGPT能够通过提供一些提示示例作为输入的一部分来执行目标任务。
Manual few-shot CoT prompting
思维链(Chain-ofthought,CoT)提示,提供手工步骤演示,引导模型逐步输出最终答案。
Zero-shot CoT
一种零CoT方法,该方法采用简单明了的基于模板的提示进行CoT推理,而不是手动设计演示。具体来说,我们使用
More Results and Analyses
- ChatGPT benefits from all these prompting strategies
相对于基线ChatGPT(78.7%),即。,zero-shot ChatGPT,这些促使策略带来一些性能改进。具体来说,标准few-shot促使和zero-shot床的整体性能提高ChatGPT + 5.1%和+ 5.0%平均分数,分别。更令人鼓舞的是,借助手工few-shot床,ChatGPT达到+ 7.5%的平均涨幅甚至优于大多数BERT-style模型(RoBERTalarge除外)。
-
In the 1-shot scenario, the performance of ChatGPT is relatively sensitive to the given in-context example
尽管在几次设置中整体性能有所提高,但我们可以发现ChatGPT在这些NLU任务上的表现并不总是更好,尤其是在1次场景中。更具体地,当配备有标准的1-shot提示时,ChatGPT在一些任务上甚至执行得更差,例如,CoLA、MRPC、MNLI和RTE。我们将其归因于随机采样的上下文示例和测试数据之间的较低相关性,如先前的工作(Agrawal等人,2022)表明,单次噪声无关示例可能对输出质量产生灾难性影响4。为了进一步验证这一猜想,我们使用不同的1-shot示例来执行标准1-shot提示。以CoLA任务为例,对比结果如图6所示。如图所示,单镜头性能不稳定,当给出一个更相关的单镜头示例时,ChatGPT可以实现更多的性能提升,这证实了我们的说法。 -
There is still a performance gap between ChatGPT and fine-tuned RoBERTa-large.
在手动CoT的帮助下,ChatGPT实现了令人印象深刻的性能改进,并在一些任务上显示了所有比较模型中最先进的(SOTA)性能,例如,CoLA、SST-2和RTE。然而,如图所示,与微调的RoberTa-large相比,ChatGPT在某些任务上仍然表现不佳,尤其是释义任务(MRPC)。这些结果继续表明,尽管ChatGPT可以很好地解决许多NLP问题,但它仍然无法击败当前的SOTA模型,特别是在一些NLU任务上。
Note
一些读者可能会担心我们的工作可能是一种“彩票”,因为我们只在每个任务的验证集的一部分上评估ChatGPT。为了消除这种疑虑,我们调查了在全数据环境中是否有类似的发现。具体来说,以RTE任务为例,我们分别报告了ChatGPT在少数据和全数据设置下的相应结果,如表6所示。可以发现ChatGPT显示出类似的特性(例如,显著受益于手动CoT),表明我们工作的可信度。
结论
1)ChatGPT在处理释义(是否有相同的语义)和相似性任务方面存在不足,尤其负释义和中性相似性样本中表现较差
2)ChatGPT在推理任务上的性能大大优于所有BERT模型;
3)ChatGPT在情感分析和问答任务上的性能与BERT相当。此外,通过结合一些先进的提示策略,ChatGPT的理解能力可以得到进一步提高
在本研究中,我们对ChatGPT在多种自然语言理解任务中的语言理解能力进行了实证研究。通过一系列的定量研究,我们发现ChatGPT在推理任务上表现良好,但在处理释义和相似性任务上存在不足,尤其是对否定实例的处理。此外,我们还尝试使用一些先进的提示策略来提高ChatGPT的理解能力。实验结果表明,在这些提示策略的帮助下,ChatGPT的性能得到了显著提高,在某些任务上甚至优于功能强大的Roberta-large。总体而言,ChatGPT与一些微调的BERT风格模型相比,获得了相当的理解能力,但在一些NLU任务上仍然无法击败目前最好的模型。希望本研究能为进一步研究如何克服ChatGPT的局限性,提高其理解性能提供参考。