通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估

f7f006e967bb2e56a4e5d2e82f875ab4.png

作者:李博,方格翔,杨洋,王泉森,叶蔚,赵文,张世琨
单位:北京大学知识计算实验室(KCL)
论文:https://arxiv.org/abs/2304.11633
代码和数据开源:https://github.com/pkuserc/ChatGPT_for_IE

摘要

本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力,作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。

作者发现,在标准信息提取设置下,ChatGPT的性能较差,但在开放式信息提取设置下表现出色,且其决策的解释具有高质量和可信度。

不过,ChatGPT存在过度自信的问题,导致其校准度较低。此外,ChatGPT在大多数情况下对原始文本的忠实度很高。

最后,作者手动注释并发布了7个细粒度信息提取任务的测试集,包含14个数据集,以进一步促进研究。

主要思路

ChatGPT是最近非常流行的对话大模型,可以与用户进行流畅和高效的交流。但是由于ChatGPT的训练细节和数据没有完全公开,并且ChatGPT的输出会带有一些观点和偏向,这些观点都可能会影响用户对事物的判断和决策,甚至对用户造成负面作用[1-4]。

因此,对于ChatGPT的评测方面,不止需要关注给定下游任务的性能评测,同时还需要考虑到使用大模型过程中用户可能需要的一些方面,如ChatGPT对决策判断的可解释、预测自信程度和对于输入原文的忠实程度等

基于以上分析,本文希望在ChatGPT性能的基础上,通过更多的维度对ChatGPT模型的能力进行全方位的评估。

具体来说,我们希望通过以下4个方面来评估ChatGPT的综合性能:

1)性能(Performance)。我们研究的一个重要方面是全面评估ChatGPT在各种任务上的整体性能,如准确率和F1值等。并将其与其他热门模型进行比较。通过从不同角度考察其性能,我们旨在提供对ChatGPT在下游信息提取任务方面能力的详细理解。

2)可解释性(Explainability)。ChatGPT的可解释性对于其在现实场景中应用是至关重要的[5-7],因为用户希望在获取模型输出的同时,让模型给出合理的预测理由和判断依据。在我们的研究中,我们将同时衡量ChatGPT的自我检查和人工检查的可解释性,重点关注其为人类提供有用和准确的推理过程解释的能力。

3)校准性(Calibration)。测量“calibration”有助于评估模型的预测不确定性[8,9]。校准度高的分类器应该具有准确反映正确性概率的预测分数[10,11]。鉴于深度神经网络在其预测中表现出过度自信的倾向,我们期望识别ChatGPT的潜在不确定性或过度自信现象。

4)忠诚度(Faithfulness)。模型对预测解释的忠诚度对于用户而言非常重要[12,13]。我们尝试评估ChatGPT提供的解释是否与输入内容一致。

基于以上四个方面,我们设计了15个不同的评测指标,其中10个为ChatGPT自动输出的指标,5个为多位领域专家人工标注的指标。具体指标如下:

ad5b8a586298e2c7665bfb279a9d399f.png

任务数据集及实验设置

我们选择了自然语言处理中十分重要的研究任务——信息抽取,作为任务载体,对ChatGPT的以上度量指标进行全方位的评估。信息抽取(information extraction, IE)涉及异构结构提取、事实知识使用和多样化的目标,因此此类任务是评估ChatGPT能力的理想场景。本文中,我们选择了7个信息抽取任务共14个数据集进行测试,包括是实体识别,关系抽取和事件抽取等。

在实验过程中,我们采用了2种设置,即标准信息抽取(Standard-IE)和开放式信息抽取(OpenIE)。Standard-IE设置通常用于以前的工作中,它使用特定于任务的数据集与监督式学习范式对模型进行微调。对于ChatGPT,由于我们无法直接微调参数,因此我们评估ChatGPT从一组候选标签中选择最合适答案的能力。具体而言,这种设置基于包括任务描述、输入文本、提示和标签集的指示。任务描述描述了具体的IE任务,提示包括引导ChatGPT输出所需特征(即上述15个特征中的一个或多个),而标签集基于每个数据集包含所有候选标签。OpenIE设置是比Standard-IE设置更高级和具有挑战性的情境。在此设置中,我们不会向ChatGPT提供任何候选标签,仅依赖其理解任务描述、提示和输入文本的能力来生成预测。我们的目标是评估ChatGPT生成合理事实知识的能力。实验结果对比的模型包括BERT、RoBERTa和每个任务的SOTA模型。

实验结果及结论

1)Standard-IE设置
ce10988180aa8082ef9f8cd19802f2db.png

主要结论
1)在大部分情况下,ChatGPT的性能与BERT类模型和SOTA模型的性能差距较大;
2)在简单任务,如entity typing和relation classification问题下,ChatGPT的性能较好。

2)Open-IE设置
31b2a126d6798cabfadbd764444e880e.png

主要结论
ChatGPT在开放式信息抽取设置下,输出的结果较为令人满意,在很多任务上能够在大多数情况下输出人类认可的结果。这说明ChatGPT已经学习了很多正确且可以合理输出的常识知识。

3)可解释性

d1bee55afccb2a19722d74326eebaecb.png主要结论
通过ChatGPT和人工对给出的判断理由进行标注,我们发现ChatGPT输出的解释非常可靠,绝大多数情况下,人类与ChatGPT都认为给出的理由是合理的。以上数据表明,ChatGPT对于自己预测的解释可信度较高。

4)校准度
9eacca99074e73cd3eb4e47ea96224d8.png 4f96b74fabd300c8d44196aa1d07b122.png

主要结论
1)表6展示的是各个模型预测的置信度,可以看出,BERT类模型和ChatGPT对于自己的预测都十分自信,均给出了很高的置信度。相比而言,因为ChatGPT在Standard-IE中其性能不佳,所以给出这么高的置信度表明模型有很严重的过度自信倾向。同时,模型对于预测错误的样本,置信度明显较低。也就是说,当模型给出的预测置信度较低时,应该对预测结果进行校验。
2)表7通过评估校准度的指标ECE,我们可以明显看出ChatGPT有最低的校准度,即预测置信度偏高,过度自信问题严重。

5)忠实度
d0d23fc533a791c11914b3044d9105d7.png

主要结论
通过领域专家对模型输出解释和输入原文的对比,进行了人工的忠实度度量。我们发现,ChatGPT的解释是非常忠实于原文的,基本没有在给定上下文的情况下,通过编造理由进行预测的行为。

总结

本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测。针对于7个细粒度信息抽取任务和14个数据集,从模型性能、可解释性、校准度和忠实度这四个角度,设计了15个指标(10个从ChatGPT自动获取的指标,5个领域专家标注的指标),对ChatGPT进行了全面评估。实验结果表明,ChatGPT在标准IE设置下,性能与有监督模型有很大差距。

但是,ChatGPT在OpenIE的场景下输出非常符合人类预期。同时,通过领域专家标注表明,ChatGPT可以对自己的预测结果给出可靠的解释,这表明ChatGPT有极强的解释能力。但是ChatGPT会对自己的预测过度自信,给出非常高的预测置信度,从而导致较低的校准度。

最后,本文还验证了ChatGPT的决策非常忠实于原文,即不会通过虚构来解决或者解释问题。本文说明,ChatGPT在信息抽取领域仍然有很多的改进角度和提升空间。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33523.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无论BlockCity是否并购的天涯社区,请保留住我们的青春回忆

这几天,网上疯传着天涯社区将被BlockCity收购的消息,我也看了很多人发表的文章和观点,可我真正关心的,不是传闻是否可信,也不是这两个平台合作后会有怎样的表现,以及BlockCity区块城市能不能成为元宇宙时代…

6种互联网创业副业策略

今天给大家分享几个实操项目,不需要太多成本,尤其是最后一个项目,让你轻松上手,直接赚钱。1、AI工具近期非常火的ChatGPT,有些人可能不知道这是什么,但另一些人已经利用它每天赚钱。他们通过买卖账号赚取差…

【C#基础】简单的双色球彩票模拟介绍

欢迎大家一起交流学习 目录 前言 一、双色球原理介绍 二、具体实现 1.买票函数 2.创建机选球 3.比较函数 三.主函数 四、测试 总结 前言 本文介绍了简单的双色球彩票模拟介绍的基础内容。 提示:以下是本篇文章正文内容,下面案例可供参考 一、双…

java模拟双色球统计红球篮球出号

本人由于连续多个月买双色球未中,气愤之下突发奇想,自己写了个双色球统计算法(菜鸟写得不好忘包涵) 该功能只是程序自动生成的选号,原本打算用网络爬虫来从360彩票网站爬取数据。即从360网站彩票随机工具随机生成100-…

chatgpt赋能python:Python词性分析:一步步了解自然语言处理技术

Python词性分析:一步步了解自然语言处理技术 Python是一种高级编程语言,拥有广泛的应用领域。自然语言处理技术是其中一个重要的领域,它包含了词性分析、命名实体识别、句法分析等多项任务。词性分析是自然语言处理中的基本任务之一&#xf…

SCI论文降重技巧盘点 - 易智编译EaseEditing

要想顺利发布SCI论文,首先就是要保证论文的原创性和创新性。要知道论文写作当中对于文献和资料的引用是必不可少的,所以论文的重复率很有可能会超标,对于这点要留意。 免费的查重网站有PaperYY、百度学术查重、Freecheck、Paperpass等等&…

chatgpt赋能python:Python降重:让数据更干净,让SEO更有效

Python降重:让数据更干净,让SEO更有效 在数据处理过程中,数据重复性是一个很常见的问题。而在SEO优化中,数据质量则直接关系到搜索结果的准确性和排名效果。因此,降重是一个非常重要的步骤,让数据更加干净…

工程数学参考用书应用概率统计(陈魁)部分答案1~6章

今天把研究生课程工程数学的作业全部写完了,作业答案就此丢掉未免有点可惜,不如留在此处,留待有缘人! 第一章 随机事件及其概率 习题1.3、1.4、1.5、1.8、1.9、1.12,答案见下图 第二章 离散型随机变量 习题2.1、2.…

二十种题型带你复习《概率论与数理统计》得高分(高数叔)

题型一 事件及概率的运算 知识点 注意: 1 互斥与对立事件 2 事件的差 注意: 1 德摩根律注意: 1 加法公式 2 减法公式(事件的差)题目 注意: 1 填空题注意: 1 德摩根律 2 三个事件的和的公式 3 两个事件的积事件为…

Edexcel ALevel数学P2考题解析

数学是很多学科的基础,同时也是A Level中一门非常重要的课程。是基本所有中国学生会选择的科目,A Level的数学,就学科内容来说,内容的跨度很大,从简单的国内初中知识一直延伸到大学的微积分内容。而且有些下属科目如统…

留学生可以用ChatGPT来钻空子吗?

OpenAI在11月30日发布了ChatGPT,仅在一周内,用户数量就超出了100万人,可以说是爆火出圈了! 然而,很多人也正在试图利用ChatGPT来钻空子。大学生开始用ChatGPT写Essay,科研人用ChatGPT写论文,这让…

深度学习实战7-电商产品评论的情感分析

文章目录 一、前期工作 导入库包导入数据数据处理 二、神经网络模型构建 三、训练模型与测试 大家好,我是微学AI,今天给大家带来一个京东商品评论的情感分析与预测实战案例。 进几年网上购物越来越流行,在加上疫情的缘故,很多…

PHP对接阿里云虚拟号-号码隐私保护

博主使用的fastadmin 封装框架 实现功能:AXN隐私号绑定、解绑; 场景:为店铺手机号开通虚拟号,用户联系店铺展示虚拟号码; 官方开放文档地址:https://help.aliyun.com/document_detail/59655.html?spma2…

在虚拟机里虚拟打电话的代码

首先在布局文件中添加打电话所需要的必要的控件&#xff0c; 以最简单的为例 <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android" xmlns:tools"http://schemas.android.com/tools" android:layout_width"match_parent&q…

【汇正财经顾晨浩】沪深创继续调整

盘面回顾&#xff1a; 周五早盘沪指顶住压力基本红盘震荡&#xff0c;但是到了午后未能幸免继续下调&#xff0c;创业板则是全天弱势领跌&#xff0c;截止收盘沪指跌0.77%&#xff0c;深成指跌1.61%&#xff0c;创业板指跌2.51%。创业板权重权重宁德时代跌逾5%&#xff0c;拖累…

【汇正财经】创强沪弱,资金扎堆流入AI、ChatGPT

盘面回顾&#xff1a; 周五指数分化&#xff0c;呈现出创强沪弱&#xff0c;300价值跌超1%&#xff0c;300成长涨0.4%&#xff0c;中字头个股走低&#xff0c;上证50权重低迷&#xff0c;三大运营商集体调整&#xff0c;ChatGPT概念股连续大涨&#xff0c;算力、游戏等应用方向…

文案改写神器软件-文案改编神器

文案改写神器软件 文案改写神器软件通常致力于通过人工智能技术将一篇已有文案进行改写和改编&#xff0c;以达到复用或优化的目的。以下是文案改写神器软件通常可以做的事情&#xff1a; 改写原文&#xff1a;文案改写神器可以通过自定义规则、语法分析和文本相似性匹配等功能…

重识追觅:千亿机器人“长坡”上的“技术玩家”

最近OpenAI新推出的GPT4.0&#xff0c;让外界再次感受到聊天机器人ChatGPT的技术魅力。从底层逻辑上看&#xff0c;ChatGPT的持续火爆源于此前GPT1.0到GPT3.5乃至GPT4.0的技术迭代&#xff0c;享受了技术复利的力量&#xff0c;成功引爆市场。 许多技术主导型行业&#xff0c;…

微信会员卡管理系统会员充值说明

云上铺微信会员卡管理系统会员充值即会员卡储值进行余额消费一种操作。 基础操作&#xff1a;点击【消费收银】→【会员充值】&#xff0c;显示有【会员充值/扣款/转账/提现】等业务&#xff0c;如下图所示&#xff1a; 会员充值必须先选择会员信息,输入会员卡号&#xff0c;或…

写论文不用构建语料库!只需要福昕PDF阅读器高级搜索

写论文不用构建语料库&#xff01;只需要福昕PDF阅读器高级搜索 文章目录 写论文不用构建语料库&#xff01;只需要福昕PDF阅读器高级搜索前言&#xff1a;“福昕语料库”使用前的准备&#xff1a;调用“语料库”&#xff1a; 前言&#xff1a; 最近论文阅读可以借助NewBing的…