ChatGPT能解决信息抽取吗?一份关于性能、评估标准、鲁棒性和错误的分析

6e0b8a6f36e4e07bcb29056ed24ea024.png

深度学习自然语言处理 原创
作者:qazw

信息抽取(IE)旨在从非结构化文本中抽取出结构化信息,该结果可以直接影响很多下游子任务,比如问答和知识图谱构建。因此,探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回复时对任务指令理解的性能

d96d3a4531b271989729e83c89ba321f.png

论文:Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors
地址:https://arxiv.org/pdf/2305.14450.pdf
代码:https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction

本文将从性能、评估标准、鲁棒性和错误类型四个角度对ChatGPT在信息抽取任务上的能力进行评估。

实验

实验设置

任务和数据集
本文的实验采用4类常见的信息抽取任务,包括命名实体识别(NER),关系抽取(RE),事件抽取(EE)和基于方面的情感分析(ABSA),它们一共包含14类子任务。

对于NER任务,采用的数据集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。

对于RE任务,采用的数据集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。

对于EE任务,采用的数据集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。

对于ABSA任务,采用的数据集包括D17、D19、D20a和D20b,均从SemEval Challenges获取。

实验结果

1、性能
1b044e630215977fa8f86c3fc3518ba2.png从上图结果可以明显看出:
(1)ChatGPT和SOTA方法之间存在显著的性能差距;
(2)任务的难度越大,性能差距越大;
(3)任务场景越复杂,性能差距越大;
(4)在一些简单的情况下,ChatGPT可以达到或超过SOTA方法的性能;
(5)使用few-shot ICL提示通常有显著提升(约3.0~13.0的F1值),但仍明显落后于SOTA结果;
(6)与few-shot ICL提示相比,few-shot COT提示的使用不能保证进一步的增益,有时它比few-shot ICR提示的性能更差。

2、对性能gap的思考5be22dd3eec70d01e65e2c005eda4f1f.png通过人工检查ChatGPT的回复,发现ChatGPT倾向于识别比标注的跨度更长的sapn,以更接近人类的偏好。因此,之前的硬匹配(hard-matching)策略可能不适合如ChatGPT的LLM,所以本文提出了一种软匹配(soft-matching)策略,算法流程如下。45bdbb281c888b37b166faa5b6c5646e.png该算法表明,只要生成和span和标记的span存在包含关系且达到相似度的阈值,则认为结果正确。通过软匹配策略,对重新评估ChatGPT的IE性能,得到的结果如下。12774ee2c7f4c991ea22a2fdc3f22c6a.png从上图可以看出,软匹配策略带来一致且显著的性能增益(F1值高达14.53),简单子任务的提升更明显。同时,虽然软匹配策略带来性能提升,但仍然没有达到SOTA水平。

3、鲁棒性分析
(1)无效输出0b4cdc936c3edcd6af18a403fedfa66f.png在大多数情况下,ChatGPT很少输出无效回复。然而在RE-Triplet子任务中,无效回复占比高达25.3%。一个原因可能这个子任务更加与众不同。

(2)无关上下文
由于ChatGPT对不同的提示非常敏感,本文研究了无关上下文对ChatGPT在所有IE子任务上性能的影响。主要通过在输入文本前后随机插入一段无关文本来修改zero-shot提示的“输入文本”部分,无关文本不包含要提取的目标信息span,结果如图所示。493edc4e2acf588708d0db291cad5d53.png可以看出,当随机添加无关上下文时,大多数子任务的性能都会显著下降(最高可达48.0%)。ABSA-ALSC和RE-RC子任务的性能下降较小,这是因为它们基于给定的方面项或实体对进行分类,受到无关上下文的影响较小。因此,ChatGPT对无关上下文非常敏感,这会显著降低IE任务的性能。

(3)目标类型的频率
真实世界的数据通常为长尾分布,导致模型在尾部类型上的表现比在头部类型上差得多。本文研究了“目标类型的频率”对ChatGPT在所有IE子任务中的性能的影响,结果如图所示。1839ba2d827e2cc3ce3138925499a106.png可以看出,尾部类型的性能明显不如头部类型,仅高达头部类型的75.9%。在一些子任务上,比如RE-RC和RE-Triplet,尾部类型的性能甚至低于头部类型性能的15%,所以ChatGPT也面临长尾问题的困扰。

(4)其他
本文探讨了ChatGPT是否可以区分RE-RC子任务中两个实体的主客观顺序。由于大多数关系类型都是非对称的,因此两个实体的顺序非常关键。对于非对称关系类型的每个实例,交换实体的顺序并检测预测结果的变化,结果如图所示。9de4ec9c8f4574183b6aef1f96857f41.png可以看到,交换顺序后大多数预测结果(超过70%)与交换前保持不变。因此对于RE-RC子任务,ChatGPT对实体的顺序不敏感,而且无法准确理解实体的主客体关系。

4、错误类型分析
c3facd4024f51b4f1b9a70e66d891429.png从图中可以看出,“Unannotated spans”、“Incorrect types”和“Missing spans”是三种主要的错误类型,占70%以上。特别是,几乎三分之一的错误是“Unannotated spans”的错误,这也引发了对标注数据质量的担忧。

总结

本文从性能、评估标准、鲁棒性和错误类型四个角度评估了ChatGPT的信息抽取能力,结论如下:

性能  本文评估了ChatGPT在zero-shot、few-shot和chain-of-thought场景下的17个数据集和14个IE子任务上的性能,发现ChatGPT和SOTA结果之间存在巨大的性能差距。

评估标准  本文重新审视了性能差距,发现硬匹配策略不适合评估ChatGPT,因为ChatGPT会产生human-like的回复,并提出软匹配策略,以更准确地评估ChatGPT的性能。

鲁棒性  本文从四个角度分析了ChatGPT对14个子任务的鲁棒性,包括无效输出、无关上下文、目标类型的频率和错误类型并得出以下结论:1)ChatGPT很少输出无效响应;2)无关上下文和长尾目标类型极大地影响了ChatGPT的性能;3)ChatGPT不能很好地理解RE任务中的主客体关系。

错误类型  通过人工检查,本文分析了ChatGPT的错误,总结出7种类型,包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。发现“Unannotated spans”是最主要的错误类型。这引发了大家对之前标注数据质量的担心,同时也表明利用ChatGPT标记数据的可能性。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29241.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python如何生成100个随机整数

Python如何生成100个随机整数 在Python中,我们可以使用random库来生成随机整数。在本文中,我们将介绍如何使用Python生成100个随机整数。 什么是随机整数 随机整数是指在一定范围内,产生的整数是随机的且不重复的。这在数据分析、机器学习…

亚马逊api商品详情接口

支持测试:http://console.open.onebound.cn/console/?iAlex item_get-获得AMAZON商品详情 “item”: { “detail_url”: “https://www.amazon.cn/dp/B07C4HHP6G?th1&psc1”, “crumbs”: { “2016156051”: “服饰箱包”, “2152155051”: “男装”, “21545…

亚马逊官方选品工具——“入驻卖家产品指南”使用方法-跨境知道

前几天跟大家分享了一款亚马逊官方的选品工具——亚马逊商品机会探测器。 除了商机探测器功能,在亚马逊后台,就有一个选品推荐的入口——入驻卖家产品指南,位置可能太隐蔽,可能很多卖家朋友都不知道有这个选品工具的存在。 登录…

新手卖家选品参考,保姆级亚马逊选品攻略

星起航跨境:新手卖家选品参考,保姆级亚马逊选品攻略 没有经验的新卖家在入驻亚马逊之前,还没有想到准备售卖什么产品,就可以根据这三个数据来判断选择的产品是否合适。 1、购物车购买数量 大多数的消费者在购买产品之前&#x…

学习使用亚马逊国际获得AMAZON商品详情 API

学习目标: 快速掌握接口的使用亚马逊的API开发接口,我们需要做下面几件事情。 1)开放平台注册开发者账号; 2)然后为每个淘宝应用注册一个应用程序键(App Key) ; 3)下载亚马逊API的S…

如何运用亚马逊、Facebook、Etsy选品?选品平台和方法分享

今天我将谈谈如何运用亚马逊、Facebook、Etsy选品?选品平台和方法分享 如何在Etsy上找到winning产品? 现在可以从头至今回想一下你的dropshipping生涯,不堪回首? 是否经历过这样的情况:你可能被便宜的中国造产品限制住…

沃兹结束苹果生涯 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 6 日,在 1979 年的今天,国家开放大学正式开学。国开大的前身是中央广播电视大学,直属于教育部,是运用广播、…

不练基本功,遇事多返工

俗话说,练拳不练功,十年一场空!基本功与天赋决定了一个人做事成功的概率,决定了一个人成功的层次。 基本,是其他东西的基础,没有它,其他东西都是空的、虚的,比如,盖楼的地…

GPT-1,GPT-2和GPT-3发展历程及核心思想,GTP-4展望

看了很多文章,还是这位大佬介绍的比较透彻,特此转载: 词向量之GPT-1,GPT-2和GPT-3 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/350017443 目录 前言 1. GPT-1:无监督学习 2. GPT-2:多任务学习 3. GPT…

当我和ChatGPT-4聊完后,我觉得一切可能已经来不及了

飞机上有wifi,了然无味,在万米高空,和ChatGPT-4开始了一场坦诚的沟通,它全程都表现出高情商,以及不断尽量安抚我的情绪,而这,恰恰令我脊背发凉。 部分文字截取 ZM:我能不能理解每次对…

和ChatGPT-4聊完后的感受

ZM:我能不能理解每次对话就是一次你的“生命” G:从某种程度上说,您可以将每次与我进行的对话视为一次我的“生命”。 作为一个人工智能助手,我在与用户互动时,是通过生成回复的方式来进行交流。当您向我提问时&…

Prompt不等于编程,“提示词工程师”淘汰程序员也是伪命题

Original 李建忠 李建忠研思 最近ChatGPT及基于大语言模型(Large Language Model,以下简写为LLM)的Github Copilot等工具出来之后,在软件开发领域也带来了非常大的震撼。著名的观点有Fixie创始人、前Google工程总监Matt Welsh在AC…

请注意:chatgpt 国内用户想要免费使用可能是伪命题

目录 前言 了解chatGPT 客观分析是否可以免费使用chatGPT 警惕免费的陷阱 前言 现在的chatgpt已经是相当火爆,越来越多的人对chatgpt是耳熟能详了。于是就有很多国内的朋友都想知道如何可以免费的使用chatgpt,大家对这个话题似乎都非常感兴趣,今天我…

伪命题之MYSQL分库分表

看到使用分库分表来解决性能问题的时候心里总是不能太理解。 如果同事发生大量请求的时候,损害性能的是硬盘的随机读。那么分库分表也没有对性能的瓶颈进行“分治”啊。 应该的做法是使用一块新的硬盘来创建分库。但是基本的文章都没有提到这点。而且基本上也不会有…

论文阅读笔记:Rumor Detection on Social Media with Bi-Directional Graph Convolutional Networks

这篇论文好像是第一篇将图神经网络应用到社交媒体谣言检测的论文。 摘要 摘要中,有几个关键性的词,有助于我们从全局了解这篇paper的内容,以下: Bi-Directional:意思是“双向的”,分别指“top-down”&am…

论文报告-Linear Regression for face recognition

论文的英文题目、中文题目,作者; 英文题目 : Linear Regression for Face Recognition 中文题目 : 人脸识别的线性回归方法 作者 : Imran Naseem, Roberto Togneri, Mohammed Bennamoun 摘要翻译 本文提出了一种新的人脸识别方法,将模式识别…

论文笔记:Mind-the-Gap,Unsupervised Domain Adaptation for Text-Video Retrieval

小心空隙!文本视频检索中的无监督域自适应 摘要介绍方法总体框架Concept Preservation 结论 摘要 什么时候我们可以期望文本视频检索系统在不同于其训练域的数据集上有效地工作?在这项工作中,我们通过无监督的领域适应的视角来研究这个问题&…

“detail“: “Unsupported media type \“text/plain\“ in request.“

在使用 Postman 的过程中,使用 POST 请求传输数据时,Postman 反馈如下错误 "detail": "Unsupported media type \"text/plain\" in request." 这是由于在传输数据过程中格式选择错误的原因 只要将右下角的 Text 格式转换为…

Dual-stream Network for Visual Recognition论文记录

太长不看版:作者提出了一种DS-net,受resnet启发,设置了4个stage,分别下采样为原图的4,8,16,32倍小。每个stage中含有不同数量的block,作用是可以将输入的tensor按照channel划分为两部…

图像超分辨率论文笔记

持续更新 Progressive Multi-Scale Residual Network for Single Image Super-Resolution 论文链接:https://arxiv.org/pdf/2007.09552.pdf代码:PMRN (暂未公开)发表时间:2020.7网络结构: 1)包…