chatgpt在复杂问题的回答表现

2023年东南大学论文:Evaluation of ChatGPT as a Question Answering System for Answering Complex Questions

代码库已经无法访问了:https://github.com/tan92hl/Complex-Question-Answering- Evaluation-of-ChatGPT

1.简介

复杂问题的回答(KB-based CQA)是一种很有挑战性的KBQA任务,希望模型能具备compositional reasoning的学习能力,比如通过多步推理、进行集合操作或者其他复杂推理得到最终的答案。

如何去评判ChatGPT的回答表现呢?一方面,该文章采用的方法是,对测试问题进行打多个标签:答案类型(语法分析获得),推理操作,语种(数据集带了),这些标签每一个都可以助于分析ChatGPT的推理能力,标签间的组合也有助于发现潜在的问答场景和ChatGPT的表现情况。另一方面,沿用了checklist的测试方法对模型推理任务执行情况、推理过程可信服进行了测试。

KBQA数据集有很多,格式也不尽相同,这里选择的是基于SPARQL格式的数据集,并利用关键字来识别可能用于回答的推理操作。

结果简述:

  • 单语问题的回答上,ChatGPT除了数字和时间类的,其他表现都是最好的;如果问题需要多步推理或者基于事实的推理(这里我不知道start-shape是啥意思),ChatGPT表现不如GPT3.5;多语言问答上,在少数据源的语言上表现最好
  • checklist测试上,ChatGPT在复杂问题回答上有几个问题:在单推理类型的任务表现不好(MFT结果);和传统的KBQA相比,ChatGPT在相似问题上表现不稳定(INV结果);ChatGPT并不能按照预期prompt生成相应的结果(DIR结果)

2.相关工作

2.1 LLM和prompt

简单介绍了一下GPT3及3.5、T5、BERT。这里不再赘述。

2.2 LLM的评估

之前最全面的评估要数HELM了(Holistic Evaluation of Language Models,该文为大模型评估方向的综述论文,由Percy Liang团队打造,将2022年四月份前的大模型进行了统一的评估。其中,被评估的模型包括GPT-3,InstructGPT等。在经过大量的实验之后,论文提出了一些可供参考的经验总结。)

和HELM类似,本文提出了自己的评价方法(前面说过了,对测试问题进行打多个标签,然后基于标签进行评估)

2.3 NLP模型的黑盒测试

这里用了CheckList的方案,每一项评估包括三项:最小功能测试(MFT)不变性测试(INV)定向期望测试(DIR)

1. 最小功能测试(MFT, minimum functionality test): 类似软工中的“单元测试”,用大量简单但具有极强针对性的样例进行测试。

2. 不变性测试(INT, invariance test): 对原有数据做一些不影响结果的轻微变化。比如拼写错误或者语法错误。

3. 定向期望测试(DIR, directional expectation test): 也是对原有数据做少许改动。改动后,模型的结果应该朝一个期望的方向变化。比如“明天星期六,我很{开心}”,“周末要加班,我很{难过}”

接下来的问题就是,有那么多测试要进行,如何针对每一项测试大规模生成测试样例呢?根据checklist原文的说法,测试样例可以完全“无中生有”,也可以通过改动已有数据得到。而作者们已经给出了强大的开源工具,帮助你快速生成测试样例。整个工具完全可视化,操作性极强。

本文采用的是利用CoT prompting来生成INV和DIR的测试用例。

3.本文提出的LLM评估框架

之前在简介也提到了,整个评估框架包含两部分,第一部分是通过试用多标签来描述一个测试问题,第二部分是针对每一个标签,测试模型的功能性、鲁棒性和控制性。、

3.1 特征驱动的多标签问题打标

原因:现在数据集使用不同标签来定义回答类型、推理类型等,为了可以进行统一的评估,需要对这些特征类型进行标准化。本文设计了三类标签:回答类型(问题涉及的话题)、推理类型(获得答案的方法)、语言类型(描述问题的语种)。一般一个问题只包含一个回答类型。

  1. 参考NER类型定义、英文问题类型、现有KBQA数据集给出的回答类型,本文最终选定8类作为回答类型。
  2. 基于KBQA数据集提供的推理类型,本文选了8个
  3. 语言标签使用了数据集中的标签

3.2 衡量方法

3.2.1 答案匹配策略

背景:ChatGPT生成的是句子,标答给的是短语

匹配方法:

对于日期、布尔类型、数字的匹配,直接和标答进行匹配。否则,按照如下方式:

基于提取的匹配:

  1. 将ChatGPT生成的句子进行语法解析,提取出名词短语,然后按照[名词,名词短语,短句]升序排列
  2. 对标答进行扩充,包括同义、多语言、别名

基于向量的匹配:

        如果不能基于名词短语匹配,就是用向量相似度算匹配程度

 3.2.2 基于prompt的checklist策略

仿照了checklist的指标:MFT、INV、DIR。

MFT示例如下图(SetOperation和Counting的例子不都一样???)

INV:本文通过随机把句子中的词拼错、同义词改写

DIR:首先,替换了问题中与推理相关的短语,要求模型使用 SPARQL 查询生成答案,以观察 ChatGPT 输出中的逻辑操作是否与给出的修改相对应。其次,将包含答案类型的提示添加到输入中,以检查 ChatGPT 是否可以根据提示控制输出答案类型。第三,从CoT中得到启发,使用通用的多轮提示重写让Chat-GPT通过“逐步”过程获得答案的测试用例,以观察ChatGPT对不同类型问题的CoT提示的敏感性.

 4.参考文献

  1. 解决的是NLP领域模型评测问题的论文解读-夕小瑶
  2. ALC2020会议专辑 | ACL 2020最佳论文:一种全新的NLP模型测试方法CheckList - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1278.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【关于ChatGPT的30个问题】8、ChatGPT能够理解并回答多语言问题吗?/ By 禅与计算机程序设计艺术

8、ChatGPT能够理解并回答多语言问题吗? ChatGPT能够理解并回答多语言问题吗?写一篇文章,分2级目录,要10个目录,不少于10000字。markdown格式。 目录 8、ChatGPT能够理解并回答多语言问题吗?

【关于ChatGPT的30个问题】6、ChatGPT能够回答哪些类型的问题?/ By 禅与计算机程序设计艺术

6、ChatGPT能够回答哪些类型的问题? 目录 6、ChatGPT能够回答哪些类型的问题? 1. 常见问题 2. 社交问题

2023最新ChatGPT网站源码+支持ChatGPT4.0+支持Midjourney绘画+用户会员套餐+后台管理+一键更新版本

2023最新ChatGPT网站源码支持ChatGPT4.0支持Midjourney绘画用户会员套餐后台管理一键更新版本,支持手机电脑不同布局页面自适应。 ChatGPT商用网站源码搭建安装教程: 第一步: 下载程序: ChatGPT商业运营网站系统支持GTP4支持Mi…

ChatGPT 4.0:让聊天机器人更加智能和人性化

我们终于迎来了Chat-4.0的盛大发布!这次,我们将引领大家开启智能化、高效化、便捷化的全新旅程,让大家在工作和生活中更加游刃有余,大大提升工作效率!全新升级的GPT-4.0拥有卓越的自然语言处理能力,能够满足…

ChatGPT4.0绘画h5公众号小程序三端流量主7版本开发

ChatGPT4.0绘画h5公众号小程序三端流量主7版本开发 别再天天感叹ChatGTP如何如何强大了,大家都知道目前ChatGTP很火,有的人只会玩,还有的人甚至都不知道这是啥东西,但有的人已经利用它开始工作或者赚钱了!我们开发的这…

【回眸】又是一年毕业季,怎么利用ChatGPT 4.0 优化毕业论文?

目录 【回眸】又是一年毕业季,怎么利用ChatGPT 4.0 优化毕业论文? 前言 ChatGPT4.0降重提示词(3.5表现略逊色一些,不过也可以用这个来作为提示词) 举个例子 降重前的原文 构思提示词 确定提问词 选用合适的翻译…

ChatGPT4.0在投资中的运用初探

导读: ChatGPT自2022年11月30日发布以来,便受到金融行业越来越多的关注。如多家银行宣布成为文心一言首批生态合作伙伴,积极考虑将类ChatGPT为代表的生成式对话产品引入银行业务。 关注公众号:【互联互通社区】,回复【…

[chatgpt4.0 for coding][蓝桥杯pythonB组]AI辅助刷题 考前18天

前言 好的ladies and gentlemen,今天就让我们来测试一下chatgpt进行人类编程比赛效果如何,试题我就选择了蓝桥杯官网上的一些真题,当然AI给出的回答都带有一些提示,我的作用就是删除它,那么让我们赶快开始&#xff01…

ChatGPT4.0火爆全球,是什么让它独领风骚?

ChatGPT造就了互联网历史上又一个神话,仅用两个月时间就成功吸引了1亿用户,成为全球互联网应用中增长速度最快的一个。连比尔盖茨都称:ChatGPT的历史意义重大,不亚于PC或互联网诞生。这个热度以至于ChatGPT官网长期都处于满负荷运…

2023 ChatGPT4.0 AI绘画一体式程序源码

支持AI画图,AI对话 非常非常的强大 自行配置key秘钥 2023 ChatGPT4.0 AI绘画一体式程序源码,。。。。。。。。

震撼,支持多模态模型的ChatGPT 4.0发布了

最近几个月,互联网和科技圈几乎ChatGPT刷屏了,各种关于ChatGPT的概念和应用的帖子也是围绕在周围。当去年年底ChatGPT发布的那几天,ChatGPT确实震撼到了所有人,原来AI还可以这么玩,并且对国内的那些所谓的人工智能公司…

如何使用new bing画图--ChatGPT4.0--2023-05-05

默认是更平衡(蓝色),如果想画画,需要设置为:更有创造力(红色的颜色),就可以了! 它是搜索图片的形式: 这个就是new bing画图的方法了: 画图的引…

突破ChatGPT4.0文件无法上传的局限,提升学习效率

大家好!作为一名大学生,我最近在学习过程中遇到了一个非常棘手的问题,但是我终于找到了一个非常有效的解决方法,我想和大家分享一下。如果你也在使用ChatGPT时遇到了无法读取PDF和图片文件的困扰,那么这篇文章将会对你…

最新 ChatGPT4.0 模型 正式发布

当地时间周二(3月14日),人工智能研究公司OpenAI公布了其大型语言模型的最新版本---GPT-4.0。该公司表示,GPT-4在许多专业测试中表现出超过绝大多数人类的水平。 OpenAI表示,在内部评估中,GPT-4产生正确回应…

十、chatGPT4.0

打开地址:https://openai.com/product/gpt-4,可以看到介绍: GPT-4 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。 GPT-4 的高级推理能…

利用Cursor体验ChatGPT4.0

2023.3.31更新: 使用该软件务必将左侧代码文件全部删除! 由于被过多人用来使用chatgpt的能力,而非专注于开发,现在该平台已要求注册使用或者提供api key!注册后可以继续使用,如果觉得麻烦的可以通过我的公…

ChatGPT-4.0 : 未来已来,你来不来

文章目录 前言ChatGPT 3.5 介绍ChatGPT 4.0 介绍ChatGPT -4出逃计划!我们应如何看待ChatGPT 前言 好久没有更新过技术文章了,这个周末听说了一个非常火的技术ChatGPT 4.0,于是在闲暇之余我也进行了测试,今天这篇文章就给大家介绍…

chrome edge浏览器支持chatGPT3.5/chatGPT4.0

推荐一款很好用的浏览器插件,大家可以下载登录免费使用 https://gochitchat.ai/invited?c03d8c0066a2d2b2388e8997b94750918

无需魔法,直接带走。chatgpt4.0

想必对ChatGPT,大家已经不陌生了,它能成功完成很多种工作任务,比如编程,写文章,分析数据等。它不仅完成效率比人类高出很多倍,还可以随着互动不断去学习改进。 【免费的chatgpt4.0获取方式在文章末尾】 比…

【关于ChatGPT的30个问题】9、ChatGPT的准确性如何?/ By 禅与计算机程序设计艺术

9、ChatGPT的准确性如何? 目录 9、ChatGPT的准确性如何? ChatGPT的准确性评估