Why Does ChatGPT Fall Short in Providing Truthful Answers?

文章目录

    • 题目
    • 摘要
    • 简介
    • 相关工作
    • 模型和数据集
    • 结果
    • 事实性背后的能力
    • 提高 QA 的事实性
    • 结论

题目

为什么 ChatGPT 无法提供真实的答案?

在这里插入图片描述

论文地址:https://arxiv.org/abs/2304.10513

摘要

    ChatGPT 等大型语言模型的最新进展已显示出影响人类生活各个方面的巨大潜力。然而,ChatGPT 在为用户问题提供可靠和准确的答案方面仍然面临挑战。为了更好地了解该模型在提供真实答案方面的具体弱点,我们开始深入探索开放域问答。具体来说,我们详细检查了 ChatGPT 的失败之处,将其分为:理解力、事实性、特异性和推理。我们进一步指出事实性是导致失败的主要原因,并确定了与事实性相关的两种关键能力:知识记忆和知识回忆。通过专注于事实性的实验,我们提出了几种潜在的增强策略。我们的研究结果表明,用细粒度的外部知识和知识回忆的线索来增强模型可以增强模型在回答问题时的真实性。

简介

    ChatGPT/GPT-4 因其实际应用而获得了广泛认可,为广泛的查询提供了有用且信息丰富的响应。最近的研究对 ChatGPT 在众多 NLP 任务上进行了全面的技术评估,表明 ChatGPT 在各种任务中的表现优于其他模型。然而,尽管 ChatGPT 展现出了令人印象深刻的能力,但研究人员也强调了 ChatGPT 的一些挑战,例如它无法执行可靠的推理 、有效地翻译低资源语言、解决复杂的数学问题并提供准确的信息。虽然这些缺点都有记录,但现有文献中尚不完全清楚。ChatGPT 导致这些挑战的具体局限性。以问答系统为例:模型失败是因为无法推理还是缺乏回答问题的知识?这个问题是由于知识不足造成的,还是模型难以回忆起问题的内部知识?回忆知识的困难是根本原因,还是模型难以理解问题的上下文或意图?在本研究中,我们深入探讨了 ChatGPT 在复杂开放域问答系统中的弱点,因为这项任务与用户的日常搜索需求密切相关,需要广泛的知识以及强大的理解和推理能力。

    我们的目标是确定 ChatGPT 在提供真实答案方面的常见失败模式,找出导致这些失败的 ChatGPT 缺乏的具体能力,并考虑潜在的改进策略为此,我们首先采用主题分析法来分析 ChatGPT 失败的实例,并将其分为四种主要错误类型:理解错误、事实性错误、特异性错误和推理错误。然后,我们将事实性缺陷确定为主要失败,并将知识记忆和知识回忆确定为回答事实性问题的关键能力。此外,我们提出了几种潜在的策略来帮助缓解这些缺陷。我们的结果表明,通过提供细粒度的外部知识和知识回忆线索,可以增强 ChatGPT 的事实性。我们的研究结果为开发更可靠的问答系统提供了实用的见解。

相关工作

    大量研究已对 ChatGPT 的各个方面进行了检查,包括其总体评价、理解能力、数学能力、错误修复性能、分布外 (OOD) 行为、翻译行为和问答性能。尽管 ChatGPT 表现出色,但研究界已发现一些问题,包括其推理、事实准确性、解决复杂数学问题和伦理影响。然而,这些研究主要集中在常见问题的分类和识别上,对导致失败的潜在缺陷的深入研究有限。在这项工作中,我们识别了问答场景中的常见故障,深入研究了导致这些错误的基本能力缺陷,并根据我们的实验见解提出了缓解这些故障的潜在策略。

模型和数据集

    我们专注于复杂的开放域问答,使用两个广泛使用的基准数据集:HotpotQA和 BoolQ,它们都使用维基百科作为知识来源。 我们从 HotpotQA 中选择了 200 个问题来分析 ChatGPT 所犯的错误。 为了评估事实性,我们从 HotpotQA 中另外抽样了 500 个问题,从 BoolQ 中抽样了 1000 个问题。 我们使用这些数据集评估了 GPT-3.5 和 GPT-4 的性能。 为了从 GPT-3.5 和 GPT-4 生成响应,我们使用了公共 OpenAI API。1 4 ChatGPT 的失败 4.1 主题分析 我们使用主题分析 [Braun and Clarke, 2012] 检查了模型对 200 个 HotpotQA 样本的响应,这是一种识别数据中的模式或“主题”的方法。该过程首先从数据中提取初步的“代码”,然后将其组合成更广泛的主题。

    为了确保主题分析严谨而全面,我们采用了双注释者方法。我们要求两位独立的注释者(两人都精通该主题并有定性分析经验)独立审查数据集。最初,他们分别工作以识别代码、分析和报告数据中的模式(主题)。在完成独立分析后,注释者召开协作会议,比较、讨论和协调他们确定的主题中的任何差异。在注释者之间讨论之后,我们将他们分为几个主题,并用额外的 40 个问题验证了这些主题。我们确认可以通过这些主题实现错误的完整表示。

    为了量化注释者之间的一致性程度,我们使用了 Cohen 的 Kappa κ。此统计指标用于评估两位评分者之间超出偶然预期的一致性的可靠性。Cohen’s Kappa 的公式如下:在这里插入图片描述
    在这个公式中,po 代表观察到的一致比例,pe 代表预期的一致比例。在我们的研究中,计算出的编码员间一致性为 0.8394,这表明注释者之间的一致性程度很高。我们最终确定了四个确定的主题:问题理解和意图、事实正确性、特异性水平和推理,称为理解错误、事实性错误、特异性错误和推理错误。理解错误是指未能理解问题的上下文和意图。在我们的实验中,该模型在理解问题方面表现出色,但在面对包含语法错误或歧义的问题时会表现出不足。例如,表 1 理解行中显示的问题对模型提出了挑战,因为疑问代词“what”不正确,应该是“which”。因此,模型无法认识到问题是在用蓝色标记的两个项目中寻求选择,而是将其误解为在最后三个项目中的选择。

    当模型缺乏产生准确答案所需的支持事实时,就会发生事实性错误。这可能是由于模型缺乏对特定实体、属性或事件的了解。表 1 事实性行中的示例显示了当模型对两个管道的长度有不正确的了解时发生的错误。虽然这种类型的错误很简单,但它占了模型中的大多数错误。当模型无法在适当的特异性水平上回答问题时,就会发生特异性错误。这可能表现为模型提供的答案过于笼统或过于具体。例如,在表 1 的特异性行中,对于第一个问题,正确答案是剧作家,但如果模型回答作者,则不够具体。同样,在第二个问题中,基本事实是摇滚,但模型预测 Superheaven 是另类摇滚,Oceansize 是前卫摇滚,并声称它们不属于同一流派。这也被归类为特异性错误。

    当模型拥有回答问题的必要知识,但未能有效地推理事实以得出正确答案时,就会发生推理错误。例如,对于表 1 推理行中的第一个问题,模型可能知道 Muse 有三名成员,The Raconteurs 有四名成员,但仍然错误地声称 Muse 拥有更多成员。此外,该模型可能无法根据常识做出预测。在第二个问题中,尽管知道 Meadowbank 金矿仍在生产黄金,而 Temagami-Lorrain 矿已经停产多年,但该模型仍然无法推断出前者目前由于持续生产而更有价值。

在这里插入图片描述

结果

    我们统计了四个类别的错误频率。我们使用 GPT-3.5 作为基线模型,向其输入了简单的问题。为了研究提供外部证据的效果并研究 GPT-4 的改进,我们还探索了向 GPT-3.5 模型(GPT3.5+evi)提供具有黄金证据(提供问题明确答案的准确信息)的问题,向 GPT-4 模型提供简单的问题。结果总结在表 2 中。根据我们的实验,我们做出了以下观察:

  1. 近一半的失败是由于事实性错误,其次是推理错误、理解错误和特异性错误。
  2. 提供证据不仅解决了事实性问题,而且还显着减轻了理解和特异性错误。
  3. 与 GPT-3.5 相比,GPT-4 模型有所改进,特别是在解决理解和特异性错误方面。然而,事实性只是略有改善。

我们的发现强调了事实性是开放领域 QA 中主要关注点,因为它在错误中占据主导地位,对其他错误类型有影响,而 GPT-4 在这方面的改进不足。
在这里插入图片描述

事实性背后的能力

    正如我们在第 4.2 节中指出的那样,事实性是开放域问答中最关键的问题,因此我们专注于研究事实性。借鉴认知科学对问答中人类记忆组织的研究,我们将事实性错误视为从 LLM 记忆中检索问题相关知识的认知失败。 我们将问题 q 的基本知识 p 定义为回答问题 q 所必需的知识,并确定知识检索过程的两个关键能力:

  • 定义 1(知识记忆) 存在一个适当的提示 s,当输入模型时,将产生基本知识 p。
  • 定义 2(知识回忆) 给定问题 q 作为提示,模型能够输出记忆的基本知识 p。

    针对这两种能力,我们对模型由于缺乏知识而无法回答的问题进行了实验。为了测试知识记忆,我们将基本知识改写为一个问题。例如,在表 3 中,我们通过询问管道长度来评估模型的记忆能力。为了进一步评估知识回忆,我们在同一次对话中重新询问了原始问题。如果模型在这种情况下回答准确,但只问原始问题时回答不准确,则表明存在回忆问题。在表 3 的回忆行中,该模型在前面的相关问题之后正确回答了关于 Chang 出生事件的查询,但没有这个上下文则失败。
我们发现 46 个错误中有 6 个源于回忆问题,其余来自记忆。我们区分知识记忆和回忆的新见解为解决与知识相关的问题提供了新的视角。

提高 QA 的事实性

    在我们之前的实验中,我们证明了事实性错误可能源于知识记忆或回忆。为了研究如何缓解它,我们使用 HotpotQA 和 BoolQ 数据集进行了实验。我们使用简单问题配置和 GPT-3.5 模型作为基线。由于 GPT-3.5 和 GPT-4 具有相似的底层架构和训练过程,我们仅对前者进行了实验以得出观察结果。我们的实验提示如附录 A 所示。为了进行评估,我们使用了部分匹配,它检查基本事实是否是预测的子串。

    知识记忆模型在记忆事实方面的局限性已将研究引向检索增强语言模型,例如使用外部语料库或搜索引擎增强的语言模型。但是,噪音和非必要信息可能会影响检索,例如,值得注意的方法从 Bing 搜索中检索整个网页作为知识。因此,我们将检索到的知识称为上下文信息,并将粒度定义为上下文信息与基本知识的长度比。我们研究了粒度在四种不同粒度设置中对性能的影响。

  • 句子级别。直接在句子级别提供外部知识。
  • 段落级别。我们提供黄金证据句子以及与实体相关的其他句子。
  • 部分级别。我们提供包含黄金证据句子的维基百科部分。

    知识回忆为了缓解知识回忆问题,我们将知识回忆过程视为使用给定的键(默认情况下为简单问题)检索 LLM 内存中的值(基本知识),并测试提供实体相关键是否有助于知识回忆过程。根据提供的键,我们提出了以下设置:

  • 完整的实体名称。我们为模型提供问题中核心实体的完整维基百科名称,例如,对于电影“Samson and Deliah”,我们提供“Samson and Deliah (1984 film)”。
  • 定义句。除了实体名称外,我们还提供实体的初始维基百科句子作为定义或背景,确保不存在基本知识。
  • 随机相关句子。我们还提供实体维基百科页面中的其他随机句子以及实体名称,再次避免基本知识。

    发现I.外部知识的粒度越细,结果越好。表4(顶部)显示,外部知识的整合可提高性能,并且有效性受知识粒度的影响。将基本知识与其他句子一起包含会影响(尽管影响很小)结果,而使用带有证据的整个维基百科部分会大大降低性能提升。这表明,输入知识粒度越粗,性能越低。

在这里插入图片描述

    发现 II. 提供相关键有助于回忆基本知识。表 4(底部)表明,为模型提供键可以提高准确性。提供完整的实体名称可以提高性能,而提供实体背景或定义句子可以进一步帮助回忆知识,即使没有基本知识也是如此。但是,来自实体维基百科页面的随机句子并不能提高性能,反而会降低性能。

基于这些发现,我们从 LLM 研究的角度探索了提高问答真实性的策略。

  • 提供具有细粒度的外部上下文作为证据,帮助记忆基本知识。虽然 LLM 拥有大量的隐性知识,但显然仍有大量知识在训练期间难以覆盖或在推理期间难以回忆。因此,根据我们的研究结果,构建一个基于问题的 IR 系统以更细粒度地检索知识将很有帮助。在 New Bing2、Bard3 和 ChatGPT 插件4 等系统中,已经观察到一些朝这个方向的尝试。
  • 提供实体描述作为键来帮助回忆基本知识。在我们的分析中,我们观察到有时 ChatGPT 确实记住了解决问题的基本知识,但无法回忆起问题相关的知识。Huang 等人的研究中强调了一个相关发现,他们观察到虽然语言模型可以记住大量的电子邮件地址,但它们很难将特定的电子邮件地址与相应的个人姓名关联起来。提高回忆能力可能是开发更强大的语言模型的一个有趣方向。

结论

    我们的研究探讨了 ChatGPT 在真实开放域问答环境中的常见错误,确定了四种错误类型,并指出事实性错误是最关键的错误。我们进一步定义了基本知识,并研究了与事实性相关的两种关键能力:知识记忆和知识回忆。我们研究了证据粒度对知识记忆的影响,并为知识回忆提供了相关关键点。我们最后提出了一些方法来提高 ChatGPT 在问答中的事实性,有助于理解事实性,并为增强问答系统和语言模型提供见解,促进更可靠的 LLM。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/405775.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库学习(进阶)

数据库学习(进阶) Mysql结构:连接层:服务层(核心层):存储引擎层:系统文件层: 存储引擎(概述):存储引擎特点:InnoDB存储引擎:(为并发条…

【C++ 面试 - 面向对象】每日 3 题(二)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏&…

C语言钥匙迷宫2.0

目录 开头程序程序的流程图程序游玩的效果结尾 开头 大家好&#xff0c;我叫这是我58。废话不多说&#xff0c;咱们直接开始。 程序 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> #include <string.h> #include <Windows.h> enum color {Y,B,R …

裸金属服务器和裸金属云服务器:区别、优势与选择

首先&#xff0c;必须肯定的是&#xff1a;裸金属服务器和裸金属云服务器是有区别的。 ‌ 二者的概述 裸金属服务器&#xff08;‌Bare Metal Server&#xff09;‌是一种物理服务器&#xff0c;‌它直接在硬件上运行&#xff0c;‌没有额外的虚拟化层。‌这意味着每个应用程…

ChatGLM-4-9b-chat本地化|天翼云GPU上vLLM本地部署开源模型完整攻略

“ 拥有一个私有化的领先国产开源大模型&#xff1f;本文详细介绍了如何在天翼云GPU上使用vLLM部署ChatGLM-4-9b-chat本地化模型的完整攻略&#xff0c;助您快速上手。” 01 — vLLM 本来打算用ollama在GPU服务器上部署开源模型GLM4&#xff0c;在之前文章有部署教程&#xff1…

刷题篇 - 03

题目一&#xff1a; 203. 移除链表元素 - 力扣&#xff08;LeetCode&#xff09; public ListNode removeElements(ListNode head, int val) {//1. 如果链表为null&#xff0c;直接返回headif (head null) {return head;}//2. 定义快慢指针ListNode pre head;ListNode del …

Tomcat:Web 领域的闪耀明珠,魅力何在?

一、Web技术 HTTP 协议&#xff08;HyperText Transfer Protocol&#xff0c;超文本传输协议&#xff09;是互联网上应用最为广泛的一种网络协议。它的主要作用是在客户端和服务器之间传输超文本数据&#xff0c;如网页、图片、视频等。 HTTP 协议的特点 无状态性 HTTP 协议是…

STM32H7双路CAN踩坑记录

STM32H7双路CAN踩坑记录 目录 STM32H7双路CAN踩坑记录1 问题描述2 原因分析3 解决办法4 CAN配置参考代码 1 问题描述 STM32的CAN1和CAN2无法同时使用。 注&#xff1a;MCU使用的是STM32H743&#xff0c;其他型号不确定是否一样&#xff0c;本文只以STM32H743举例说明。 2 原因…

了解同步带选择同步带

同步带和轮选型 同步带传动属于皮带传动&#xff0c;但是改进了传统皮带传动无法保持严格的传动比的打滑问题&#xff0c;传统皮带传动依靠皮带和皮带轮张紧时产生的摩擦力传输动力&#xff0c;但是从动轮遇到障碍或超载荷时&#xff0c;皮带会在皮带轮产生滑动。 解决打滑问题…

项目1 物流仓库管理系统

一、项目概述 本项目旨在开发一个功能全面的物流仓库管理系统&#xff0c;以数字化手段优化仓库作业流程&#xff0c;提高管理效率。系统集成了前端用户交互界面与后端数据处理逻辑&#xff0c;涵盖了从用户注册登录、订单管理、货单跟踪到用户信息维护等多个核心业务模块。通…

前端3d动画-----平移 transform: translate3d()

必须加这个属性&#xff1a;transform-style: preserve-3d; perspective: 900px; 设置了景深才能感到近大远小的感觉 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible&q…

分享一个基于python爬虫的“今日头条”新闻数据分析可视化系统(源码、调试、LW、开题、PPT)

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人 八年开发经验&#xff0c;擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等&#xff0c;大家有这一块的问题可以一起交流&…

AI赋能软件测试:从自动化到智能化,让测试工作事半功倍

引言 在当今这个日新月异的数字时代&#xff0c;人工智能&#xff08;AI&#xff09;正以不可阻挡之势渗透并重塑着各行各业&#xff0c;其中&#xff0c;软件开发与测试领域更是迎来了前所未有的变革。随着软件系统的复杂性日益增加&#xff0c;用户对软件质量、性能及安全性的…

Nginx笔记(高级)

扩容 通过扩容提升整体吞吐量 单机垂直扩容&#xff1a;硬件资源增加 云服务资源增加 整机&#xff1a;IBM、浪潮、DELL、HP等CPU/主板&#xff1a;更新到主流网卡&#xff1a;10G/40G网卡磁盘&#xff1a;SAS(SCSI) HDD&#xff08;机械&#xff09;、HHD&#xff08;混合&…

android13布局查看工具 无源码查看布局 在线查找ui布局id

总纲 android13 rom 开发总纲说明 目录 1.前言 2.工具介绍 2.1工具1 2.2工具2 2.3工具3 2.4工具4 3.彩蛋 1.前言 Android 13提供了一些工具来帮助开发人员查看和优化应用的布局。方便的让我们找到具体应用的布局文件等信息。 2.工具介绍 2.1工具1 老版本DDMS&#x…

封装通用第三方平台用户表(微信开放平台)

文章目录 一. 注册微信开放平台1.1 开发者资质认证1.2 应用申请1.3 配置应用 二.通用数据库表设计三.入库实体类四. 对接第三方平台4.1 微信开放平台VO对象4.2 通用方法 我们的系统可能要对接很多第三方系统&#xff0c;为了便利用户授权使用和对多平台账户的管理。有必要设计通…

ant design pro 技巧之实现列表页多标签

ant design pro 如何去保存颜色ant design pro v6 如何做好角色管理ant design 的 tree 如何作为角色中的权限选择之一ant design 的 tree 如何作为角色中的权限选择之二ant design pro access.ts 是如何控制多角色的权限的ant design pro 中用户的表单如何控制多个角色ant des…

影响五金精密零件加工价格的因素

在制造业中&#xff0c;五金精密零件的加工价格受到多种因素的影响。了解这些因素&#xff0c;对于企业合理控制成本、选择合适的加工供应商至关重要。 首先&#xff0c;零件的设计复杂度是一个重要因素。复杂的设计通常需要更先进的加工技术和更多的加工工序。例如&#xff0c…

Unity编辑器扩展:创建一个欢迎窗口,在启动Editor的时候显示自定义窗口。

Unity编辑器扩展&#xff1a;创建一个欢迎窗口&#xff0c;在启动Editor的时候显示自定义窗口。 在Unity开发过程中&#xff0c;经常会遇到需要向其他人展示重要信息的情况&#xff0c;比如项目文档、脚本说明、插件介绍等。这个窗口不仅能够展示必要的文档信息&#xff0c;还…