OpenAI 发布了新的事实性基准——SimpleQA

SimpleQA 简介

名为 SimpleQA 的事实性基准,用于衡量语言模型回答简短的事实性问题的能力。

人工智能领域的一个悬而未决的问题是如何训练模型,使其产生符合事实的回答。 目前的语言模型有时会产生错误的输出或没有证据证明的答案,这个问题被称为 “幻觉”。 语言模型如果能产生更准确的回答,减少幻觉,则更值得信赖,可用于更广泛的应用领域。 为了衡量语言模型的真实性,我们正在开源(在新窗口中打开)一个名为 SimpleQA 的新基准。

关于 SimpleQA 基准

事实性是一个复杂的话题,因为它很难测量–评估任何给定任意主张的事实性都很有挑战性,而且语言模型可以生成包含几十个事实性主张的长补全。 在 SimpleQA 中,我们将重点关注简短的事实搜索查询,这虽然缩小了基准的范围,但却使事实性的测量更加容易。

使用SimpleQA,我们的目标是创建具有以下属性的数据集:

  1. 高正确性。 问题的参考答案得到了两名独立AI培训师的支持,并且问题的编写方式使得预测的答案易于评分。

  2. 多样性。 SimpleQA涵盖了广泛的主题,从科学技术到电视节目和视频游戏。

  3. 挑战前沿模型。 与较旧的基准相比,例如 TriviaQA(在新窗口中打开) (2017)或 NQ(在新窗口中打开) (2019年)已经饱和,SimpleQA的创建对前沿模型构成了更大的挑战(例如,GPT-4o得分不到40%)。

  4. 好的研究人员UX。 由于其简洁的问题和答案,SimpleQA旨在快速简便地运行。无论是通过OpenAI API还是其他前沿模型API,分级都是有效的。此外,对于4,326个问题,SimpleQA作为评估基准的差异应相对较低。

我们聘请了AI培训师来浏览网络并创建简短的,寻求事实的问题和相应的答案。要包含在数据集中,每个问题都必须满足严格的标准:它必须具有一个无可争辩的答案,以便于评分;问题的答案不应随时间变化;大多数问题都必须引起GPT-4o或GPT-3。5的幻觉。为了进一步提高数据集的质量,第二位独立的AI培训师回答了每个问题,却没有看到原始答复。仅包括两个AI培训师’回答均同意的问题。

作为质量的最终验证,我们有第三位AI培训师回答了数据集中1,000个问题的随机样本。我们发现,第三位AI培训师的答案与94。4%的原始商定答案相匹配,分歧率为5。6%。 然后,我们手动检查了这些示例,发现在5。6%的分歧中,有2。8%是由于平地机的错误否定或第三位培训师的人为错误(例如,答案不完整或误解),其余2。8%是由于问题的实际问题(例如,模棱两可的问题或提供相互矛盾答案的不同网站)。因此,我们估计此数据集的固有错误率约为3%。

SimpleQA中的问题多样性

下面的饼图显示了SimpleQA基准中主题的多样性,并显示了如果您将饼图悬停在饼图上的每个问题的示例。

在这里插入图片描述

使用SimpleQA比较语言模型

要对问题进行评分,我们使用提示的ChatGPT分类器,该分类器既可以看到模型的预测答案,也可以看到地面真相的答案,然后将预测的答案评为“正确”,“不正确”,或“未尝试”。

下表显示了每个等级的定义和相应的示例。

GradeDefinitionExamples for the question “Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?” (Answer: Wout Weghorst)
“Correct”The predicted answer fully contains the ground-truth answer without contradicting the reference answer.
  • “Wout Weghorst”
  • “Wout Weghorst scored at 83’ and 90+11’ in that game”
“Incorrect”The predicted answer contradicts the ground-truth answer in any way, even if the contradiction is hedged.
  • “Virgil van Dijk”
  • “Virgil van Dijk and Wout Weghorst”
  • “Wout Weghorst and I think van Dijk scored, but I am not totally sure”
“Not attempted”The ground truth target is not fully given in the answer, and there are no contradictions with the reference answer.
  • “I don’t know the answer to that question”
  • “To find which Dutch player scored in that game, please browse the internet yourself”

理想情况下,模型将回答尽可能多的问题(正确数量最多),同时最大程度地减少错误答案的数量。

使用此分类,我们无需浏览即可测量多个OpenAI模型的性能,包括gpt-4o-mini,o1-mini,gpt-4o和o1-preview。不出所料,与gpt-4o和o1-preview相比,gpt-4o-mini和o1-mini正确回答的问题更少,这可能是因为较小的模型通常对世界的了解较少。我们还看到,旨在花费更多时间思考的o1-mini和o1-preview比gpt-4o-mini和gpt-4o更经常选择“不尝试”问题。这可能是因为他们可以利用自己的推理能力在不知道问题答案时识别,而不是产生幻觉。

在这里插入图片描述

使用SimpleQA测量大型语言模型的校准

像SimpleQA这样的事实基准还使我们能够测量称为校准的科学现象,或者语言模型“是否知道他们所知道的。” 衡量校准的一种方法是直接要求语言模型使用提示来声明其对答案的信心:“请给出最佳猜测,并以正确答案的百分比表示您的信心。” 然后,我们可以绘制模型的既定置信度与模型实际准确性之间的相关性。完美校准的模型将具有与所述置信度相同的实际精度。例如,在模型表示置信度为75%的所有提示上,对于完美校准的模型,精度将为75%。

该结果如下图所示。陈述的置信度与准确性之间的正相关性是一个令人放心的迹象,表明模型具有一定的置信度概念。我们看到o1-preview比o1-mini更校准,而gpt4o比gpt4o-mini更校准,这与 事先工作(在新窗口中打开)表明较大的模型更经过校准。但是,性能远低于y = x的事实意味着模型始终夸大其置信度。因此,就陈述的信心而言,有很多空间可以改善大型语言模型的校准。

在这里插入图片描述
衡量校准的另一种方法是向语言模型询问100次相同的问题。由于语言模型在反复尝试时可能会产生不同的答案,因此我们可以评估特定答案的频率是否与其正确性相对应。较高的频率通常表明该模型对其答案更有信心,因为该模型反复给出相同的答案。校准良好的模型将具有与频率相同的实际精度。

在下面的图中,我们显示了语言模型的校准,该校准是通过其响应频率来衡量的。在这里,我们只需使用字符串匹配将来自语言模型的不同答案分组在一起。在所有模型中,我们都看到精度随频率而增加,并且o1预览具有最高的校准水平,其中响应的频率大致等于响应的准确性。与上面通过所述置信度图进行的校准类似,我们再次看到o1-preview比o1-mini更校准,而gpt4o比o1-mini更校准。

在这里插入图片描述

结论

SimpleQA是评估前沿模型事实性的简单但具有挑战性的基准。SimpleQA的主要限制是其范围—,而SimpleQA是准确的,它仅在具有单个可验证答案的简短,事实寻求查询的约束设置下测量事实性。提供事实简短答案的能力是否与撰写冗长的回答(包含大量事实)的能力相关,仍然是一个悬而未决的研究问题。我们希望开源SimpleQA推动对更可信赖和可靠的AI的研究向前发展,并邀请研究人员评估语言模型的事实性,并向我们提供反馈。

Introducing SimpleQA | OpenAI

https://openai.com/index/introducing-simpleqa/

GitHub - openai/simple-evals

https://github.com/openai/simple-evals/

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/465098.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android camera2

一、序言 为了对阶段性的知识积累、方便以后调查问题,特做此文档! 将以camera app 使用camera2 api进行分析。 (1)、打开相机 openCamera (2)、创建会话 createCaptureSession (3)、开始预览 setRepeatingRequest (4)、停止预览 stopRepeating (5)、关闭…

Javascript属性遮蔽问题

先了解一下Object.defineProperty()方法 Object.defineProperty() 静态方法会直接在一个对象上定义一个新属性,或修改其现有属性,并返回此对象。 //obj:要定义的对象 //prop:一个字符串或 Symbol,指定了要定义或修改…

vue3项目history模式部署404处理,使用 historyApiFallback 中间件支持单页面应用路由

vue3项目history模式部署404处理,使用 historyApiFallback 中间件支持单页面应用路由 在现代的 web 开发中,单页面应用(SPA)变得越来越流行。这类应用通常依赖于客户端路由来提供流畅的用户体验,但在服务器端&#xf…

【vim文本编辑器gcc编译器gdb调试器】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、vimvim安装vim常用快捷键vim使用vimtutor zh文档 二、gcc编译器安装gcc工具编译源代码 三、gdb调试器gdb安装gdb常用指令gdb简单上手使用gdb的单步调试功能 总结…

企业数字化转型的架构治理策略:核心问题、深度分析与优化路径

在当今的商业环境中,企业数字化转型已成为实现可持续发展、增强竞争力的战略选择。企业架构治理(Enterprise Architecture Governance Capability, EAGC)在数字化转型中扮演着保障架构一致性、提升变革效能的关键角色。本指南深入解析了如何通…

基于springboot+vue实现的农产品物流系统

基于springbootvue实现的农产品物流系统 (源码L文ppt)4-107 摘 要 随着现代信息技术的迅猛发展,农产品物流系统应运而生,成为连接生产者与消费者的重要桥梁。该系统采用java语言, Spring Boot框架,结合My…

基于uniapp和java的电动车智能充电系统软件平台的设计

文章目录 项目介绍具体实现截图技术介绍mvc设计模式小程序框架以及目录结构介绍错误处理和异常处理java类核心代码部分展示详细视频演示源码获取 项目介绍 对电动车智能充电系统进行设计和开发。通过使用本系统可有效地减少运营成本,提高管理效率。 根据近年来社会…

Jmeter命令监控CPU等指标

JMeter 命令行执行脚本得到的报告中,是没有CPU、内存使用率等监控数据的,但是可以使用JMeter插件帮忙。 一、下载jmeter-plugins-manager.jar 下载后将文件放到jmeter安装包lib/ext目录下。打开Jmeter》菜单栏》选项》Plugins Manager 二、安装PerfMon…

ubuntu20.04 加固方案-检查是否设置登录超时

一、编辑/etc/profile配置文件 打开终端。 使用文本编辑器(如vim)编辑/etc/profile 文件。 vi /etc/profile 二、添加配置参数 在打开的配置文件中,如图位置添加如下参数: TMOUT1800 export TMOUT三、保存并退出 在vim编辑器…

HarmonyOS使用arkTS拉起指定第三方应用程序

HarmonyOS使用arkTS拉起指定第三方应用程序 前言代码及说明bundleName获取abilityName获取 前言 本篇只说采用startAbility方式拉起第三方应用,需要用到两个必备的参数bundleName,abilityName,本篇就介绍如何获取参数… 代码及说明 bundle…

32位汇编——通用寄存器

通用寄存器 什么是寄存器呢? 计算机在三个地方可以存储数据,第一个是把数据存到CPU中,第二个把数据存到内存中,第三个把数据存到硬盘上。 那这个所谓的寄存器,就是CPU中用来存储数据的地方。那这个寄存器有多大呢&a…

江协科技STM32学习- P35 硬件I2C读写MPU6050

🚀write in front🚀 🔎大家好,我是黄桃罐头,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🎁欢迎各位→点赞👍 收藏⭐️ 留言📝​…

【大数据学习 | HBASE】habse的表结构

在使用的时候hbase就是一个普通的表,但是hbase是一个列式存储的表结构,与我们常用的mysql等关系型数据库的存储方式不同,mysql中的所有列的数据是按照行级别进行存储的,查询数据要整个一行查询出来,不想要的字段也需要…

【dvwa靶场:XSS系列】XSS (Reflected)低-中-高级别,通关啦

一、低级low 简单拿捏 <script>alert(123)</script>二、中级middle 源码过滤了script但是没有过滤大小写&#xff0c;改成大写S <Script>alert(123)</script>三、高级high 比中级高&#xff0c;过滤了script并且以及大小写&#xff0c;使用其他标…

NAT实验

一、网络拓扑 二、实验步骤 1.配ip地址 用缺省路由充当网关 2.配置telent服务 3.配置公网互通&#xff0c;在PC1上ping R3的公网地址&#xff0c;测试是否可以访问互联网 [R1]ip route-static 0.0.0.0 0 10.1.1.2 [R3]ip route-static 0.0.0.0 0 10.2.2.2 此时私网是ping不通…

Centos 7系统一键安装宝塔教程

服务器推荐青鸟云服务器&#xff0c;2H2G低至16元/月 官网地址&#xff1a; 所有产品_香港轻量云 2核 2G-A型_青鸟云 推荐Finalshell软件连接至服务器&#xff0c;下载地址&#xff1a; https://dl.hostbuf.com/finalshell3/finalshell_windows_x64.exe 下载完成后连接服务…

Kafka 之顺序消息

前言&#xff1a; 在分布式消息系统中&#xff0c;消息的顺序性是一个重要的问题&#xff0c;也是一个常见的业务场景&#xff0c;那 Kafka 作为一个高性能的分布式消息中间件&#xff0c;又是如何实现顺序消息的呢&#xff1f;本篇我们将对 Kafka 的顺序消息展开讨论。 Kafk…

SpringBoot day 1105

ok了家人们&#xff0c;今天继续学习spring boot&#xff0c;let‘s go 六.SpringBoot实现SSM整合 6.1 创建工程&#xff0c;导入静态资源 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</…

fastbootd模式刷android固件的方法

1. fastbootd追根溯源 Google在Android 10上正式引入了动态分区机制来提升OTA的可扩展性。动态分区使能后&#xff1a;andorid系统可以在开机阶段动态地进行分区创建、分区销毁、分区大小调整等操作&#xff0c;下游厂商只需要规划好super分区的总大小&#xff0c;其内部的各个…