论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

https://openreview.net/forum?id=KS8mIvetg2

验证测试集污染在黑盒语言模型中

文章目录

  • 验证测试集污染在黑盒语言模型中
  • 摘要
  • 1 引言

摘要

大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这意味着一个被污染的语言模型会发现某些规范排序比其他排序更有可能。我们的测试在规范排序的基准测试数据集的可能性显著高于洗牌后的可能性时,标记潜在的污染。我们证明了我们的程序足够敏感,能够在包括只有10亿参数的模型、只有1000个示例的小测试集,以及在预训练语料库中只出现几次的数据集等具有挑战性的情况下,可靠地证明测试集污染。使用我们的测试,我们审计了四种流行的公开可访问的语言模型,以检测测试集污染,并发现很少有普遍污染的证据。

1 引言

大型语言模型(LLMs)在许多自然语言处理基准测试(Wang等人,2019)和专业考试(OpenAI,2023)上取得了显著的进步。这些进步是由在从互联网收集的大量数据集上进行的大规模预训练驱动的。虽然这种范式很强大,但涉及的最少策划导致了对数据集污染的日益关注,预训练数据集包含了各种评估基准。这种污染导致理解语言模型的真实性能变得困难——例如,它们是否只是记住了难题的答案。区分泛化效应和测试集记忆的影响对我们理解语言模型性能至关重要,但随着许多今天部署的语言模型的预训练数据集很少公开,这变得越来越困难。

尽管LLM提供商正在进行工作,从预训练数据集中移除基准,并进行数据集污染研究,但这种过滤可能会因为错误(Brown等人,2020a)而失败,仅限于一组选定的基准(Brown等人,2020a;Wei等人,2021;Chowdhery等人,2022),并且需要信任这些供应商。竞争压力的增加也导致了一些最近的模型发布完全没有污染研究(OpenAI,2023)。这些因素使我们能够审计现有的语言模型,以检测基准数据集的存在,而不需要语言模型提供商的合作。

与污染研究并行,有关启发式成员推断算法的文献越来越多,这些算法试图逆向工程预训练数据集的方面(Carlini等人,2019;Mattern等人,2023),并为测试集污染提供一些证据(Sainz等人,2023;Golchin & Surdeanu,2023)。然而,这些方法的启发式性质限制了它们的有用性,因为这些方法不能将对疑似测试集污染实例的猜测提升为污染的无可辩驳的证据。

在这项工作中,我们展示了如何超越启发式方法,并为黑盒语言模型提供可证明的测试集污染保证。更具体地说,我们提供了一个统计测试,它可以在不访问模型的训练数据或权重的情况下,识别预训练数据集中基准的存在,并提供可证明的误报率保证。

为了实现这些保证,我们利用了许多数据集具有的一个属性,即可交换性,其中数据集中示例的顺序可以洗牌,而不会影响其联合分布。我们的关键洞察是,如果语言模型对数据集的任何特定排序表现出偏好——例如,在公开可用的存储库中出现的规范排序——这违反了可交换性,并且只有在训练期间观察到数据集时才会发生(图1)。

我们利用这一洞察提出了一组测试,比较语言模型在“规范”排序(来自公共存储库)上的对数概率与在洗牌示例数据集上的对数概率,并在两个对数概率在统计上有显著差异时标记数据集

利用这些想法,我们提出了一个计算效率高且统计强大的测试,用于污染,该测试将数据集分割成更小的片段,并在每个片段内进行一系列对数概率比较。我们证明这种分片测试可以控制误报率,实现计算效率高的并行测试,并显著提高测试对于小p值的统计能力。

我们在一个训练了10亿参数的语言模型上评估了我们的统计测试,该模型在维基百科和一组策划的金丝雀测试集的组合上进行了训练。我们的测试足够敏感,可以识别出只有1000个示例的测试集,有时甚至在预训练语料库中只出现两次。在重复次数更高的情况下,例如数据集出现10次或更多次,我们的测试获得了极小的p值。最后,我们在四种常用的公共语言模型上运行我们的测试,以研究我们的测试在野外语言模型上的行为,并发现很少有普遍和强烈的测试集污染的证据。

我们总结了我们的贡献如下。
• 展示了使用可交换性作为仅使用对数概率查询来可证明地识别测试集污染的方法。
• 构建了一个高效且强大的分片假设测试,用于测试集污染。
• 实证展示了黑盒检测在预训练期间只出现几次的小数据集的污染。
我们的三项贡献表明,黑盒识别测试集污染是可行的,测试能力的进一步改进可能使我们能够定期审计野外的语言模型,以检测测试集污染。为了鼓励开发新的可证明的测试集污染保证,我们将我们的预训练模型作为开发未来统计测试的基准发布。1
在这里插入图片描述

图1:给定一个被BoolQ(Clark等人,2019)测试集污染的预训练数据集(左),我们通过测试数据集的可交换性(右)来检测这种污染。如果模型已经看到了一个基准数据集,它将偏好规范顺序(即示例在公共存储库中给出的顺序)而不是随机洗牌的示例顺序。我们测试这些对数概率的差异,并在整个数据集中汇总它们,以提供误报率保证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/422040.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW回转马达试验系统

基于LabVIEW的回转马达试验台通过高度集成的硬件与软件配合,实现对回转马达的各项性能测试,包括空载排量、跑合试验和冲击试验等,以满足出厂测试的严格标准和要求。 项目背景 回转马达作为多种机械设备的核心动力源,其性能的可靠…

干货分享丨智造底座——AI算力池化的必要与实践

为了帮助工业企业更好地了解数据存储及管理的应用趋势,e-works在线学院于2022年9月23日14:00举办了以“工业数据存储及管理”为主题的线上研讨会。 趋动科技售前工程师Johny Hong受邀作主题分享,并与线上几千观众共同探讨了建设智造底座——AI算力池化的…

哪个牌子的护眼台灯性价比高?2024年五款性价比高护眼台灯推荐

现在不止是小孩子需要保护眼睛,而我们的成年人也是需要保护眼睛。因为现在上班压力大,下班回家加班也成了日常操作,每天用眼,对着电子产品的时间也会很久,眼睛会感到不舒服。回到家中,我们就需要一款好的护…

word文档的读入(6)

上一个方式,虽然能获取到标准答案和所对应的学生答案,但代码不够简单和优雅。这时,可以用另一种方式来实现:遍历索引。 定义 简单来说,enumerate()函数用来遍历一个可遍历对象中的元素,同时通过一个计数器…

Matlab simulink建模与仿真 第十二章(信号属性库)

参考视频:simulink1.1simulink简介_哔哩哔哩_bilibili 一、信号属性库中的模块概览 1、信号属性操作库 注:数据类型转换模块在第二章中有介绍,本章不再赘述;数据类型传播实例在本章也不进行介绍。 2、信号属性检测库 二、数据类…

构建高效入学审核系统:Spring Boot解决方案

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理大学生入学审核系统的相关信息成为必然。开…

今年白银市场的供需关系矛盾

自从2020年以来,白银手持连续4年都出现了供需缺口,预计今年的供需缺口将进一步扩大。2015年以来,白银总产量始终维持10亿盎司水平上下波动,2015~2023年的年均复合增速在0.4%,预计2024年的产量将下降1%。矿产银的产量从…

万字长文分享腾讯云原生微服务治理实践及企业落地建议

前言 云原生时代,越来越多的企业借助于微服务与容器化,来提升业务弹性与研发协作效率。Dubbo、Spring Cloud、Istio、Dapr 等各类微服务生态组件百家争鸣。从腾讯内部的 CL5 到 ONS、Taf 等,我们也在服务治理的道路上不断的研究探索&#xf…

【开源免费】基于SpringBoot+Vue.JS房产销售系统(JAVA毕业设计)

本文项目编号 T 028 ,文末自助获取源码 \color{red}{T028,文末自助获取源码} T028,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 销…

『功能项目』管理器基类【38】

我们打开上一篇37单例模式框架的项目&#xff0c; 本章要做的事情是编写管理器基类 首先创建脚本&#xff1a;ManagerBase.cs using UnityEngine; public abstract class ManagerBase : MonoBehaviour{public virtual void Init() { } } public class ManagerBase<T> : …

详细讲解hive on tez中各个参数作用,以及如何优化sql

最近经常有优化sql的任务&#xff0c;但是自己能力有限&#xff0c;只能凭经验去优化&#xff0c;现整理加学习一波&#xff0c;也欢迎各位学习和讨论。 我们经常用hivesql 的模型就是 join.如下。 insert overwrite table a select * from b left join c 这里面发生了什么…

医学AI再度得到国自然重大专项青睐,10个立项机会,4000万经费虚位以待|个人观点·24-09-12

小罗碎碎念 昨天国自然基金委公布了几个专项项目&#xff0c;看标题我以为和医学AI无关&#xff0c;多亏了群里的一位小伙伴给我转发指南链接&#xff0c;我才看到与医学AI相关的内容。 项目名称是“重大疾病智慧诊疗”&#xff0c;直接费用总额度约3000-4000万元。计划资助联合…

UE5------光照渲染

自动曝光-------出隧道的一瞬间&#xff0c;外面会非常的亮

【问题回溯】记录处理launcher3滑动卡顿问题

项目问题背景问题描述分析过程初步分析挖根因验证观点修改和验证 结论和反思结论反思 项目 Android14&#xff0c;展锐T606 问题背景 老平台升级Android13升级到Android14&#xff0c;对此问题无影响 问题描述 客户反馈在launcher应用列表中滑动卡顿明显&#xff0c;选中的…

人工智能|集成学习——混合专家模型 (MoE)

随着 Mixtral 8x7B (announcement, model card) 的推出&#xff0c;一种称为混合专家模型 (Mixed Expert Models&#xff0c;简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中&#xff0c;我们将深入探讨 MoEs 的核心组件、训练方法&#xff0c;…

论文120:Giga-SSL: Self-supervised learning for gigapixel images (2023, CVPR, 开源)

文章目录 1 要点2 方法2.1 算法设计2.2 设计选择 1 要点 题目&#xff1a;用于千兆像素图像的自监督学习 (Giga-SSL: Self-Supervised Learning for Gigapixel Images) 代码&#xff1a;https://github.com/trislaz/gigassl 研究目的&#xff1a; 现有的WSI分类方法依赖于有…

C语言蓝桥杯:语言基础

竞赛常用库函数 最值查询 min_element和max_element在vector(迭代器的使用) nth_element函数的使用 例题lanqiao OJ 497成绩分析 第一种用min_element和max_element函数的写法 第二种用min和max的写法 二分查找 二分查找只能对数组操作 binary_search函数&#xff0c;用于查找…

运动耳机哪个牌子最好用?年度精选五款好用的骨传导耳机推荐

相信大家都已经深有体会&#xff0c;拿那种常规的入耳式无线蓝牙耳机来做运动耳机&#xff0c;很难满足运动需要。如果选择前两年流行的颈挂式无线运动蓝牙耳机&#xff0c;虽然简单轻巧&#xff0c;但也是入耳式设计&#xff0c;长时间佩戴耳朵不舒服。这样看来&#xff0c;运…

vulhub spring 远程命令执行漏洞(CVE-2022-22963)

1.执行以下命令启动靶场环境并在浏览器访问 cd spring/CVE-2022-22963docker-compose up -ddocker ps 2.反弹shell 构造payload 页面刷新抓包&#xff0c;修改内容 POST /functionRouter HTTP/1.1 Host: 192.168.0.107:8080 Accept-Encoding: gzip, deflate Accept: */* Acc…

uni-app实现web-view和App之间的相互通信

双向实时 如果app端部署成网站&#xff0c;则web-view就是iframe&#xff0c;使用也可以双向通讯 https://uniapp.dcloud.net.cn/component/web-view.html APP端代码 index.vue: <template><web-viewid"m-webview":fullscreen"true":src"…