s1K 数据集:是一个用于提升语言模型推理能力的高质量数据集。包含 1,000 个问题,每个问题都配有详细的 推理路径 和 答案。

2025-02-07, 由斯坦福大学、华盛顿大学等研究机构创建了 s1K 数据集,该数据集包含 1,000 个精心挑选的问题,并配以推理轨迹和答案,为语言模型推理能力的提升提供了重要的数据基础。

一、研究背景

1. 研究背景

近年来,语言模型(LMs)在大规模预训练的基础上取得了显著进展,其性能提升主要依赖于训练时计算资源的增加。然而,随着模型规模的不断扩大,训练成本也急剧上升。为了在有限的资源下进一步提升模型性能,研究者们开始探索一种新的范式——测试时扩展(test-time scaling),即在推理阶段增加计算资源来优化模型表现。这一范式的核心在于,通过在测试时动态调整模型的推理过程,使其能够更深入地思考问题,从而提高推理任务的准确性。

目前遇到的困难和挑战:

数据集质量与规模的平衡:现有的推理数据集要么规模庞大但质量参差不齐,要么规模较小但难以覆盖多样化的推理任务。如何在数据集的质量和规模之间找到平衡,是一个亟待解决的问题。

测试时扩展的可控性:虽然测试时扩展能够提升模型性能,但目前的方法在控制推理过程的计算资源方面存在不足。例如,如何精确地控制模型在测试时的思考时间,以及如何避免模型陷入无限循环或重复推理,是实现高效测试时扩展的关键挑战。

模型推理效率的提升:尽管测试时扩展能够提高推理任务的准确性,但同时也可能导致推理时间的显著增加。如何在提升模型性能的同时,保持推理效率,是当前研究中的一个重要挑战。

数据集地址:s1K

二、让我们来一起看一下s1K

s1K 是一个精心策划的小型推理数据集:

包含 1,000 个高质量、高难度且多样化的推理问题及其详细的推理路径和答案,专为高效推理和测试时扩展(test-time scaling)设计。

数据集构建:

s1K 的构建分为两个阶段:初始数据收集和最终样本筛选。

  • 初始数据收集:研究者从 16 个数据源 收集了 59,029 个问题,包括数学竞赛问题、奥林匹克学科问题、标准化考试问题等。这些问题通过 Google Gemini Flash Thinking API 生成了详细的推理路径和答案。

  • 最终样本筛选:

  1. 质量筛选:去除格式错误和 API 错误的样本,保留高质量数据。

  2. 难度筛选:通过模型评估和推理路径长度筛选高难度问题。

  3. 多样性筛选:基于问题所属领域和推理路径长度进行加权采样,确保样本覆盖多个学科。

数据集特点

高质量:所有样本都经过严格筛选,确保数据准确无误。

高难度:问题经过难度评估,确保模型需要进行深入推理才能解答。

多样性:样本覆盖 50 个不同领域,包括数学、科学、逻辑等,适合多种推理任务。

小规模高效:仅包含 1,000 个样本,但通过测试时扩展技术(budget forcing)能够实现高效的推理能力。

测试时扩展(Test-time Scaling):

是一种在推理阶段(测试时)通过增加计算资源来提升语言模型性能的方法。其核心目标是利用额外的计算能力,使模型在推理时能够进行更深入的思考,从而提高推理任务的准确性和可靠性。这种方法允许模型在测试时动态调整其推理过程,而不是仅仅依赖于训练时的固定参数。

测试时扩展的分类: 顺序扩展 和并行扩展。

顺序扩展:顺序扩展是指模型在推理时逐步生成解决方案,后续的计算依赖于前面的结果。

并行扩展:并行扩展是指模型在推理时同时生成多个解决方案,并通过某种机制(如投票或奖励模型)选择最佳答案。

添加图片注释,不超过 140 字(

测试时扩展方法 : 预算强制,通过控制模型在推理时生成的 token 数量来调整计算资源。

具体实现方法如下:

强制结束思考:如果模型生成的 token 数量超过预设的上限,强制模型停止思考并输出当前的最佳答案。

鼓励继续思考:如果希望模型进行更多推理,可以通过插入“Wait”等提示词,鼓励模型继续生成推理路径,直到达到预设的 token 数量上限。

为了评估测试时扩展方法的有效性,作者提出了三个关键指标:

控制性(Control):衡量方法对测试时计算资源的控制能力。例如,是否能够精确地控制模型生成的 token 数量。

扩展性(Scaling):衡量方法在增加计算资源时性能提升的能力。例如,随着生成的 token 数量增加,模型的准确性是否线性提升。

性能(Performance):衡量方法在固定计算资源下的最高性能。例如,在给定的 token 数量下,模型能够达到的最高准确率。

s1-32B 的预算强制。模型尝试在 “...是 2.“,但我们取消了思考结束标记分隔符,而是附加了 ”Wait“ 引导 s1-32B 自行更正其答案。

三、让我们一起来看一下s1K应用场景

课题:如何构建中国历史知识图谱

通过使用像 s1K 数据集训练的语言模型这样的工具,可以让这个过程变得更加高效。

将详细介绍一下如何从零开始构建一个关于中国历史的知识图谱,包括数据准备、实体和关系提取、图谱构建以及应用场景。我会尽量用通俗易懂的语言来解释每一个步骤。

一、准备阶段

1. 收集历史文献 首先,我们需要大量的中国历史文献作为数据来源。这些文献可以包括:

古代史书:如《史记》《资治通鉴》《二十四史》等。

学术论文:关于中国历史的研究文章,可以从知网、维普等平台获取。

历史教材:中学和大学的历史教材,这些内容经过筛选,适合构建基础知识框架。

古籍文献:如《四库全书》等,这些文献包含丰富的历史信息。

2. 预处理文本 将收集到的文献转换成电子文本格式(如果已经是电子版就更好了)。对于纸质文献,可以使用 OCR(光学字符识别)技术将其扫描并转换为文本。然后,对文本进行清洗,去除无关内容(如页码、注释等),只保留核心的历史叙述。

二、实体和关系提取

1. 使用语言模型提取实体 使用 s1K 数据集训练的语言模型来处理这些文本。模型会自动识别出文本中的重要实体,比如:

人物:如秦始皇、汉武帝、孔子等。

地点:如长安、洛阳、北京等。

事件:如秦统一六国、汉武帝开疆拓土、科举制度的创立等。

朝代:如秦朝、汉朝、唐朝等。

制度:如郡县制、科举制等。

2. 提取关系 模型还会分析这些实体之间的关系,比如:

人物与事件的关系:秦始皇统一六国。

人物与地点的关系:汉武帝定都长安。

事件与时间的关系:科举制度创立于隋朝。

朝代与制度的关系:唐朝实行科举制。

三、构建知识图谱

1. 定义节点和边 在知识图谱中,实体就是节点,关系就是边。比如:

节点:秦始皇、汉武帝、科举制度、隋朝等。

边:秦始皇统一六国、科举制度创立于隋朝等。

2. 构建图谱结构 将提取到的实体和关系构建成一个图结构。可以用一些图数据库工具(如 Neo4j)来实现。比如:

秦始皇 → 统一 → 六国

汉武帝 → 定都 → 长安

科举制度 → 创立于 → 隋朝

四、应用场景:教育工具

这个知识图谱可以作为历史教学的辅助工具,帮助学生快速了解中国历史的关键人物、事件和制度。比如,老师可以利用知识图谱展示不同历史时期之间的联系和区别。

假设我们有一段关于唐朝的历史文献:

“唐朝是中国历史上一个辉煌的时期,始于公元618年,终于公元907年。唐太宗李世民是唐朝的第二位皇帝,他在位期间实行了一系列改革,包括完善科举制度和加强中央集权。唐朝的首都长安是当时世界上最大的城市之一,吸引了来自世界各地的商人和学者。”

1. 实体提取

唐朝

公元618年

公元907年

唐太宗李世民

科举制度

中央集权

长安

2. 关系提取

唐朝 → 始于 → 公元618年

唐朝 → 终于 → 公元907年

唐太宗李世民 → 是 → 唐朝的第二位皇帝

唐太宗李世民 → 实行 → 改革

改革 → 包括 → 完善科举制度

改革 → 包括 → 加强中央集权

唐朝 → 首都 → 长安

长安 → 是 → 当时世界上最大的城市之一

3. 构建知识图谱 将这些实体和关系构建成一个图结构: 唐朝 ——始于——> 公元618年

唐朝 ——终于——> 公元907年

唐太宗李世民 ——是——> 唐朝的第二位皇帝

唐太宗李世民 ——实行——> 改革

改革 ——包括——> 完善科举制度

改革 ——包括——> 加强中央集权

唐朝 ——首都——> 长安

长安 ——是——> 当时世界上最大的城市之一

通过收集历史文献、使用语言模型提取实体和关系,然后将这些信息构建成一个知识图谱,我们可以高效地整理和展示中国历史的复杂信息。这个知识图谱不仅可以用于教育和学术研究,还可以用于文化推广,让更多人了解中国历史的丰富和复杂。

文章中其他数据集地址:

数据集:NuminaMATH

数据集地址:敬请期待

数据集:OlympicArena

数据集介绍:包含 4,250 个来自不同学科(如天文学、生物学、化学、计算机科学、地理学、数学和物理学)的奥林匹克竞赛问题。该数据集的多样性使其成为训练模型解决跨学科推理任务的理想选择。

数据集地址:GAIR/OlympicArena|多学科认知推理数据集|AI评估数据集

数据集:OmniMath

数据集地址:敬请期待

数据集:AGIEval

数据集介绍:包含 2,385 个来自标准化考试(如 SAT 和 LSAT)的问题,涵盖英语、法律和逻辑等领域。该数据集不仅包含数学问题,还涉及语言推理和逻辑推理任务,有助于提升模型的综合推理能力。

数据集地址:baber/agieval|认知评估数据集|问题解决数据集

数据集:s1-prob

数据集介绍:包含 182 个概率问题及其详细解法,覆盖了高级数学证明和复杂推理任务。该数据集的难度极高,适合用于训练模型解决专业级别的数学问题

数据集地址:s1-prob

数据集:s1-teasers

数据集介绍:包含 23 个挑战性的数学谜题,通常用于量化交易面试。这些谜题难度极高,适合用于训练模型解决复杂的逻辑推理问题。

数据集地址:s1-teasers

更多开源的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。https://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19603.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DockerDesktop更改默认的磁盘镜像地存储位置

DockerDesktop更改默认的磁盘镜像地存储位置 文章目录 DockerDesktop更改默认的磁盘镜像地存储位置1. 默认存储位置2. 新建一个目录3. 将磁盘镜像存储位置改为新建的目录下 1. 默认存储位置 2. 新建一个目录 如:D:\DiskImagelocationData 3. 将磁盘镜像存储位置改为…

ASP.NET Core SixLabors.ImageSharp 位图图像创建和下载

从 MVC 控制器内部创建位图图像并将其发送到浏览器;用 C# 编写并与 Linux 和 Windows 服务器兼容。 使用从 ASP.NET MVC 中的控制器下载任何文件类型File。 此示例创建一个位图 (jpeg) 并将其发送到浏览器。它需要 NuGet 包SixLabors.ImageSharp v1.0.4。 另请参…

容联云联络中心AICC:深度整合DeepSeek,业务验证结果公开

容联云重磅推出AICC3.2版本,实现了智能化的升级与外呼效率的突破——深度整合DeepSeek-R1大模型、预测式外呼在数据分析侧的增强、全渠道路由能力、一键多呼效率的强化。 同时,全面接入DeepSeek-R1的容联云 AICC3.2 ,目前已与某知名汽车金融企…

链表和list

链表和list ‍ ​ ​ ​ ​ ​ ​ ​ ​ ​ 算法题中的经典操作:用空间代替时间​ ​ ​ ​ 双链表头插顺序: 1.先修改新结点的左右指针 2.然后修改结点y的左指针 3.最后修改哨兵位的右指针 双链表在任意位置(p)之后插入…

Junit——白盒测试

Java单元测试框架,主要用于测试Java程序中的各个单元。 1.验证代码功能是否符合预期 2.及时 发现修复 代码中的缺陷,提高代码质量 入门 最早学习java,代码对不对,通过main 方法运行,观看结果是否符合预期。 packa…

1.MySQL概述

1.1 数据模型 介绍完了Mysql数据库的安装配置之后,接下来我们再来聊一聊Mysql当中的数据模型。学完了这一小节之后,我们就能够知道在Mysql数据库当中到底是如何来存储和管理数据的。 在介绍 Mysql的数据模型之前,需要先了解一个概念&#x…

Deep seek学习日记1

Deepseek最强大的就是它的深度思考,并且展现了它的思考过程。 五种可使用Deep seek的方式(应该不限于这五种,后续嵌入deepseek的应该更多,多了解一点因为官网容易崩~~): 1.deep seek官网 2.硅基流动silicon…

JAVA中的异常

一、简介 1.1 什么是异常 异常,是对程序在运行过程中遇到的种种不正常的情况的描述。异常在java中用Exception类来描述。如果程序遇到了未经处理的异常,将会导致程序无法编译或者无法继续运行。 1.2 异常的继承体系 在java中使用类Throwable来描述所有…

数字水印嵌入及提取系统——基于小波变换GUI

数字水印嵌入及提取系统——基于小波变换GUI 基于小波变换的数字水印系统(Matlab代码GUI操作) 【有简洁程序报告】【可作開题完整文档达辩PPT】 本系统主要的内容包括: (1)使用小波变换技术实现二值水印图像的加密、…

Linux_帮助指令

man 获得帮助信息 基本语法: man [命令或配置文件] 在linux下,隐藏文件是以 .开头, 选项可以组合使用, 比如 ls -al, 不如 ls -al /root help 指令 基本语法: help 命令 (功能描述: 获取shell内置命名的帮助信息) 英语不好建议百度

Day4 25/2/17 MON

【一周刷爆LeetCode,算法大神左神(左程云)耗时100天打造算法与数据结构基础到高级全家桶教程,直击BTAJ等一线大厂必问算法面试题真题详解(马士兵)】https://www.bilibili.com/video/BV13g41157hK?p4&v…

redis集群模式

1.集群模式 作用:解决单点故障问题 集群的模式:1.主从模式,2、哨兵模式,3、集群化模式 1.1主从模式 特点:1个主节点多个从节点,主节点负责读写操作,而从节点只能负责读操作,当主…

力扣 乘积最大子数组

动态规划,注意负负得正,dp交换。 题目 注意这里的dp的乘积要求最大,而两个很大的负数相乘也是大的,因此在每遍历到一个数时要存一个最大值的dp与一个最小值的dp,然后遍历完后再去存ans的dp。由于存在负数,…

【Postgresql】Windows 部署 Postgresql 数据库 (图文教程)

文章目录 准备工作Postgresql 下载Postgresql 安装初始化数据库数据库链接设置允许远程连接测试链接 更多相关内容可查看 准备工作 操作系统:Windows 7 或更高版本(推荐 Windows 10 或 Windows Server 2016)。 硬件要求: 至少 …

【ENSP】链路聚合的两种模式

【ENSP】链路聚合的两种模式 1、背景介绍2、链路聚合的使用场景3、配置过程1、手工模式Eth-Trunk配置2、静态LACP模式Eth-Trunk 4、总结 1、背景介绍 随着网络规模的不断扩大,人们对骨干链路的带宽吞吐量和可靠性提出了越来越高的要求。在传统方案中,为…

《深度学习》——调整学习率和保存使用最优模型

调整学习率 在使用 PyTorch 进行深度学习训练时,调整学习率是一个重要的技巧,合适的学习率调整策略可以帮助模型更好地收敛。 PyTorch 提供了多种调整学习率的方法,下面将详细介绍几种常见的学习率调整策略及实例代码: torch.opt…

SpringBoot+微信小程序+数据可视化的宠物到家喂宠服务(程序+论文+讲解+安装+调试+售后等)

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复,希望帮助更多的人。 系统介绍 在经济高速发展、物质生活极大丰富的当下,人们的精神需求愈发凸显&#xff0…

《仙台有树》追剧疑问与DeepSeek解答

本篇形式:直接以两段对话直接呈现,有删减 本篇背景:看过太多逻辑bug,有些bug无药可救直接弃剧,有些bug情有可原包容理解。想到最近大火的DeepSeek,就与时俱进,简单直接点吧,也许自己…

Java版企业电子招标采购系统源业码Spring Cloud + Spring Boot +二次开发+ MybatisPlus + Redis

功能描述 1、门户管理:所有用户可在门户页面查看所有的公告信息及相关的通知信息。主要板块包含:招标公告、非招标公告、系统通知、政策法规。 2、立项管理:企业用户可对需要采购的项目进行立项申请,并提交审批,查看所…

txt文件批量转PDF

需要使用acrobat DC软件。 工具 – 创建 PDF – 多个文件(可以选择多个TXT文件,过多可能内存溢出)。