s1K 数据集：是一个用于提升语言模型推理能力的高质量数据集。包含 1,000 个问题，每个问题都配有详细的推理路径和答案。

2025-02-07，由斯坦福大学、华盛顿大学等研究机构创建了 s1K 数据集，该数据集包含 1,000 个精心挑选的问题，并配以推理轨迹和答案，为语言模型推理能力的提升提供了重要的数据基础。

一、研究背景

1. 研究背景

近年来，语言模型（LMs）在大规模预训练的基础上取得了显著进展，其性能提升主要依赖于训练时计算资源的增加。然而，随着模型规模的不断扩大，训练成本也急剧上升。为了在有限的资源下进一步提升模型性能，研究者们开始探索一种新的范式——测试时扩展（test-time scaling），即在推理阶段增加计算资源来优化模型表现。这一范式的核心在于，通过在测试时动态调整模型的推理过程，使其能够更深入地思考问题，从而提高推理任务的准确性。

目前遇到的困难和挑战:

数据集质量与规模的平衡：现有的推理数据集要么规模庞大但质量参差不齐，要么规模较小但难以覆盖多样化的推理任务。如何在数据集的质量和规模之间找到平衡，是一个亟待解决的问题。

测试时扩展的可控性：虽然测试时扩展能够提升模型性能，但目前的方法在控制推理过程的计算资源方面存在不足。例如，如何精确地控制模型在测试时的思考时间，以及如何避免模型陷入无限循环或重复推理，是实现高效测试时扩展的关键挑战。

模型推理效率的提升：尽管测试时扩展能够提高推理任务的准确性，但同时也可能导致推理时间的显著增加。如何在提升模型性能的同时，保持推理效率，是当前研究中的一个重要挑战。

数据集地址:s1K

二、让我们来一起看一下s1K

s1K 是一个精心策划的小型推理数据集：

包含 1,000 个高质量、高难度且多样化的推理问题及其详细的推理路径和答案，专为高效推理和测试时扩展（test-time scaling）设计。

数据集构建：

s1K 的构建分为两个阶段：初始数据收集和最终样本筛选。

初始数据收集：研究者从 16 个数据源收集了 59,029 个问题，包括数学竞赛问题、奥林匹克学科问题、标准化考试问题等。这些问题通过 Google Gemini Flash Thinking API 生成了详细的推理路径和答案。
最终样本筛选：

质量筛选：去除格式错误和 API 错误的样本，保留高质量数据。
难度筛选：通过模型评估和推理路径长度筛选高难度问题。
多样性筛选：基于问题所属领域和推理路径长度进行加权采样，确保样本覆盖多个学科。

数据集特点

高质量：所有样本都经过严格筛选，确保数据准确无误。

高难度：问题经过难度评估，确保模型需要进行深入推理才能解答。

多样性：样本覆盖 50 个不同领域，包括数学、科学、逻辑等，适合多种推理任务。

小规模高效：仅包含 1,000 个样本，但通过测试时扩展技术（budget forcing）能够实现高效的推理能力。

测试时扩展(Test-time Scaling)：

是一种在推理阶段(测试时）通过增加计算资源来提升语言模型性能的方法。其核心目标是利用额外的计算能力，使模型在推理时能够进行更深入的思考，从而提高推理任务的准确性和可靠性。这种方法允许模型在测试时动态调整其推理过程，而不是仅仅依赖于训练时的固定参数。

测试时扩展的分类：顺序扩展和并行扩展。

顺序扩展：顺序扩展是指模型在推理时逐步生成解决方案，后续的计算依赖于前面的结果。

并行扩展：并行扩展是指模型在推理时同时生成多个解决方案，并通过某种机制（如投票或奖励模型）选择最佳答案。

添加图片注释，不超过 140 字（

测试时扩展方法 : 预算强制，通过控制模型在推理时生成的 token 数量来调整计算资源。

具体实现方法如下：

强制结束思考：如果模型生成的 token 数量超过预设的上限，强制模型停止思考并输出当前的最佳答案。

鼓励继续思考：如果希望模型进行更多推理，可以通过插入“Wait”等提示词，鼓励模型继续生成推理路径，直到达到预设的 token 数量上限。

为了评估测试时扩展方法的有效性，作者提出了三个关键指标：

控制性（Control）：衡量方法对测试时计算资源的控制能力。例如，是否能够精确地控制模型生成的 token 数量。

扩展性（Scaling）：衡量方法在增加计算资源时性能提升的能力。例如，随着生成的 token 数量增加，模型的准确性是否线性提升。

性能（Performance）：衡量方法在固定计算资源下的最高性能。例如，在给定的 token 数量下，模型能够达到的最高准确率。

s1-32B 的预算强制。模型尝试在 “...是 2.“，但我们取消了思考结束标记分隔符，而是附加了 ”Wait“ 引导 s1-32B 自行更正其答案。

三、让我们一起来看一下s1K应用场景

课题：如何构建中国历史知识图谱

通过使用像 s1K 数据集训练的语言模型这样的工具，可以让这个过程变得更加高效。

将详细介绍一下如何从零开始构建一个关于中国历史的知识图谱，包括数据准备、实体和关系提取、图谱构建以及应用场景。我会尽量用通俗易懂的语言来解释每一个步骤。

一、准备阶段

1. 收集历史文献首先，我们需要大量的中国历史文献作为数据来源。这些文献可以包括：

古代史书：如《史记》《资治通鉴》《二十四史》等。

学术论文：关于中国历史的研究文章，可以从知网、维普等平台获取。

历史教材：中学和大学的历史教材，这些内容经过筛选，适合构建基础知识框架。

古籍文献：如《四库全书》等，这些文献包含丰富的历史信息。

2. 预处理文本将收集到的文献转换成电子文本格式（如果已经是电子版就更好了）。对于纸质文献，可以使用 OCR（光学字符识别）技术将其扫描并转换为文本。然后，对文本进行清洗，去除无关内容（如页码、注释等），只保留核心的历史叙述。

二、实体和关系提取

1. 使用语言模型提取实体使用 s1K 数据集训练的语言模型来处理这些文本。模型会自动识别出文本中的重要实体，比如：

人物：如秦始皇、汉武帝、孔子等。

地点：如长安、洛阳、北京等。

事件：如秦统一六国、汉武帝开疆拓土、科举制度的创立等。

朝代：如秦朝、汉朝、唐朝等。

制度：如郡县制、科举制等。

2. 提取关系模型还会分析这些实体之间的关系，比如：

人物与事件的关系：秦始皇统一六国。

人物与地点的关系：汉武帝定都长安。

事件与时间的关系：科举制度创立于隋朝。

朝代与制度的关系：唐朝实行科举制。

三、构建知识图谱

1. 定义节点和边在知识图谱中，实体就是节点，关系就是边。比如：

节点：秦始皇、汉武帝、科举制度、隋朝等。

边：秦始皇统一六国、科举制度创立于隋朝等。

2. 构建图谱结构将提取到的实体和关系构建成一个图结构。可以用一些图数据库工具（如 Neo4j）来实现。比如：

秦始皇 → 统一 → 六国

汉武帝 → 定都 → 长安

科举制度 → 创立于 → 隋朝

四、应用场景：教育工具

这个知识图谱可以作为历史教学的辅助工具，帮助学生快速了解中国历史的关键人物、事件和制度。比如，老师可以利用知识图谱展示不同历史时期之间的联系和区别。

假设我们有一段关于唐朝的历史文献：

“唐朝是中国历史上一个辉煌的时期，始于公元618年，终于公元907年。唐太宗李世民是唐朝的第二位皇帝，他在位期间实行了一系列改革，包括完善科举制度和加强中央集权。唐朝的首都长安是当时世界上最大的城市之一，吸引了来自世界各地的商人和学者。”

1. 实体提取

唐朝

公元618年

公元907年

唐太宗李世民

科举制度

中央集权

长安

2. 关系提取

唐朝 → 始于 → 公元618年

唐朝 → 终于 → 公元907年

唐太宗李世民 → 是 → 唐朝的第二位皇帝

唐太宗李世民 → 实行 → 改革

改革 → 包括 → 完善科举制度

改革 → 包括 → 加强中央集权

唐朝 → 首都 → 长安

长安 → 是 → 当时世界上最大的城市之一

3. 构建知识图谱将这些实体和关系构建成一个图结构：唐朝 ——始于——> 公元618年

唐朝 ——终于——> 公元907年

唐太宗李世民 ——是——> 唐朝的第二位皇帝

唐太宗李世民 ——实行——> 改革

改革 ——包括——> 完善科举制度

改革 ——包括——> 加强中央集权

唐朝 ——首都——> 长安

长安 ——是——> 当时世界上最大的城市之一

通过收集历史文献、使用语言模型提取实体和关系，然后将这些信息构建成一个知识图谱，我们可以高效地整理和展示中国历史的复杂信息。这个知识图谱不仅可以用于教育和学术研究，还可以用于文化推广，让更多人了解中国历史的丰富和复杂。

文章中其他数据集地址：

数据集：NuminaMATH

数据集地址：敬请期待

数据集：OlympicArena

数据集介绍：包含 4,250 个来自不同学科（如天文学、生物学、化学、计算机科学、地理学、数学和物理学）的奥林匹克竞赛问题。该数据集的多样性使其成为训练模型解决跨学科推理任务的理想选择。

数据集地址：GAIR/OlympicArena|多学科认知推理数据集|AI评估数据集

数据集：OmniMath

数据集地址：敬请期待

数据集：AGIEval

数据集介绍:包含 2,385 个来自标准化考试（如 SAT 和 LSAT）的问题，涵盖英语、法律和逻辑等领域。该数据集不仅包含数学问题，还涉及语言推理和逻辑推理任务，有助于提升模型的综合推理能力。

数据集地址：baber/agieval|认知评估数据集|问题解决数据集

数据集：s1-prob

数据集介绍：包含 182 个概率问题及其详细解法，覆盖了高级数学证明和复杂推理任务。该数据集的难度极高，适合用于训练模型解决专业级别的数学问题

数据集地址：s1-prob

数据集：s1-teasers

数据集介绍：包含 23 个挑战性的数学谜题，通常用于量化交易面试。这些谜题难度极高，适合用于训练模型解决复杂的逻辑推理问题。

数据集地址：s1-teasers

更多开源的数据集，请打开：遇见数据集

遇见数据集-让每个数据集都被发现，让每一次遇见都有价值。遇见数据集，领先的千万级数据集搜索引擎，实时追踪全球数据集，助力把握数据要素市场。https://www.selectdataset.com/