deep-research 专用评测数据集

Deep Research自2025年2月初由OpenAI推出后迅速引发全球关注,其通过端到端强化学习技术实现多步骤研究任务自动化,能在数十分钟内生成分析师水平报告,效率远超人类(耗时从30分钟到30天不等),被学者评价为“堪比优秀博士生助理”。该功能不仅吸引Pro用户付费订阅,还促使谷歌、xAI等企业加速推出竞品(如Gemini和Grok 3),形成技术竞争热潮

。学术界对其颠覆性潜力反应强烈,宾夕法尼亚大学、多伦多大学等学者称赞其在论文撰写、数据整合等场景的实用性,甚至认为可支持B级期刊快速发文。开发者社区也积极复现该技术,涌现出基于DeepSeek R1等开源模型的本地部署方案。实测案例显示,其在爬取论文作者信息、医学研究等复杂任务中表现优于传统工具,同时引发教育、科研领域对AI替代人类研究能力的广泛讨论。 

迄今为止,github上,有20+个复现deep-research的开源项目。

名称项目名star链接备注
theworldofagentsAgentic-Reasoning158https://github.com/theworldofagents/Agentic-Reasoning
HKUDSAuto-Deep-Research299https://github.com/HKUDS/Auto-Deep-Research香港大学开源的。虽然star少,但是效果很不错。对应的评测比较完整,有论文
Cognio-sodeep-research0https://github.com/Cognio-so/deep-research
dzhngdeep-research12.8khttps://github.com/dzhng/deep-research作为复现deep-research的开源项目,star最多,但是实际上逻辑非常简单!
mingdaoaideep-research0https://github.com/mingdaoai/deep-research
ssdeanx (和 dzhng是一个)deep-research-mcp-server-https://github.com/ssdeanx/deep-research-mcp-server
epuerta9deep-research-py-https://github.com/epuerta9/deep-research-py
AnotiaWangdeep-research-web-ui986https://github.com/AnotiaWang/deep-research-web-uiweb前端ui界面搭建
zilliztechdeep-searcher902https://github.com/zilliztech/deep-searcher
omni-georgiodeep_research-125https://github.com/omni-georgio/deep_research-很简单,就一个文件
HarshJ23Deeper-Seekerhttps://github.com/HarshJ23/Deeper-Seeker很简单,就一个文件
assafelovicgpt-researcher19khttps://github.com/assafelovic/gpt-researcher作为多智能体框架,开源时间较早
jina-ainode-DeepResearch2.5khttps://github.com/jina-ai/node-DeepResearch
langchain-aiollama-deep-researcher2.4khttps://github.com/langchain-ai/ollama-deep-researcher
btahir (nickscamara)有改造open-deep-research-https://github.com/btahir/open-deep-research重复
fdarkaou (AnotiaWang)open-deep-research-https://github.com/btahir/open-deep-research重复
nickscamaraopen-deep-research4.4khttps://github.com/nickscamara/open-deep-research
langchain-aiopen_deep_research1.1khttps://github.com/langchain-ai/open_deep_research
mshumerOpenDeepResearcher2.2khttps://github.com/mshumer/OpenDeepResearcher
HF
huggingface
smolagentshttps://github.com/huggingface/smolagents
grapeotdeep_research_agent62https://github.com/grapeot/deep_research_agent
LearningCircuitlocal-deep-research85https://github.com/LearningCircuit/local-deep-research
kaymen99local-rag-researcher-deepseek34https://github.com/kaymen99/local-rag-researcher-deepseek

 如何评测其效果,就要用到寻找专业、公认的测试数据集。本文结合最近看的,分享三个反响大的数据集。以及对应的资料。

一、“人类的最后考试”(Humanity's Last Exam)

数据集内容:

该测试包含 2,700 道题,涉及数十个学科,包括数学、人文科学和自然科学。HLE 由全球学科专家开发,包含适合自动评分的多项选择题和简答题。

数据特点

HLE 包含两种问题格式:精确匹配问题(模型需输出一个精确的字符串作为答案)和 多项选择题(模型需从五个或更多选项中选择一个正确答案)。HLE 是一个多模态基准,其中约 13% 的问题 需要理解文本和图像24% 的问题 是多项选择题,其余为精确匹配问题。

每道题目的提交需包含多个必需组件:问题文本、答案说明(包括精确匹配答案,或多项选择答案及正确答案标注)、详细的解题逻辑所属学科,以及贡献者的姓名和机构信息,以确保问答的可追溯性和准确性

该数据集是困难级别的测试数据集。各类模型在此数据集下测试的准确率效果低于10%

测试效果:

当前openai 的DeepResearch在此测试中的准确率达到26.6%,显著超过DeepSeek-R1的9.4%。这一成绩凸显其通过端到端强化学习优化的多步骤推理能力,尤其在跨学科知识关联和信息验证方面表现突出。

数据集相关论文:https://arxiv.org/abs/2501.14249

github地址:https://github.com/centerforaisafety/hle

二、GAIA基准测试

数据集内容:

GAIA(A Benchmark for General AI Assistants)是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。

问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。

问题类型文本为主:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。

任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。

答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。

难度分级

Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。

Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。

Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)

论文地址:https://arxiv.org/pdf/2311.12983

huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard

三、GPQA数据集

领域构成:448道高质量多选题,涵盖生物学(33%)、物理学(35%)和化学(32%)

设计目标:构建一个连搜索引擎都难以解决的"抗谷歌"级难题集,用于测试人类专家、非专家和AI系统的极限

专家表现:相关领域博士/在读博士正确率65%(若排除事后发现的明显错误可达74%)

非专家表现:高技能非领域专家(给予30分钟+网络权限)仅34%正确率

AI表现:基于GPT-4的最强基线模型正确率39%

论文地址:https://arxiv.org/pdf/2311.12022

huggingface数据集地址:https://huggingface.co/datasets/Idavidrein/gpqa

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24111.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL之order by盲注

目录 一.order by盲注的原理 二.注入方式 a.布尔盲注 b.时间盲注 三.防御 一.order by盲注的原理 order by子句是用于按指定列排序查询结果,列名或列序号皆可。 order by 后面接的字段或者数字不一样,那么这个数据表的排序就会不同。 order by 盲…

基于javaweb的SSM+Maven疫情物业系统设计和实现(源码+文档+部署讲解)

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论…

提升数据洞察力:五款报表软件助力企业智能决策

概述 随着数据量的激增和企业对决策支持需求的提升,报表软件已经成为现代企业管理中不可或缺的工具。这些软件能够帮助企业高效处理数据、生成报告,并将数据可视化,从而推动更智能的决策过程。 1. 山海鲸报表 概述: 山海鲸报表…

IP-------GRE和MGRE

4.GRE和MGRE 1.应用场景 现实场景 居家工作,公司工作,分公司工作----------需要传输交换数据--------NAT---在该场景中需要两次NAT(不安全) 为了安全有两种手段-----1.物理专线---成本高 2.VPN--虚拟专用网---隧道技术--封装技…

音乐游戏Drummania(GITADORA)模拟器

文章目录 (一)Drummania和GITADORA(1.1)基本情况(1.2)机体 (二)模拟器(2.1)主程序(2.2)模拟器主题 (三)曲谱文…

gotool在线工具集

1. 包含各种 sql 处理 2. 包含 json 处理 3. 包含 图片处理 4. 跨平台传输 gotool

点击修改按钮图片显示有问题

问题可能出在表单数据的初始化上。在 ave-form.vue 中,我们需要处理一下从后端返回的图片数据,因为它们可能是 JSON 字符串格式。 vue:src/views/tools/fake-strategy/components/ave-form.vue// ... existing code ...Watch(value)watchValue(v: any) …

绩效管理与业务流程

绩效管理本质就是价值管理,或者说是能力管理,也就是通过一系列的科技手段去发现、证明一个人的能力和价值,然后给予科学、合理的利益分配。业务流程就是把企业的每一个零部件或者说齿轮都有效组合起来形成一个有机体为市场提供自己的独特价值…

Nginx处理http的流程

文章目录 前言一、发版本后旧版本可以用项目基本情况Nginx 配置**解释每一行的作用:****表现和行为:****适用场景**:资源的缓存策略 在这里插入图片描述 二, nginx处理http的流程Nginx 的 GitHub 源码地址 **Nginx 核心源码解读&a…

QT各种版本下载安装

参考链接: 【Qt】超详细!Qt4.8.6和VS2010的配置及使用 由于QT官网一般现在进不去,所以下载一些QT版本只能通过镜像或者以前下载存储的安装包来进行,现在推荐两种方法 从参考链接中搬过来: 方案一:国内镜…

【STM32H743IIT6】STM32H7的ADC时钟频率设置问题 —— 网上大多文章未注意到的要点!

前言 我使用的是定时器触发ADC采样。最近在想达到ADC的最高采样率的时候,发现一直却卡在1Msps上不去,直到在硬汉嵌入式的论坛里才发现了答案:[ADC] STM32H743/H750的Y版和V版芯片ADC的主频区别 这篇文章就详细的讲一下这个问题,这…

2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(四)

2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(四) 第一部分:网络平台搭建与设备安全防护任务书第二部分:网络安全事件响应、数字取证调查、应用程序安全任务书任务 1:应急响应&…

touchgfx的工作机制

touchgfx的工作机制 一.MVP软件架构 MVP的全称为Model-View-Presenter Model: 就是数据部分,在整个touchgfx应用中,只有一个Model类实例对象,它为所有的Screen屏幕界面服务,可以理解成是一个全局变量区,同时它还负责和后端系统通信 View: 就是UI界面部分,对应于View类,在整…

在 Ansys Mechanical 中解决干涉拟合

有意和无意的过盈配合在工程设计和有限元分析 (FEA) 中很常见。当两个组件重叠或接触时,就会发生这种情况,从而产生应力和变形,必须仔细分析以确保功能正常。有意干涉,例如轴和轴承之间的压配合或用于固定金…

Linux设备驱动开发-SPI驱动开发详解(包含设备树处理详细过程)

基础知识及 SPI 相关结构体介绍 引脚:MISO(master 输入,slave 输出),MOSI(master 输出,slave 输入),片选引脚,SCK(时钟) 控制寄存器&…

Visual Studio 中的 /MD 与 /MT、动态库与静态库的深入解析

文章目录 1. /MD 与 /MT 的区别1.3 调试版本1.4 注意事项 2. 动态库与静态库的联系与区别2.3 联系与区别 3. 结合你的错误分析3.1 错误原因3.2 解决方案3.3 经验教训 4. 总结 在 Visual Studio 中进行 C/C 项目开发时,开发者经常需要对运行时库选项(例如…

蓝桥杯备考:贪心算法之矩阵消除游戏

这道题是牛客上的一道题,它呢和我们之前的排座位游戏非常之相似,但是,排座位问题选择行和列是不会改变元素的值的,这道题呢每每选一行都会把这行或者这列清零,所以我们的策略就是先用二进制把选择所有行的情况全部枚举…

绿色节能|暴雨服务器荣获液冷装置新专利授权

近日,暴雨信息宣布“液冷装置及电子设备”专利正式获批,标志着暴雨信息在电子设备散热领域取得重大技术突破,为数据中心及高性能电子设备的散热需求提供了创新性解决方案。 双重密封零漏液保障 传统冷板技术存在液体泄漏风险,严…

萌新学 Python 之闭包函数

闭包函数:在一个函数体内嵌套函数,是一个函数对象,允许在内部函数中修改或引用外部函数的变量 闭包函数对数据有封存功能 闭包函数需要满足以下几个条件: 1.函数必须有一个嵌套函数,在定义函数时,内部再…

【Python修仙编程】(二) Python3灵源初探(2)

第一部分:林羽的修仙之旅——字符串与布尔类型的修炼 林羽站在练气期一阶的起点,望着手中的《Python无极心法》秘籍,心中充满了期待。师傅玄天真人在一旁微笑着说道:“林羽,今天我们要修炼的是‘字符串’和‘布尔类型…