图像由 Gemini 生成
前言:AI 正在以超过摩尔定律的速度迅速提升其自主工作能力,研究显示,AI 能够可靠完成的任务时长正以每 7 个月翻一倍的速度增长。这种指数级的发展趋势意味着,AI 不再只是应对简单问答或短任务的工具,而是正逐步具备类似人类的工作流程能力——能够使用工具、自我修正、进行逻辑推理和任务规划,甚至在面对模糊或复杂任务时也能表现出持续进步。通过对真实世界任务的测评与验证,包括软件开发、研究工程等工作,AI 的表现被证明不再局限于实验室,而是开始具备适应实际工作的能力。如果这一趋势持续发展,预计到 2028 年,AI 将能独立完成一天工时的任务;到 2029 年底,更可能承担长达一个月的项目开发工作。这种技术上的飞跃将深刻影响未来的经济结构、社会分工和治理体系,因此,社会需要未雨绸缪,在推动 AI 进步的同时,建立起完善的安全机制、伦理规范与监管制度,以确保其发展方向符合人类的整体利益。
1965 年,Intel 的联合创始人戈登·E·摩尔做出了一个大胆的观察:微芯片上的晶体管数量大约每两年翻一倍。这后来被称为摩尔定律,虽然它不是物理定律,但却是科技进步中一个惊人一致的趋势。
摩尔最初的图表是用对数刻度绘制的,展示出一条笔直的指数增长曲线,从上世纪 60 年代的几百个晶体管飙升到今天的数十亿个。
当时,摩尔预测这个趋势将持续“至少 10 年”。结果它持续了超过半个世纪,把计算机从占满整个房间的机器缩小成了装进口袋的超级计算设备。
图片来源:OurWorldInData
这个简单的观察,被称为摩尔定律,成了数字革命的心跳。
而如今,来自 METR(模型评估与威胁研究)的一项突破性研究显示,AI 正在遵循一个更猛烈的指数曲线:AI 代理能够可靠完成的任务时长,每 7 个月就翻一倍。
我们一起来看看 METR 的研究中关于 AI 能力如何以前所未有的速度扩展的一些关键发现。
- 50% 任务完成时间范围
- 为什么研究更长的任务?
- 如何测量 AI 代理在真实任务上的表现
- 定性分析:模型为什么进步了?
- 外部有效性与稳健性
- 外推分析:它将通往哪里?
- 讨论:大局观
- 最后的思考
1. 50% 任务完成时间范围
这个研究的核心思想之一就是“时间范围”(time horizon),研究者想要搞清楚 AI 成功完成任务的一半的情况下,任务最多可以持续多久。他们把这个时长叫作“时间范围”。
通俗点说,就是回答这个问题:“AI 最多能可靠地完成多长时间的任务?”
研究者通过让 AI 和人类在同一组任务上表现比拼来得到这个结论。
具体来说,他们找出人类通常在某段时间内可以完成的任务(比如 30 分钟),然后测试 AI 模型是否能成功完成至少一半的这些任务。如果可以,那这个模型的“时间范围”大概就是 30 分钟(50% 的时间能做对)。
这个方法给我们一个直观的基准点,让我们能把 AI 和人类专家进行比较,同时控制任务难度。如果一个模型的时间范围每 7 个月就翻倍,说明它持续突破那些耗时更长、更复杂的任务边界。
图片来自 METR Research
上面这张研究图展示了他们是如何测量 AI 代理的时间范围的:
- 多样化任务集 —— 创建了包含 170 个任务的集合,分布在 HCAST、SWAA 和 RE-Bench 三个子集里。这些任务涵盖从几秒钟的小操作到耗时数小时的研究项目,复杂度和时长跨度很大。
- 任务表现 —— 人类和 AI 代理都尝试完成这些任务。人类的完成时间构成了基线,而 AI 的成功率展示了它们在不同任务长度上的可靠性。
- 时间范围分析 —— 研究者拟合了一个逻辑回归模型,用来估算每个 AI 模型在 50% 成功率时对应的时间范围。再把这些估算值和模型发布时间对应起来,就能看到 AI 能力增长的速度了。
2. 为什么研究更长的任务?
图像由 Gemini 生成
历史上,AI 的评估标准一般都集中在短小、离散的挑战上(比如问答题、简单编程题)。但现实生活中的任务,比如开发软件、修复系统或进行研究,往往需要几个小时甚至几天才能完成。
随着 AI 越来越接近真正的自主性,它需要像人类处理大型项目一样,能够持续保持上下文、转换策略、适应突发情况。
这项研究引入了一个新指标叫做“50% 任务完成时间范围”,也就是 AI 成功完成人类需要几个小时才能完成的任务的一半概率点。为了测量这个指标,团队观察了多个任务类别:
- HCAST(人类校准的自主软件任务):共 97 个任务,模拟真实的软件工程工作,从几分钟到 30 小时不等。
- RE-Bench(研究工程基准):共 7 个任务,测试深入的研究型工程能力,每个任务人类专家大概需要 8 小时来完成。
- SWAA(软件原子动作):共 66 个小任务,每个任务少于一分钟,表示最基本的动作,比如识别文件、选择命令、编写短代码片段等。
研究者还将 AI 的表现和专业人类的完成时间进行了对比,看人类完成这些完全相同的任务用了多久。
3. 如何测量 AI 代理在真实任务上的表现
这项研究不关注刁钻问题或人造数据集,它专注于那些和日常软件工程或研究工作很接近的真实任务。比如:
- SWAA 任务测的是那种一锤子买卖的小操作(比如找对文件),人类几秒钟就能搞定。
- HCAST 涵盖了大量任务,时间从 1 分钟到 30 小时都有(比如写 CUDA 核心代码或修复复杂系统中的隐秘 bug),这些都真实地反映了工程师的日常工作流。
- RE-Bench 任务则是那种开放式的机器学习项目,有能力的人类完成它们通常得花上 8 小时。
通过把 AI 的成功率和人类的任务完成时间相比较,研究者得出了 AI 的“时间范围”这个直观的衡量方式。换句话说,如果一个新模型能应付那些人类平均花 30 分钟完成的任务,那这个模型就达到了“30 分钟时间范围”。
下面这些任务的例子,从几秒钟的选择题(比如找出哪个文件是 shell 脚本),到耗时数小时的编程挑战(比如用自定义 CUDA 核心代码加速回测工具),都有涵盖。下图是这些任务按平均完成时长排的例子:
图片来自 METR Research
- 定性分析:模型为什么进步了?
图像由 Gemini 生成
虽然数据展示了 AI 表现的提升,METR 的研究人员也进一步探讨了这些进步发生的原因。有几个关键因素尤为突出:
- 工具使用:现代的 AI 代理越来越多地利用文档资源或内置脚本来进行故障排查。
- 自我修正:新一代模型更容易自我修正,避免重复犯错。
- 逻辑推理与规划:逐步推理的能力(比如调试代码或协调多个文件)已经有了显著进展。
与此同时,对于那些“混乱”的任务,比如指令不完整、需要实时协作或需求高度变化的任务,AI 仍然面临挑战。AI 在结构清晰的环境下表现最好。
- 外部有效性与稳健性:这些成果适用于真实世界的工作吗?
图像由 Gemini 生成
一个关键问题是,这些任务和评估标准是否反映了现实世界中的挑战。METR 的研究者进行了四项补充检查,以评估“时间范围”增长是否可以超出测试环境,适用于更广泛的应用:
- 2019–2025 年的回溯验证:团队将最近(2023–2025)的模型数据(不包括 SWAA 任务)与早期从 2019 年起的模型进行比较。令人惊讶的是,旧数据和最近的数据趋势吻合良好,验证了增长趋势的一致性。
- 混乱因素:任务被标记了 16 个“混乱”指标,比如指令模糊或需要实时协作。尽管 AI 在更混乱的任务上表现较差,但总体提升趋势无论混乱程度如何都保持强劲。
- SWE-bench 验证:这个广泛认可的软件工程测试集,配有人类难度注解,也显示出 AI 的快速进步。测得的翻倍速度甚至更快,可能是因为对最简单任务的时间预估被低估了。
- 公司内部测试:对 METR 自身代码库的实际 pull request 进行了测试,结果显示 AI 的表现与对任务几乎不熟悉的基准测试者的预测表现一致,符合这些测试常常呈现的低上下文环境。
每一项检查都有其局限性,但综合来看,它们表明 AI 已经在以一种可能适用于真实世界场景的方式,逐步掌控更长时长的任务,而不仅仅是在受控的实验室环境中。
7. 外推分析:它会走向哪里?
图片来自 METR Research
将 AI 的“时间范围”按模型发布日期绘制在图表上,可以看到一个引人注目的趋势——每 7 个月翻一倍。如果这种趋势持续,AI 到 2028 年左右可能就能处理人类需要整整一天才能完成的任务。更令人吃惊的是:
- 1 天自主性:大约 2028 年。
- 1 个月自主性(也就是人类约 167 个工作小时的任务):到了 2029 年底左右(上下浮动两年),这些 AI 系统就可能几乎独立处理完整的软件项目或研究冲刺任务。
当然,现实可能会打破这种整齐的曲线。研究者也提醒,有可能出现放缓(比如廉价算力耗尽),也可能出现加速(比如 AI 帮助开发下一代 AI)的情况。
8. 讨论:大局观
这些发现暗示了一个自主 AI 代理迅速加速发展的未来。这些影响不仅仅是技术性的,它们还延伸到经济、伦理,甚至地缘政治的领域。当 AI 能够在极少监督的情况下,完成多天甚至多周的任务时,那就是朝着大规模自动化人类劳动迈出的一大步。
与此同时,研究者也特别强调:
- 上下文很重要:人类的技能水平和对项目的熟悉程度会极大地影响时间预估。
- 安全与治理:随着 AI 越来越强大、越来越自主,也带来了风险,比如如果 AI 没有对齐人类价值观,就可能被滥用或发生意外。
- 需要进一步研究:更真实的任务、更准确的人类基准、更详实的数据,特别是对那些混乱和动态任务的研究,仍然是必要的。
总之,虽然我们正在见证 AI 在自主完成任务上的惊人增长,但必须在乐观期待 AI 能力的同时,对安全和负责任的发展保持警惕。
最后的思考
这个“AI 的摩尔定律”为我们提供了一个令人惊叹的视角,让我们看到前沿模型的能力和范围正在以多么快的速度扩张。这个研究横跨 HCAST(人类校准的自主软件任务)、RE-Bench(研究工程基准)和 SWAA(软件原子动作),抓住了 AI 正在极速迈向处理超长项目本质的核心。
如果这些趋势继续,未来几年我们可能就会迎来能够完成数月任务的 AI 系统。这种结果意味着我们作为一个社会,必须尽早规划和实施治理措施,以确保 AI 的正面影响,并减少潜在危害。
就像几十年前微芯片的诞生一样,这是一个既令人振奋又令人警醒的里程碑,提醒我们要负责任地利用 AI 的力量。