自主代理的摩尔定律：AI 的指数级革命

图像由 Gemini 生成

前言：AI 正在以超过摩尔定律的速度迅速提升其自主工作能力，研究显示，AI 能够可靠完成的任务时长正以每 7 个月翻一倍的速度增长。这种指数级的发展趋势意味着，AI 不再只是应对简单问答或短任务的工具，而是正逐步具备类似人类的工作流程能力——能够使用工具、自我修正、进行逻辑推理和任务规划，甚至在面对模糊或复杂任务时也能表现出持续进步。通过对真实世界任务的测评与验证，包括软件开发、研究工程等工作，AI 的表现被证明不再局限于实验室，而是开始具备适应实际工作的能力。如果这一趋势持续发展，预计到 2028 年，AI 将能独立完成一天工时的任务；到 2029 年底，更可能承担长达一个月的项目开发工作。这种技术上的飞跃将深刻影响未来的经济结构、社会分工和治理体系，因此，社会需要未雨绸缪，在推动 AI 进步的同时，建立起完善的安全机制、伦理规范与监管制度，以确保其发展方向符合人类的整体利益。

1965 年，Intel 的联合创始人戈登·E·摩尔做出了一个大胆的观察：微芯片上的晶体管数量大约每两年翻一倍。这后来被称为摩尔定律，虽然它不是物理定律，但却是科技进步中一个惊人一致的趋势。
摩尔最初的图表是用对数刻度绘制的，展示出一条笔直的指数增长曲线，从上世纪 60 年代的几百个晶体管飙升到今天的数十亿个。
当时，摩尔预测这个趋势将持续“至少 10 年”。结果它持续了超过半个世纪，把计算机从占满整个房间的机器缩小成了装进口袋的超级计算设备。

图片来源：OurWorldInData

这个简单的观察，被称为摩尔定律，成了数字革命的心跳。
而如今，来自 METR（模型评估与威胁研究）的一项突破性研究显示，AI 正在遵循一个更猛烈的指数曲线：AI 代理能够可靠完成的任务时长，每 7 个月就翻一倍。
我们一起来看看 METR 的研究中关于 AI 能力如何以前所未有的速度扩展的一些关键发现。

50% 任务完成时间范围
为什么研究更长的任务？
如何测量 AI 代理在真实任务上的表现
定性分析：模型为什么进步了？
外部有效性与稳健性
外推分析：它将通往哪里？
讨论：大局观
最后的思考

1. 50% 任务完成时间范围

这个研究的核心思想之一就是“时间范围”（time horizon），研究者想要搞清楚 AI 成功完成任务的一半的情况下，任务最多可以持续多久。他们把这个时长叫作“时间范围”。

通俗点说，就是回答这个问题：“AI 最多能可靠地完成多长时间的任务？”
研究者通过让 AI 和人类在同一组任务上表现比拼来得到这个结论。
具体来说，他们找出人类通常在某段时间内可以完成的任务（比如 30 分钟），然后测试 AI 模型是否能成功完成至少一半的这些任务。如果可以，那这个模型的“时间范围”大概就是 30 分钟（50% 的时间能做对）。

这个方法给我们一个直观的基准点，让我们能把 AI 和人类专家进行比较，同时控制任务难度。如果一个模型的时间范围每 7 个月就翻倍，说明它持续突破那些耗时更长、更复杂的任务边界。

图片来自 METR Research

上面这张研究图展示了他们是如何测量 AI 代理的时间范围的：

多样化任务集 —— 创建了包含 170 个任务的集合，分布在 HCAST、SWAA 和 RE-Bench 三个子集里。这些任务涵盖从几秒钟的小操作到耗时数小时的研究项目，复杂度和时长跨度很大。
任务表现 —— 人类和 AI 代理都尝试完成这些任务。人类的完成时间构成了基线，而 AI 的成功率展示了它们在不同任务长度上的可靠性。
时间范围分析 —— 研究者拟合了一个逻辑回归模型，用来估算每个 AI 模型在 50% 成功率时对应的时间范围。再把这些估算值和模型发布时间对应起来，就能看到 AI 能力增长的速度了。

2. 为什么研究更长的任务？

图像由 Gemini 生成

历史上，AI 的评估标准一般都集中在短小、离散的挑战上（比如问答题、简单编程题）。但现实生活中的任务，比如开发软件、修复系统或进行研究，往往需要几个小时甚至几天才能完成。
随着 AI 越来越接近真正的自主性，它需要像人类处理大型项目一样，能够持续保持上下文、转换策略、适应突发情况。

这项研究引入了一个新指标叫做“50% 任务完成时间范围”，也就是 AI 成功完成人类需要几个小时才能完成的任务的一半概率点。为了测量这个指标，团队观察了多个任务类别：

HCAST（人类校准的自主软件任务）：共 97 个任务，模拟真实的软件工程工作，从几分钟到 30 小时不等。
RE-Bench（研究工程基准）：共 7 个任务，测试深入的研究型工程能力，每个任务人类专家大概需要 8 小时来完成。
SWAA（软件原子动作）：共 66 个小任务，每个任务少于一分钟，表示最基本的动作，比如识别文件、选择命令、编写短代码片段等。

研究者还将 AI 的表现和专业人类的完成时间进行了对比，看人类完成这些完全相同的任务用了多久。

3. 如何测量 AI 代理在真实任务上的表现

这项研究不关注刁钻问题或人造数据集，它专注于那些和日常软件工程或研究工作很接近的真实任务。比如：

SWAA 任务测的是那种一锤子买卖的小操作（比如找对文件），人类几秒钟就能搞定。
HCAST 涵盖了大量任务，时间从 1 分钟到 30 小时都有（比如写 CUDA 核心代码或修复复杂系统中的隐秘 bug），这些都真实地反映了工程师的日常工作流。
RE-Bench 任务则是那种开放式的机器学习项目，有能力的人类完成它们通常得花上 8 小时。

通过把 AI 的成功率和人类的任务完成时间相比较，研究者得出了 AI 的“时间范围”这个直观的衡量方式。换句话说，如果一个新模型能应付那些人类平均花 30 分钟完成的任务，那这个模型就达到了“30 分钟时间范围”。

下面这些任务的例子，从几秒钟的选择题（比如找出哪个文件是 shell 脚本），到耗时数小时的编程挑战（比如用自定义 CUDA 核心代码加速回测工具），都有涵盖。下图是这些任务按平均完成时长排的例子：

图片来自 METR Research

定性分析：模型为什么进步了？

图像由 Gemini 生成

虽然数据展示了 AI 表现的提升，METR 的研究人员也进一步探讨了这些进步发生的原因。有几个关键因素尤为突出：

工具使用：现代的 AI 代理越来越多地利用文档资源或内置脚本来进行故障排查。
自我修正：新一代模型更容易自我修正，避免重复犯错。
逻辑推理与规划：逐步推理的能力（比如调试代码或协调多个文件）已经有了显著进展。

与此同时，对于那些“混乱”的任务，比如指令不完整、需要实时协作或需求高度变化的任务，AI 仍然面临挑战。AI 在结构清晰的环境下表现最好。

外部有效性与稳健性：这些成果适用于真实世界的工作吗？

图像由 Gemini 生成

一个关键问题是，这些任务和评估标准是否反映了现实世界中的挑战。METR 的研究者进行了四项补充检查，以评估“时间范围”增长是否可以超出测试环境，适用于更广泛的应用：

2019–2025 年的回溯验证：团队将最近（2023–2025）的模型数据（不包括 SWAA 任务）与早期从 2019 年起的模型进行比较。令人惊讶的是，旧数据和最近的数据趋势吻合良好，验证了增长趋势的一致性。
混乱因素：任务被标记了 16 个“混乱”指标，比如指令模糊或需要实时协作。尽管 AI 在更混乱的任务上表现较差，但总体提升趋势无论混乱程度如何都保持强劲。
SWE-bench 验证：这个广泛认可的软件工程测试集，配有人类难度注解，也显示出 AI 的快速进步。测得的翻倍速度甚至更快，可能是因为对最简单任务的时间预估被低估了。
公司内部测试：对 METR 自身代码库的实际 pull request 进行了测试，结果显示 AI 的表现与对任务几乎不熟悉的基准测试者的预测表现一致，符合这些测试常常呈现的低上下文环境。

每一项检查都有其局限性，但综合来看，它们表明 AI 已经在以一种可能适用于真实世界场景的方式，逐步掌控更长时长的任务，而不仅仅是在受控的实验室环境中。

7. 外推分析：它会走向哪里？