自主代理的摩尔定律:AI 的指数级革命

图像由 Gemini 生成

前言:AI 正在以超过摩尔定律的速度迅速提升其自主工作能力,研究显示,AI 能够可靠完成的任务时长正以每 7 个月翻一倍的速度增长。这种指数级的发展趋势意味着,AI 不再只是应对简单问答或短任务的工具,而是正逐步具备类似人类的工作流程能力——能够使用工具、自我修正、进行逻辑推理和任务规划,甚至在面对模糊或复杂任务时也能表现出持续进步。通过对真实世界任务的测评与验证,包括软件开发、研究工程等工作,AI 的表现被证明不再局限于实验室,而是开始具备适应实际工作的能力。如果这一趋势持续发展,预计到 2028 年,AI 将能独立完成一天工时的任务;到 2029 年底,更可能承担长达一个月的项目开发工作。这种技术上的飞跃将深刻影响未来的经济结构、社会分工和治理体系,因此,社会需要未雨绸缪,在推动 AI 进步的同时,建立起完善的安全机制、伦理规范与监管制度,以确保其发展方向符合人类的整体利益。

1965 年,Intel 的联合创始人戈登·E·摩尔做出了一个大胆的观察:微芯片上的晶体管数量大约每两年翻一倍。这后来被称为摩尔定律,虽然它不是物理定律,但却是科技进步中一个惊人一致的趋势。
摩尔最初的图表是用对数刻度绘制的,展示出一条笔直的指数增长曲线,从上世纪 60 年代的几百个晶体管飙升到今天的数十亿个。
当时,摩尔预测这个趋势将持续“至少 10 年”。结果它持续了超过半个世纪,把计算机从占满整个房间的机器缩小成了装进口袋的超级计算设备。

图片来源:OurWorldInData

这个简单的观察,被称为摩尔定律,成了数字革命的心跳。
而如今,来自 METR(模型评估与威胁研究)的一项突破性研究显示,AI 正在遵循一个更猛烈的指数曲线:AI 代理能够可靠完成的任务时长,每 7 个月就翻一倍。
我们一起来看看 METR 的研究中关于 AI 能力如何以前所未有的速度扩展的一些关键发现。

  1. 50% 任务完成时间范围
  2. 为什么研究更长的任务?
  3. 如何测量 AI 代理在真实任务上的表现
  4. 定性分析:模型为什么进步了?
  5. 外部有效性与稳健性
  6. 外推分析:它将通往哪里?
  7. 讨论:大局观
  8. 最后的思考

1. 50% 任务完成时间范围

这个研究的核心思想之一就是“时间范围”(time horizon),研究者想要搞清楚 AI 成功完成任务的一半的情况下,任务最多可以持续多久。他们把这个时长叫作“时间范围”。

通俗点说,就是回答这个问题:“AI 最多能可靠地完成多长时间的任务?”
研究者通过让 AI 和人类在同一组任务上表现比拼来得到这个结论。
具体来说,他们找出人类通常在某段时间内可以完成的任务(比如 30 分钟),然后测试 AI 模型是否能成功完成至少一半的这些任务。如果可以,那这个模型的“时间范围”大概就是 30 分钟(50% 的时间能做对)。

这个方法给我们一个直观的基准点,让我们能把 AI 和人类专家进行比较,同时控制任务难度。如果一个模型的时间范围每 7 个月就翻倍,说明它持续突破那些耗时更长、更复杂的任务边界。

图片来自 METR Research

上面这张研究图展示了他们是如何测量 AI 代理的时间范围的:

  1. 多样化任务集 —— 创建了包含 170 个任务的集合,分布在 HCAST、SWAA 和 RE-Bench 三个子集里。这些任务涵盖从几秒钟的小操作到耗时数小时的研究项目,复杂度和时长跨度很大。
  2. 任务表现 —— 人类和 AI 代理都尝试完成这些任务。人类的完成时间构成了基线,而 AI 的成功率展示了它们在不同任务长度上的可靠性。
  3. 时间范围分析 —— 研究者拟合了一个逻辑回归模型,用来估算每个 AI 模型在 50% 成功率时对应的时间范围。再把这些估算值和模型发布时间对应起来,就能看到 AI 能力增长的速度了。

2. 为什么研究更长的任务?

图像由 Gemini 生成

历史上,AI 的评估标准一般都集中在短小、离散的挑战上(比如问答题、简单编程题)。但现实生活中的任务,比如开发软件、修复系统或进行研究,往往需要几个小时甚至几天才能完成。
随着 AI 越来越接近真正的自主性,它需要像人类处理大型项目一样,能够持续保持上下文、转换策略、适应突发情况。

这项研究引入了一个新指标叫做“50% 任务完成时间范围”,也就是 AI 成功完成人类需要几个小时才能完成的任务的一半概率点。为了测量这个指标,团队观察了多个任务类别:

  • HCAST(人类校准的自主软件任务):共 97 个任务,模拟真实的软件工程工作,从几分钟到 30 小时不等。
  • RE-Bench(研究工程基准):共 7 个任务,测试深入的研究型工程能力,每个任务人类专家大概需要 8 小时来完成。
  • SWAA(软件原子动作):共 66 个小任务,每个任务少于一分钟,表示最基本的动作,比如识别文件、选择命令、编写短代码片段等。

研究者还将 AI 的表现和专业人类的完成时间进行了对比,看人类完成这些完全相同的任务用了多久。

3. 如何测量 AI 代理在真实任务上的表现

这项研究不关注刁钻问题或人造数据集,它专注于那些和日常软件工程或研究工作很接近的真实任务。比如:

  • SWAA 任务测的是那种一锤子买卖的小操作(比如找对文件),人类几秒钟就能搞定。
  • HCAST 涵盖了大量任务,时间从 1 分钟到 30 小时都有(比如写 CUDA 核心代码或修复复杂系统中的隐秘 bug),这些都真实地反映了工程师的日常工作流。
  • RE-Bench 任务则是那种开放式的机器学习项目,有能力的人类完成它们通常得花上 8 小时。

通过把 AI 的成功率和人类的任务完成时间相比较,研究者得出了 AI 的“时间范围”这个直观的衡量方式。换句话说,如果一个新模型能应付那些人类平均花 30 分钟完成的任务,那这个模型就达到了“30 分钟时间范围”。

下面这些任务的例子,从几秒钟的选择题(比如找出哪个文件是 shell 脚本),到耗时数小时的编程挑战(比如用自定义 CUDA 核心代码加速回测工具),都有涵盖。下图是这些任务按平均完成时长排的例子:

图片来自 METR Research

  1. 定性分析:模型为什么进步了?

图像由 Gemini 生成

虽然数据展示了 AI 表现的提升,METR 的研究人员也进一步探讨了这些进步发生的原因。有几个关键因素尤为突出:

  1. 工具使用:现代的 AI 代理越来越多地利用文档资源或内置脚本来进行故障排查。
  2. 自我修正:新一代模型更容易自我修正,避免重复犯错。
  3. 逻辑推理与规划:逐步推理的能力(比如调试代码或协调多个文件)已经有了显著进展。

与此同时,对于那些“混乱”的任务,比如指令不完整、需要实时协作或需求高度变化的任务,AI 仍然面临挑战。AI 在结构清晰的环境下表现最好。

  1. 外部有效性与稳健性:这些成果适用于真实世界的工作吗?

图像由 Gemini 生成

一个关键问题是,这些任务和评估标准是否反映了现实世界中的挑战。METR 的研究者进行了四项补充检查,以评估“时间范围”增长是否可以超出测试环境,适用于更广泛的应用:

  1. 2019–2025 年的回溯验证:团队将最近(2023–2025)的模型数据(不包括 SWAA 任务)与早期从 2019 年起的模型进行比较。令人惊讶的是,旧数据和最近的数据趋势吻合良好,验证了增长趋势的一致性。
  2. 混乱因素:任务被标记了 16 个“混乱”指标,比如指令模糊或需要实时协作。尽管 AI 在更混乱的任务上表现较差,但总体提升趋势无论混乱程度如何都保持强劲。
  3. SWE-bench 验证:这个广泛认可的软件工程测试集,配有人类难度注解,也显示出 AI 的快速进步。测得的翻倍速度甚至更快,可能是因为对最简单任务的时间预估被低估了。
  4. 公司内部测试:对 METR 自身代码库的实际 pull request 进行了测试,结果显示 AI 的表现与对任务几乎不熟悉的基准测试者的预测表现一致,符合这些测试常常呈现的低上下文环境。

每一项检查都有其局限性,但综合来看,它们表明 AI 已经在以一种可能适用于真实世界场景的方式,逐步掌控更长时长的任务,而不仅仅是在受控的实验室环境中。

7. 外推分析:它会走向哪里?

图片来自 METR Research

将 AI 的“时间范围”按模型发布日期绘制在图表上,可以看到一个引人注目的趋势——每 7 个月翻一倍。如果这种趋势持续,AI 到 2028 年左右可能就能处理人类需要整整一天才能完成的任务。更令人吃惊的是:

  • 1 天自主性:大约 2028 年。
  • 1 个月自主性(也就是人类约 167 个工作小时的任务):到了 2029 年底左右(上下浮动两年),这些 AI 系统就可能几乎独立处理完整的软件项目或研究冲刺任务。

当然,现实可能会打破这种整齐的曲线。研究者也提醒,有可能出现放缓(比如廉价算力耗尽),也可能出现加速(比如 AI 帮助开发下一代 AI)的情况。

8. 讨论:大局观

这些发现暗示了一个自主 AI 代理迅速加速发展的未来。这些影响不仅仅是技术性的,它们还延伸到经济、伦理,甚至地缘政治的领域。当 AI 能够在极少监督的情况下,完成多天甚至多周的任务时,那就是朝着大规模自动化人类劳动迈出的一大步。

与此同时,研究者也特别强调:

  • 上下文很重要:人类的技能水平和对项目的熟悉程度会极大地影响时间预估。
  • 安全与治理:随着 AI 越来越强大、越来越自主,也带来了风险,比如如果 AI 没有对齐人类价值观,就可能被滥用或发生意外。
  • 需要进一步研究:更真实的任务、更准确的人类基准、更详实的数据,特别是对那些混乱和动态任务的研究,仍然是必要的。

总之,虽然我们正在见证 AI 在自主完成任务上的惊人增长,但必须在乐观期待 AI 能力的同时,对安全和负责任的发展保持警惕。

最后的思考

这个“AI 的摩尔定律”为我们提供了一个令人惊叹的视角,让我们看到前沿模型的能力和范围正在以多么快的速度扩张。这个研究横跨 HCAST(人类校准的自主软件任务)、RE-Bench(研究工程基准)和 SWAA(软件原子动作),抓住了 AI 正在极速迈向处理超长项目本质的核心。

如果这些趋势继续,未来几年我们可能就会迎来能够完成数月任务的 AI 系统。这种结果意味着我们作为一个社会,必须尽早规划和实施治理措施,以确保 AI 的正面影响,并减少潜在危害。

就像几十年前微芯片的诞生一样,这是一个既令人振奋又令人警醒的里程碑,提醒我们要负责任地利用 AI 的力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37989.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

气膜文化馆:打造沉浸式文娱新空间—轻空间

演唱会、展览、音乐剧……都能办? 当然!气膜文化馆不仅适用于体育赛事,在文化娱乐方面同样大放异彩! 声学优化,打造极致听觉体验 气膜文化馆采用专业声学设计,避免传统场馆的回声干扰,提供更清…

【数据标准】数据标准化框架体系-对象类数据标准

导读:对象类数据标准化框架通过统一数据定义、分类和标记,解决数据孤岛与不一致问题,支撑数据分析、AI应用与合规需求。企业需结合自身业务特性,灵活选择国际标准(如ISO)、行业规范或自建体系,并…

【江协科技STM32】软件SPI读写W25Q64芯片(学习笔记)

SPI通信协议及S为5Q64简介:【STM32】SPI通信协议&W25Q64Flash存储器芯片(学习笔记)-CSDN博客 STM32与W25Q64模块接线: SPI初始化: 片选SS、始终SCK、MOSI都是主机输出引脚,输出引脚配置为推挽输出&…

C 语 言 --- 扫 雷 游 戏(初 阶 版)

C 语 言 --- 扫 雷 游 戏 初 阶 版 代 码 全 貌 与 功 能 介 绍扫雷游戏的功能说明游 戏 效 果 展 示游 戏 代 码 详 解game.htest.cgame.c 总结 💻作 者 简 介:曾 与 你 一 样 迷 茫,现 以 经 验 助 你 入 门 C 语 言 💡个 人 主…

数据库基础知识

目录 一、什么是数据库? 二、基本使用方法 (1)启动服务器进程 (2)连接服务器 (3)基本sql语句 三、MySQL架构 四、SQL语句分类 五、存储引擎是什么 一、什么是数据库? 数据库…

在线生成自定义二维码

在线生成自定义二维码 1. 引言 二维码已成为现代互联网的重要工具,广泛应用于链接分享、支付、身份认证等场景。然而,很多在线二维码生成工具功能有限,难以满足个性化需求。如果你需要 自定义颜色、Logo、不同形状的二维码,那么…

DeepSeek处理多模态数据的技术要点和实现方式

DeepSeek具备处理多模态数据的能力,以下是相关技术要点和实现方式。 1. ‌多模态模型架构‌ ‌单流/双流网络‌:通过将文本和图像输入统一编码器(单流)或分别编码后交互(双流)实现模态融合‌。‌预训练模…

系统架构设计知识体系总结

1.技术选型 1.什么是技术选型? 技术选型是指评估和选择在项目或系统开发中使用的最合适的技术和工具的过程。这涉及考虑基于其能力、特性、与项目需求的兼容性、可扩展性、性能、维护和其他因素的各种可用选项。技术选型的目标是确定与项目目标相符合、能够有效解…

数智读书笔记系列022《算力网络-云网融合2.0时代的网络架构与关键技术》读书笔记

一、书籍核心价值与定位 1.1 书籍概述:中国联通研究院的权威之作 《算力网络 —— 云网融合 2.0 时代的网络架构与关键技术》由中国联通研究院算力网络攻关团队精心撰写,是业界首部系统性探讨云网融合 2.0 与算力网络的专著。在云网融合从 1.0 迈向 2.0 的关键节点,本书的…

知识图谱中NLP新技术

知识图谱与自然语言处理(NLP)的结合是当前人工智能领域的前沿方向,其技术发展呈现多维度融合与场景深化的特点。以下从核心技术突破、应用场景创新及未来趋势三个层面,系统梳理知识图谱中NLP的最新进展: 一、核心技术突…

ASP.NET Web的 Razor Pages应用,配置热重载,解决.NET Core MVC 页面在更改后不刷新

Razor Pages应用,修改页面查看修改效果,如果没有热重载,改一句话跑一次,这个活就没法干了。 1、VS2022中的NuGet中安装RuntimeCompilation Microsoft.AspNetCore.Mvc.Razor.RuntimeCompilation 需要配套你的.net sdk版本&#x…

DeepSeek(8):结合Kimi-PPT助手一键生成演示报告

1 生成内容 在Deepseek中生成内容: 帮我创建年度计划,描述《智能枕头》产品的如何在全国销售,计划切分到每个月。从而让我们的老板和团队对报告充满信息。输出的内容我需要放到ppt中进行展示。 使用Deepseek R1模型,如下&#x…

到底爱不爱我

L2-3 到底爱不爱我 古代少女有了心上人时,会悄悄折一条树枝,揪那枝上的叶子,揪一片叶子念一句“爱我”,再揪一片念一句“不爱我”…… 这样揪落最后一片叶子的时候,看看是停在“爱”还是“不爱”。 但聪明的慧娘一眼洞…

网络华为HCIA+HCIP 网络编程自动化

telnetlib介绍 telnetlib是Python标准库中的模块。它提供了实现Telnet功能的类telnetlib.Telnet。这里通过调用telnetlib.Telnet类里的不同方法实现不同功能。 配置云

【10】高效存储MongoDB的用法

目录 一、什么是MongoDB 二、准备工作 (1)安装MongoDB ​(2)安装pymongo库 三、连接MongoDB 四、指定数据库 五、指定集合 六、插入数据 (1) insert 方法 (2)insert_one(…

datawhale组队学习--大语言模型—task4:Transformer架构及详细配置

第五章 模型架构 在前述章节中已经对预训练数据的准备流程(第 4 章)进行了介绍。本章主 要讨论大语言模型的模型架构选择,主要围绕 Transformer 模型(第 5.1 节)、详细 配置(第 5.2 节)、主流架…

Tomcat虚拟主机配置详解:Centos环境下多域名部署(详细教程!)

🏡作者主页:点击! Tomcat服务器📝专栏:点击! 🐧Linux高级管理防护和群集专栏:点击! ⏰️创作时间:2025年3月18日14点14分 最近在折腾 Tomcat 的时候&…

Java+Html实现前后端客服聊天

文章目录 核心组件网络通信层事件调度层服务编排层 Spring实现客服聊天技术方案对比WebScoket建立连接用户上线实现指定用户私聊群聊离线 SpringBootWebSocketHtmljQuery实现客服聊天1. 目录结构2. 配置类3. 实体类、service、controller4. ChatWebSocketHandler消息处理5.前端…

51c自动驾驶~合集24

我自己的原文哦~ https://blog.51cto.com/whaosoft/11926510 #DriveArena 上海AI Lab又放大招:首个高保真闭环生成仿真平台 仓库链接:https://github.com/PJLab-ADG/DriveArena 项目链接:https://pjlab-adg.github.io/DriveArena/ D…

锦华新材业绩波动明显:偿债能力偏弱,大额分红引关注

《港湾商业观察》施子夫 近期,浙江锦华新材料股份有限公司(以下简称,锦华新材)收到北交所下发的第二轮审核问询函,公司的上市进程继续推进中。 从两轮审核问询函中监管层关注的问题来看,有关锦华新材业绩…