ChatGPT 的出现,显然掀起了 AI 发展的新一轮热潮,但人们是否设想过:未来狂欢散场,是否意味着下一个 AI 寒冬即将到来?
原文链接:https://www.erichgrunewald.com/posts/the-prospect-of-an-ai-winter/
未经授权,禁止转载!
作者 | Erich Grunewald
译者 | 弯月 责编 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
最近,William Eden在推特上发表了一篇长文(https://twitter.com/WilliamAEden/status/1630690003830599680),解释了为何他不担心先进 AI 带来的风险,还提到了 AI 的又一个寒冬即将来临:
▶ AI 系统没有那么好。目前的 AI 系统还太不可靠,且很难理解。实现三个 9 或四个 9 的可靠性,与仅实现一两个 9 的难度根本不是一个级别的。例如,自动驾驶汽车已经问世十多年了,虽然低可靠性的系统也可以凑合用,但大部分价值都无法实现。(注:系统的高可靠性里有个衡量其可靠性的标准——X 个 9,表示在系统 1 年时间的使用过程中,系统可以正常使用时间与总时间(1 年)之比。)
▶ AI 不会变得更好。有些人认为,我们可以将当前架构扩展到 AGI,但是 Eden 认为我们没有足够的计算能力来实现这一目标。摩尔定律的效果“越来越弱”,性价比不再呈指数级下降,我们很可能无法在全球内获得“再高两个数量级”的计算水平,而且两个数量级的提升也无法让我们实现 TAI:“如果不会出现一些重大变化(新架构、新范式),一切看似已成定局。”此外,半导体供应链集中且脆弱,如今的局面有可能发生变化。
▶ AI 产品的利润没有那么高。AI 系统似乎很适合“自动化、低成本、低风险却很重要的工作”,但这远达不到我们的期望。一些应用程序(例如网络搜索)的利润率非常低,而大型机器学习模型的推理成本会让他们望而止步。
免责声明:我的日常工作是研究 AI 管治,所以如果再次出现 AI 寒冬,我基本会失业。但我认为,AI 寒冬固然不好,但 AI 所带来的某些风险更令我们不寒而栗。
前几次的 AI 寒冬
其实,我们已经经历过很多次 AI 寒冬了。
第一次 AI 寒冬发生于 1974~1980 年间,是由 Lighthill 报告引发的,根本原因在于 AI 研究人员未能实现他们的宏伟目标。1965 年,Herbert Simon 预测道,AI 将在 20 年内完成所有人类的工作,Marvin Minsky 也于 1967 年写道:“在一代人之内……创建 AI 的问题就能得到实质性解决。”关于 Frank Rosenblatt 的感知机项目,纽约时报报道称:“(它)就像一个电子计算机的胚胎,能走路、能说话、能看得见东西、能写作、能复制自己,还能意识到自己的存在。据预测,未来的感知机能够识别人,并喊出他们的名字,还能将一种语言的语音翻译成另一种语言的语音和文本”(Olazaran 1996)。然而,最终这些感知机远远达不到人类的智能水平,甚至未能实现机器翻译。
第二次 AI 寒冬发生于 1987~1993 年间,究其原因也是未能达到预期。那是一个专家系统与联结主义(指 AI 领域中人工神经网络的应用)的时代。但专家系统无法扩展,神经网络学习缓慢、准确性低且无法泛化。那个时代 1 美元买不到 1x109 FLOPS(每秒浮点运算次数),我估计 LISP 机器的性价比都要比神经网络高 6~7 个数量级。
维基百科列出了这些寒冬背后的许多因素,但对我来说,最重要的原因是每一次我们都未能达到预期的结果。即使在经济低迷时期,即使学术资金枯竭,如果 AI 能够展示出良好的效果,就仍然能获得大量的投资。期间虽然专家系统确实取得了一些成功,但远不及我们今天看到的 AI 系统。
在我看来,这似乎是问题的症结所在:AI 系统能否达到投资者给予的厚望?
摩尔定律与计算的未来
如今,改进就意味着扩大规模,而扩展失败的原因之一是训练 AI 模型所使用的硬件停止进步了。
摩尔定律认为,芯片上的晶体管数量每两年就会翻一番,因此硬件性能每两年也会翻一番。(戈登 · 摩尔于 2023 年 3 月 24 日逝世,享年 94 岁,至少在他有生之年,该理论未被推翻。)人们经常声称,随着晶体管的尺寸接近硅原子极限,摩尔定律将会放缓。而用 Eden 的话来说,摩尔定律似乎早就失效了。
我不是半导体或 GPU 方面的专家,但据我了解,(1)在未来十年内摩尔定律依然有效;(2)即便摩尔定律失效,很有可能硬件也会通过增加晶体管密度之外的手段继续发展。
这样的情况不是第一次出现,自 2005 年前后,Dennard 缩放比例定律似乎就已经失效,单线程性能偏离了趋势,但由于核心数量的增加,晶体管数量依然在不断增加:
随着逐渐逼近原子极限,陆续涌现了很多能够保持 GPU 性能继续提升的技术,包括垂直扩展、先进的封装、新晶体管设计、二维材料以及改进后的架构和连接性。台积电、三星和英特尔相继推出了工艺节点 <2 nm 的计划(目前 SOTA 是 3 纳米),还有一些公司正在探索更多可行的解决方案,例如用于加速低精度矩阵乘法的模拟计算——推动芯片发展指数曲线图上的技术总是超出前沿思想。2016 年,Peter Lee 表示:“预测摩尔定律死亡的人数每两年都会翻一番。”到 2019 年底,Metaculus 社区有 58% 的人认为“摩尔定律将于 2025 年结束”,但现在这个数字仅上升了几个百分点。
基于 Transformer 的 AI 即将到来吗?
此处,我们主要关心的不是 FLOPS,也不是 1 美元能买到多少 FLOPS,而是 AI 实验室能负担起多少投入模型的计算量。这个计算量受到许多因素的影响,包括硬件成本、能源效率、线路/芯片良率、利用率以及实验室愿意投资的金额。那么,在接下来的几十年里,我们能否获得足够的算力来训练基于 Transformer 的 AI(以下简称 TAI)?
对于这个问题,很多人给出了非常复杂的答案,此处我将讨论一种较容易理解的方式。
Daniel Kokotajlo 设想了在当前 GPU 架构上,使用 1x1035 FLOP 计算可以做些什么。这个计算量非常庞大,比当今最大模型的训练量高出约 11 个数量级。拥有如此强大的计算能力,我们可以做的事情非常多。如今,我们无法确定计算能力是否会进一步扩展,而且除了计算之外可能还有其他重要的瓶颈,比如数据。但无论怎么看,2022 年 1x1034~1x1036 的计算量似乎足以创建 TAI。
我们姑且接受这个想法,并做出以下假设:
▶ AI 芯片的性价比每 1.5~3.1 年就会翻一番,假设这种情况会一直持续到 2030 年,之后随着摩尔定律失效,翻倍时间将将增加一倍。
▶ ImageNet 的算法进展大约每 4~25 个月 就可以将计算需求减半,假设 Transformer 实现翻倍的时间增加 50%。
▶ 机器学习系统的训练费用大约每 6~10 个月翻一番,假设这会一直持续到我们的上限:100 亿美元。
基于这些假设,到 2040 年我们能实现 TAI 的概率为 50%,到 2045 年为 80%:
当然,这只是一个非常简单的模型,还有一个更为复杂和严谨的版本,即 Cotra(2020),它给出的中位数约为 2050年(后来改为了 2040 年)。相较之下,我这个简单模型可能出错的原因有很多:
▶ 扩展定律可能会失效,或者随着模型变大扩展难度也会增加,速度甚至会超过机器学习研究人员为降低扩展难度所做的努力。
▶ 扩展定律继续成立,但使用 1x1035 FLOP(2022 年) 训练的模型并不一定基于 Transformer,可能需要更多计算或新架构。
▶ 构建 TAI 所需的算力可能比 1x1035 FLOP 高出几个数量级。例如,根据社区预测,在 GWP 系数增幅首次超过 30% 的前一年,最大的训练计算量约为 1x1028~1x1033 FLOPS,将这个范围作为 90% 置信区间代入模型,最终得到的中值估计为 2029 年。
▶ 硬件性价比的增长速度会比假设来得更慢或更快。
▶ 算法进步的速度可能会减慢或加快,为推动基于 Transformer 的模型诞生的算法进步速度可能会低于或高于预估值。
▶ 机器学习研究人员的数据枯竭,或者是高质量(如书籍、维基百科)甚至低质量(如 Reddit)的数据耗尽。例如,Villalobos 等人预测出高质量的文本数据将在 2024 年左右耗尽。
▶ 越来越强大的 AI 系统可以帮助我们实现自动化,或以其他方式加速 AI 的进步。
▶ 社会阻力或严格法规的影响,导致投资减少,阻碍 AI 的进步。
▶ 其他未知因素。
尽管如此,我认为 1x1035 FLOP 的计算量对于训练对于 TAI 来说足够了,在 2040 年之前也可以充分训练这样的模型。我之所以有这样的看法,主要原因之一是,随着 AI 系统变得越来越强大和实用,AI 将继续向前发展,资金将继续流入,扩展定律也将继续保持。如果 TAI 萌芽,则表明计算能力仍将不断提高。
科技发展的前沿无法保证可靠性
AI 系统令大家失望的原因之一是,长期以来这项技术一直不可靠,在可预见的未来也仍然如此。Eden 曾表示,“哪些经济领域可以接受 99% 正确的解决方案?我的回答是:不创造或无法获取大部分价值的领域。”人们经常指出,现代 AI 系统,尤其是大型语言模型是不可靠的。我认为这个观点真假参半:
▶ 如果只看前沿技术,那么确实 AI 系统非常不可靠。在一定时间段内,AI 系统在重大任务上取得成功的概率不到 10%。这些都是最受关注的任务,因此这个系统看起来不可靠。
▶ 如果只看已经熟悉的功能,AI 系统就是相当可靠的。对于某些特定任务,AI 系统在经过几代的改良后,通常都会变得越来越好。这些任务我们都很熟悉,所以我们理所当然地认为 AI 会正确地完成这些任务。
John McCarthy 曾感叹道:“一旦能够正常工作,就没有人称其为 AI 了。”Larry Tesler 也曾说:“AI 就是尚未完成的一切。”
以对随机生成的个位数整数列表进行排序的任务为例。两年前,Janus 在 GPT-3 上对此进行了测试,发现即使提供了 32 次提示,对 5 个整数列表进行排序,GPT-3 的正确率也只有 20%(10/50);而对 10 个整数的列表进行排序时,正确率为 0(0/50)。于是,近来我对 ChatGPT(使用GPT-3)进行了同样的测试,对于 10 个整数列表,其正确率为 100%(5/5)。后来,我又要求它对 10 个整数列表行排序,正确率为 80%(4/5)。
自动驾驶
那么为什么自动驾驶汽车仍然不可靠,无法广泛使用?
我认为驾驶汽车不是一个单一的任务,而是一个复杂的任务,由一堆具有不同输入的子任务组成。驾驶的整体可靠性在很大程度上取决于这些子任务的表现,其中任何一个失败都可能导致整体失败。对于汽车来说,安全性很关键,如果自动驾驶想广泛使用,就必须能够保障可靠性,也就是说你需要掌握驾驶汽车的所有子任务。由于这些子任务的难度分布可能遵循幂律(或类似的规律),所以最后的 10% 总是比前 90% 更难完成——让人感觉马上就要实现了,但实际上整个系统真正投入使用还需要长达数年之久。
我认为,这就是 Eden 所说的:“纸上谈兵(汽车在开阔的沙漠里行驶)与真刀真枪(实际车辆驾驶需要处理许多不明情况,例如与其他驾驶员交流,以及繁忙城市街道的导航信息等)相差十万八千里。”
自动驾驶这类复杂的 AI 应用确实非常困难,而我们需要 AI 完成的也恰恰是复杂的任务,简单的任务很容易通过传统软件实现自动化。我认为,这是 AI 寒冬有可能再次降临的部分原因,不过不是最重要的原因。
第一,我认为如今自动驾驶遇到的困难并不等同于自动驾驶寒冬已然来临。尽管显然没有达到预期,并且公众兴趣明显下降,但自动驾驶方面的投资并没有下降太多,且自动驾驶的专利正在稳步上升。在我看来,自动驾驶仍在发展之中,我们也看到了“有条件的自主驾驶”三级功能,例如自动控速系统、自动变道,其采用率也每年都在攀升。因此自动驾驶汽车只是经历了典型的炒作周期,如今正在稳步向前发展。由此可见,虽然大型语言模型和其他 AI 系统未能达到人们的期望,投资虽有停滞但没有下降,所以不会出现前几次那样的寒冬。
第二,现代 AI 系统,特别是大型语言模型与自动驾驶汽车截然不同。车辆行驶中,安全是关键,还有相应的法规,人们自然不想乘坐不可靠的汽车。但大型语言模型没有任何规定,即使在没有保障措施的情况下,也有人愿意使用。我认为有很多复杂的任务都有以下特点:(1)安全性不是关键(也就是说,发生事故也不会造成巨大损失);(2)可以自动化或由 AI 系统提供支持。
成本与利润
我讨论 TAI 的部分原因是,它可能与其他 AI 的进步有关联,另一部分原因是,人们已经开始怀疑 AI 实验室是否能在本世纪创建 TAI——尽管多年来 AI 研究人员一直在避免人们产生这种期望。
据我了解,投资者大多不会在 TAI 上下注,他们通常都希望在 10 年内获得投资回报。如果他们预计通用 AI 将在未来 10~20 年内出现,那么他们每次投入 AI 公司的资金将远远不止几亿。相反,我认为他们是想要广泛提升劳动速度、自动化常见任务,并开发出新型服务和产品的工具。
姑且抛开 TAI 不谈,ChatGPT、Bing/Sydney 和现代图像生成系统能否在未来 5 年内实现盈利?我认为,即便届时还没有盈利,也不会太久了,最多再等 1~2 年,因为需求肯定是有的。自 ChatGPT、Bing/Sydney 和 DALL-E 2 发布以来,我一直在使用,并愿意为这些服务支付不菲的费用,认为付费也合情合理。
Eden 写道:“All-in Podcast 估计 ChatGPT 的查询开销要比谷歌搜索高 10 倍左右。我曾与分析师交谈过,他们估计开销是谷歌搜索的 3~5 倍。在搜索这样的业务中,大约 10% 的改进就能成就杀手级应用,3~5 倍的提升基本就是降维打击。”
SemiAnalysis 的一项估计表明,ChatGPT(在 GPT-4 发布之前)的硬件运营成本为 70 万美元/天,假设我们有 1300 万活跃用户,那么每个用户每天就是 54 美分,每个月大约是 1.6 美元(ChatGPT Plus 的订阅费为每个用户每月 20 美元)。仅硬件运营成本就有 70 万美元 × 365 = 2.55 亿美元/年,这是一笔不小的数目,但与运营成本、员工工资以及营销相比,这些成本可能又高出了一个数量级。这样预计下来,2023 年 OpenAI 的收入有望达到 2 亿美元,到 2024 年将达到惊人的 10 亿美元。
与此同时,如上一节所述,硬件成本正在迅速下降,AI 加速器的性价比约 2.1 年翻一番。因此,Eden 是正确的,GPT 之类的模型成本是老式搜索引擎的 3~5 倍,仅基于硬件性价比趋势,这种差异将在 3~6 年内消失。诚然,未来会有更好的模型,但运行成本也会更高,似乎如今的模型已经能够从传统搜索引擎中夺取可观的市场份额了,同时老式搜索引擎的质量也正在下降。
在我看来,在 GPT-3 或 GPT-4 等基础模型之上构建产品的 AI 公司被过度炒作了。例如,Character.AI 最近以 10 亿美元的市场估值筹集到了 2 亿美元的资金,用于构建一项服务,然而该服务似乎并没有真正在标准 ChatGPT API 之上增加太多价值,尤其现在 OpenAI 还添加了系统提示功能。不过我认为,这些公司可能会被其他更通用的 AI 系统淘汰,所以他们的失败不会引发 AI 寒冬。
可能引发 AI 寒冬的原因
到此为止,我们的讨论都是基于一个前提:“AI 寒冬都是由于 AI 系统无法提供实际用途以及利润空间而引发的”。AI 不可靠、硬件性价比进步放缓、推理计算成本太高,只有当影响到 AI 的实际用途与利润空间时才会被考虑。我认为,这是迄今为止最有可能引发 AI 寒冬的方式,但并不是唯一的可能,其他可能性还包括限制性立法/法规、重大故障或事故、大国冲突以及极端经济衰退。
如果我们真的在十年内看到 AI 寒冬,我认为最有可能的原因将是以下之一:
▶ 扩展遇到困难。在达到一定数量之后,计算、数据以及参数等的扩展都将停止。例如,OpenAI 训练 GPT-5 所用的算力、数据和参数都远超 GPT-4,但结果可能不会有大幅提升。
▶ 尽管 AI 在执行分布内任务方面变得更好且更可靠,但真正的分布外泛化还很遥远。
▶ 高质量的数据枯竭。
我认为 AI 寒冬不太可能来临,2030 年出现 AI 寒冬的概率只有 5%(如果 AI 寒冬的定义是全球 AI 投资的缩减比例超过 50% 的话)。如果你和我一样,认为我们还没有为 TAI 的到来做好准备,那么这将是一个不幸的消息。
☞“数学天才”陶哲轩也爱上 GPT-4:节省了大量繁琐工作
☞GPT-4 让 Python 程序实现自修复 Bug,国外小哥将工具命名为“金刚狼”,并开源!
☞优酷回应非会员收看3000秒广告;亚马逊推出Titan大语言模型;Android 14首个Beta版本释出 | 极客头条