整理 | 郑丽媛、出品 | CSDN(ID:CSDNnews)
由 ChatGPT 掀起的 AI 大模型之战,已在全球范围内持续了几个月,其中业界尤为关注的,就是 OpenAI 和谷歌二者之间的博弈。
曾经,2017 年率先发布的 Transformer 为谷歌奠定了 LLM 的基石,2021 年聊天机器人 LaMDA 的亮相更是一度惊艳圈内。当时多数人都认为,这场 AI 大棋谷歌既已布局多年,又具有先发优势,必将稳稳占据王座——不曾想,最终抢得先机的却是 OpenAI 这匹“黑马”,而谷歌反倒从 AI 领域的“老大哥”沦为了被动的“追赶者”。
那么,究竟谁会最终赢得这场旷日持久的 AI 大战?是抢占先机的 OpenAI,还是厚积薄发的谷歌?
对此,近来在 Discord 群组由匿名人士泄露的一份谷歌内部文件给出了第三个可能:“我们没有赢得这场竞争,OpenAI 也没有。当我们还在争吵时,第三个方已经悄悄地抢了我们的饭碗——开源。”
接下来,就让我们看看这份谷歌“内部泄露”的文件,是如何分析目前全球 AI 大战的走势及发展的。
我们没有护城河,OpenAI 也没有
我们一直在关注 OpenAI 的动态,谁会跨越下一个里程碑?下一步将是什么?
但不舒服的事实是,我们没有赢得这场竞争,OpenAI 也没有。当我们还在争吵时,第三方已经悄悄地抢了我们的饭碗。
当然,我指的是开源。简而言之,他们正在超越我们。我们认为的“主要开放问题”如今已经解决,并已投入人们使用。仅举几个例子:
▶ 手机上的 LLMs:人们在 Pixel 6 上运行基础模型,速度为 5 tokens/ 秒。
▶ 可扩展个人化 AI:你可以在晚上用笔记本电脑微调个性化 AI。
▶ 负责任的发布:这个问题并没有“解决”,而是“避免”了。整个互联网上都是没有任何限制的艺术模型网站,而文本也不远了。
▶ 多模态性:当前多模式 ScienceQA SOTA 训练时间为 1 小时。
虽然我们的模型在质量方面仍略胜一筹,但差距正在惊人地缩小。开源模型更快、更可定制、更私密,能力也更强大。他们用 100 美元和 13B 参数做到了我们花费 1000 万美元和 540B 参数都难以达成的事情。而且他们只需要几周就能完成任务,而不是几个月。这对我们有深远的影响:
▶ 我们没有秘密配方。我们最希望从谷歌以外的其他人那里学习和合作,我们应该优先考虑启用第三方集成。
▶ 当免费、无限制的替代品在质量上相当时,人们不会为一个受限制的模式付费。我们应该考虑我们的附加值到底在哪里。
▶ 巨大的模型正在拖慢我们的步伐。从长远来看,最好的模型是可以快速迭代改进的模型。现在,既然知道了 20B 参数范围内可能实现什么,小变体就不应再被视为事后补救措施了。
发生了什么
三月初,开源社区得到了他们的第一个真正有能力的基础模型——Meta 的 LLaMA 被意外泄露了。它没有指令或对话调整,也没有 RLHF。尽管如此,社区立即理解了他们所得到的东西的重要性。
随后,巨大的创新涌现出来,在主要进展之间只有几天时间(请参阅时间表以获取完整细节)。在短短不到一个月的时间里,已经出现了具备指令调整、量化、质量改进、人类评估、多模态和 RLHF 等变体,其中许多都是相互建立的。
最重要的是,他们解决了扩展问题,在一定程度上任何人都可以进行实验。许多新想法来自普通人,培训和实验门槛从主要研究机构总产出降至一个人、一个晚上和一台强大的笔记本电脑。
为什么我们本可以预见到这一点
从许多方面来看,这对任何人都不应该是一个惊喜。目前开源 LLM 的复兴是紧随图像生成的复兴而来的。社区没有忽视这些相似之处,许多人称其为 LLM 的“Stable Diffusion 时刻”。
在两种情况下,低成本公共参与得以实现,原因是有了名为低秩适应(LoRA)的大幅度降价机制,并结合规模上的重大突破(图像合成中的潜在扩散和 LLMs 中的 Chinchilla)。在这两种情况下,获得足够高质量模型启动了世界各地个人和机构涌现出一系列想法和迭代。在两种情况下,这很快超过了大公司。
这些贡献在图像生成领域非常关键,使 Stable Diffusion 走上了与 Dall-E 不同的道路,使其拥有一个开放的模式,导致了产品整合、市场、用户界面和创新,而这些都是 Dall-E 没有的。
其效果可想而知:文化影响力迅速占据主导地位,OpenAI 解决方案变得越来越无关紧要。同样的事情是否会发生在 LLM 上还有待观察,但广泛的结构元素是相同的。
我们错过了什么
开源近年来取得成功的创新,直接解决了我们仍在努力解决的问题。多关注他们的工作可能有助于避免重复造轮子。
LoRA 是一种非常强大的技术,我们应该更加关注它。
LoRA 通过将模型更新表示为低秩分解来工作,这将更新矩阵的大小减少了数千倍,使得模型微调成本和时间降至最低。能够在消费级硬件上在几个小时内个性化语言模型对于涉及实时整合新知识和多样化知识方面具有重要意义。尽管这项技术直接影响了我们最雄心勃勃的项目,但谷歌公司内部对其利用还不足。
从头开始重新训练模型是一条艰难的道路
LoRA 之所以如此有效,部分原因在于它像其他形式的微调一样可堆叠。例如,可以应用指令微调等改进,并在其他贡献者添加对话、推理或工具使用时加以利用。虽然单个微调级别较低,但它们的总和不需要,允许模型的全等级更新随着时间的推移而积累。
这意味着,随着更新和更好的数据集和任务的出现时,模型可以廉价地保持更新,而无需支付完整运行成本。
相比之下,从头开始训练巨大的模型不仅会丢弃预训练内容,还会丢弃已经进行过的迭代改进内容。在开源世界中,这些改进不需要很长时间就会占据主导地位,这使得全面重新训练的成本极其高昂。
我们应该深思熟虑,每个新的应用或想法是否真的需要一个全新的模型。如果确实有主要架构方面上的改进使得直接重复使用模型权重变得困难,那么应该投资于更积极的提炼形式,让我们尽可能地保留前一代的能力。
如果我们可以更快地迭代小模型,那么长期来看,大模型并不会更具优势
对于最受欢迎的模型尺寸,LoRA 更新非常便宜(约 100 美元),这意味着几乎任何有想法的人都可以生成并分发一个。训练时间少于一天是正常的,在这种速度下,所有这些微调的累积效应不需要很长时间就可以克服开始时的尺寸劣势。事实上,就工程师时间而言,这些模型的改进速度远远超过了我们最大的变体所能做到的,而且最好的模型已经与 ChatGPT 基本没有区别了。专注于维护全球一些最大规模的模型实际上会使我们处于不利地位。
数据质量比数据大小更重要
许多项目通过在小型、高度筛选的数据集上进行训练来节省时间。这表明,数据缩放规律具有一定的灵活性。这些数据集是使用合成方法构建的(例如从现有模型中过滤出最佳响应),并且从其他项目中获取,但这两种方法在谷歌都不占优势。幸运的是,这些高质量的数据集是开源的,因此可以免费使用。
直接与开源竞争是一个失败的命题
这些最近的进展对我们的业务策略有直接、即时的影响。如果存在一个没有使用限制且质量高的免费替代品,谁还会为谷歌产品付费呢?
而且我们不应该期望能够追赶上来。现代互联网之所以运行在开源基础上,是因为开源具有一些重要优势,而这些优势是我们无法复制的。
我们需要他们,胜过他们需要我们
保守我们的技术秘密一直是一个不稳定的主张。谷歌的研究人员经常离开,前往其他公司,所以我们可以假设他们知道我们知道的一切,并且只要这条渠道仍然存在,他们就会继续知道。
但是,在低廉成本下进行 LLMs 领域尖端研究,使得保持技术竞争优势变得更加困难。世界各地的研究机构都在彼此的工作基础上,以广度优先的方式探索解决方案的空间,远远超过了我们自己的能力。在外部创新削弱其价值时,我们可以试图紧紧抓住自己的秘密,或者尝试从彼此中学习。
个人不像公司那样受许可证的限制
这种创新大部分是在 Meta 泄露的模型权重基础上进行的。虽然随着真正开放的模型变得更好,这种情况将不可避免地发生改变,但问题是,他们不必等待。由于“个人使用”的法律保护和起诉个人的不现实性,意味着个人可以趁热打铁获得这些技术。
成为自己的客户意味着您了解用例
浏览人们在图像生成领域创建的模型时,有大量创造力涌现出来,从动漫生成器到 HDR 风景。这些模型是由那些深深沉浸在他们特定的子类型中的人使用和创造的,赋予了我们无法企及的知识深度和同理心。
拥有生态系统:让开源为我们服务
矛盾的是,所有这一切中唯一明确的赢家是 Meta。因为泄露的模型是他们的,所以他们有效地获得了全球价值连城的免费劳动力。由于大多数开源创新都发生在他们架构之上,没有什么能阻止他们直接将其纳入产品中。
拥有生态系统的价值不言而喻,谷歌本身已经成功地在其开源产品(如 Chrome 和 Android)中使用了这种模式。通过拥有创新发生的平台,谷歌巩固了自己作为思想领袖和方向制定者的地位,并赢得了塑造超越自身思想叙述的能力。
我们控制模型越严格,就会使开放性替代方案更具吸引力。谷歌和 OpenAI 都采取了防御性发布模式来保持对其模型使用方式严格控制。但这种控制是虚幻的,任何想要将 LLMs 用于未经批准的目的的人,都可以简单地从免费提供的模型中挑选。
谷歌应该成为开源社区领导者,在与广泛对话合作时带头行动,而不是忽视它。这可能意味着采取一些不舒适的步骤,比如发布小型 ULM 变体的模型权重。这必然意味着放弃对我们模型的某些控制,但这种妥协是不可避免的,我们不能希望既推动创新又控制创新。
结语:OpenAI 怎么样?
鉴于 OpenAI 目前的封闭政策,所有这些关于开源的讨论都会让人觉得不公平。如果他们不分享,我们为什么要分享呢?但事实是,在高级研究员不断流失的情况下,我们已经在与他们分享一切。在我们阻止这种趋势之前,保密就没有意义。
最终,OpenAI 并不重要。他们在相对于开源的姿态上犯了和我们一样的错误,他们保持优势的能力必然受到质疑。除非他们改变立场,否则开源替代品最终将超越它们。至少在这一点上,我们可以先下手为强。
网友:谷歌没有护城河,不见得 OpenAI 也没有
以上便是谷歌内部泄露文件的大部分内容,对于文中所笃定的“开源将是最后赢家”的说法,迅速在网上引起了激烈讨论,多数人对此并不认同。
▶ “让我产生共鸣的部分是,与开源社区合作可能会让一个模型改进得更快。但我想说的是,用户会去找谁的模型最好,制胜的策略是让你的模型在质量上迭代得更快更好更持久,而开源并不总是在这方面获胜。
因此,我认为有一个启示:开源将在用户通常是软件开发者的领域获胜,因为他们可以对自己使用的产品进行改进。而闭源将在其他领域获胜。”
▶ “这么说来,拥有足够的规模来永久提供免费/低成本计算是一条护城河,但谷歌没有护城河,不见得 OpenAI 也没有:ChatGPT 风靡一时的主要原因就是因为它是免费的,且没有任何限制,但目前谷歌不是。”
▶ “普通人进入 ChatGPT 的门槛很低,而使用开源替代品的门槛却很高。同时 OpenAI 与谷歌不同,ChatGPT 是他们唯一的产品、全部的焦点,所以OpenAI 仍能非常快速地改进。
此外,对于大多数消费者来说,现如今 AI == ChatGPT,OpenAI 现在拥有最好的市场份额,这意味着有最多的用户反馈来改进他们的产品,他们ye可以快节奏地迭代。“
那么,你对于这份谷歌内部泄露文件的说法,又有什么看法呢?
参考链接:
https://www.semianalysis.com/p/google-we-have-no-moat-and-neither?continueFlag=bd4fddecd5a8db3ad9503af53320e97c
https://news.ycombinator.com/item?id=35813322&p=2
------
我们创建了一个高质量的技术交流群,与优秀的人在一起,自己也会优秀起来,赶紧点击加群,享受一起成长的快乐。另外,如果你最近想跳槽的话,年前我花了2周时间收集了一波大厂面经,节后准备跳槽的可以点击这里领取!
推荐阅读
BingChat 全面开放!无需等待,人人可用!
GitLab CI/CD:开发和运维管理的效率神器
Deno推出高性能键值数据库Deno KV
··································
你好,我是程序猿DD,10年开发老司机、阿里云MVP、腾讯云TVP、出过书创过业、国企4年互联网6年。从普通开发到架构师、再到合伙人。一路过来,给我最深的感受就是一定要不断学习并关注前沿。只要你能坚持下来,多思考、少抱怨、勤动手,就很容易实现弯道超车!所以,不要问我现在干什么是否来得及。如果你看好一个事情,一定是坚持了才能看到希望,而不是看到希望才去坚持。相信我,只要坚持下来,你一定比现在更好!如果你还没什么方向,可以先关注我,这里会经常分享一些前沿资讯,帮你积累弯道超车的资本。