谷歌发布Gemini以5倍速击败GPT-4

8a084fe88e53af5f6d5e02c2d0884a5b.jpeg

在Covid疫情爆发之前,谷歌发布了MEENA模型,短时间内成为世界上最好的大型语言模型。谷歌发布的博客和论文非常可爱,因为它特别与OpenAI进行了比较。

相比于现有的最先进生成模型OpenAI GPT-2,MEENA的模型容量增加了1.7倍,并且训练数据增加了8.5倍。

这个模型的训练所需的浮点运算量(FLOPS)超过了GPT-2的14倍,但这在很大程度上是无关紧要的,因为仅仅几个月后,OpenAI推出了GPT-3,它的参数是GPT-2的65倍多,令牌数量是GPT-2的60倍多,FLOPS更是增加了超过4,000倍。这两个模型之间的性能差异巨大。

MEENA模型引发了Noam Shazeer撰写的名为“MEENA吞噬世界”的内部备忘录。在这个备忘录中,他预测了在ChatGPT发布之后世界上其他人在意识到的事情。主要观点是语言模型会在各种方式下越来越多地融入我们的生活,并且它们会主导全球部署的FLOPS。当他写这篇备忘录时,他的观点超前于时代,但大多数关键决策者当时都忽视了或甚至嘲笑了这些观点。

让我们稍微偏离一下,看看Noam真的有多先见之明。他曾是撰写原始的Transformer论文“Attention is All You Need”的团队成员。他还参与了第一篇现代Mixture of Experts论文、Switch Transformer、Image Transformer,以及LaMDA和PaLM的各个方面。他尚未在更广泛的范围内获得广泛认可的一个想法是2018年的,即我们在关于GPT-4的独家披露中详细介绍的“推测解码”。推测解码可以将推理成本降低多倍。

这里的重点是,谷歌拥有所有成功的因素,但他们却错误地处理了。这是大家都明显看到的情况。

可能不太明显的是,沉睡的巨人谷歌已经醒来,他们正在以超越GPT-4的总预训练FLOPS速度5倍的步伐迭代,预计在年底之前。根据他们目前的基础设施建设,到明年年底他们的路径清晰可见,可能达到100倍。至于谷歌是否有胆量在不削弱其创造力或现有商业模式的情况下公开发布这些模型,这是一个不同的讨论。

今天,我们想要讨论谷歌的双子座训练系统,双子座模型的迭代速度,谷歌的Viperfish(TPUv5)推出,谷歌与其他前沿实验室在未来的竞争力,以及一个我们称之为“显卡穷人”的群体。


GPU-Rich显卡富人

计算资源的获取是一个双峰分布。只有少数几家公司拥有20,000个以上的A/H100显卡,个人研究人员可以为小项目获得数百或数千个显卡。其中主要的公司包括OpenAI、谷歌、Anthropic、Inflection、X和Meta,它们的计算资源与研究人员的比例最高。上述一些公司以及多家中国公司,到明年底将拥有10万个以上的显卡,尽管我们不确定中国的研究人员比例,只知道显卡数量。

在湾区,我们看到的最有趣的趋势之一是顶尖机器学习研究人员吹嘘他们有多少显卡,或者即将拥有多少显卡的机会。事实上,在过去的大约4个月里,这种现象变得如此普遍,以至于它已经成为一个直接影响顶尖研究人员决定去哪里的竞争。Meta,将拥有世界上第二多的H100显卡的公司,正在将这一点作为一种招聘策略。


GPU-Poor显卡穷人

然后,还有许多初创公司和开源研究人员,他们面临着更少显卡的困境。他们在试图做一些根本没有帮助或实际上无关紧要的事情上花费了大量的时间和精力。例如,许多研究人员花费了无数个小时在使用没有足够VRAM的显卡上对模型进行微调,这是对他们的技能和时间的极其低效的利用。

这些初创公司和开源研究人员正在使用更大的语言模型对较小的模型进行微调,用于排行榜样式的基准测试,而这些基准测试使用了有缺陷的评估方法,更强调样式而不是准确性或有用性。他们通常并不知道,为了使较小的开放模型在实际工作负载中改进,预训练数据集和IFT数据需要更大/更高质量。

是的,高效使用显卡是非常重要的,但在很多方面,显卡穷人们却忽略了这一点。他们不关心规模效率,他们的时间没有得到有效利用。对于即将在明年底之前拥有超过350万个H100显卡的世界来说,在他们的显卡穷人环境中商业上可以做的事情在很大程度上是无关紧要的。对于学习、尝试,更小、更弱的游戏显卡完全足够。

显卡穷人们仍然主要使用稠密模型,因为这就是Meta优雅地放在他们手上的LLAMA系列模型。如果没有上帝扎克的恩惠,大多数开源项目可能会更糟。如果他们真的关心效率,特别是在客户端方面,他们会运行像MoE这样的稀疏模型架构,在这些更大的数据集上进行训练,并像前沿的LLM实验室(OpenAI、Anthropic、Google Deepmind)那样实现推测解码。

这些处于劣势地位的人应该关注通过提高计算和内存容量要求以改善模型性能或令牌到令牌的延迟来平衡,以换取较低的内存带宽,因为这是边缘需要的。他们应该专注于在共享基础设施上高效地提供多个微调模型,而不用支付小批量大小的可怕成本。然而,他们一直关注内存容量限制或过度量化,而对真实质量下降视而不见。

稍微偏离一下,总体上,模型评估是有问题的。尽管在封闭的世界中有很多努力来改进这一点,但开放基准测试领域几乎没有意义,几乎没有衡量任何有用的东西。由于某种原因,对于LLM的排行榜化存在一种不健康的痴迷,以及对于无用模型的愚蠢名称的模因化。希望开源努力能够重新引导到评估、推测解码、MoE、开放的IFT数据和具有超过1万亿标记的干净预训练数据集,否则,开源将无法与商业巨头竞争。

虽然美国和中国将能够继续领先,但欧洲的初创公司和政府支持的超级计算机(如朱尔斯·凡尔纳)也完全无法竞争。由于缺乏进行大规模投资的能力,并选择保持显卡穷人的状态,欧洲在这场比赛中将落后。甚至多个中东国家也在为推动AI的大规模基础设施投资更多资金。

然而,显卡穷人并不仅限于初创公司。一些最知名的人工智能公司,如HuggingFace、Databricks(MosaicML)和Together,也是显卡穷人的一部分。实际上,从每个GPU的世界级研究人员数量,到GPU数量与雄心/潜在客户需求之间的关系,他们可能是最穷的一群。这些公司拥有世界级的研究人员,但由于他们使用的系统的能力相对较低,他们的发展受到了限制。这些公司在培训实际模型方面受到了企业的巨大需求,成千上万个H100显卡已经陆续到来,但这并不足以占据大部分市场份额。

Nvidia凭借其在DGX Cloud服务和各种内部超级计算机中拥有的多倍显卡数量正在蚕食它们的市场份额。Nvidia的DGX Cloud提供了预训练模型、数据处理框架、矢量数据库和个性化、优化的推理引擎、API以及来自NVIDIA专家的支持,以帮助企业调整模型以适应其自定义用途。该服务还已经为来自SaaS、保险、制造业、制药、生产软件和汽车等行业的多个大型企业提供了支持。虽然并非所有客户都已宣布,但即使是Amgen、Adobe、CCC、ServiceNow、Accenture、AstraZeneca、Getty Images、Shutterstock、Morningstar、Evozyne、Insilico Medicine、Quantiphi、InstaDeep、Oxford Nanopore、Peptone、Relation Therapeutics、ALCHEMAB Therapeutics和Runway这样的公开客户列表也相当令人印象深刻。

这是一个比其他玩家更长的列表,Nvidia还有许多其他未公开的合作伙伴关系。需要明确的是,来自Nvidia的DGX云服务这些宣布客户的收入是未知的,但考虑到Nvidia的云计算支出和内部超级计算机建设的规模,似乎更多的服务可以/将从Nvidia的云中购买,而不仅仅是HuggingFace、Together和Databricks所能提供的。

HuggingFace和Together共筹集的几亿资金意味着他们将保持显卡穷人的状态,他们将无法培训N-1个LLM,这些LLM可以作为基础模型供客户微调。这意味着他们最终将无法在今天就可以访问Nvidia的服务的企业中占据很高的份额。

特别是HuggingFace在行业中有着最大的声誉,他们需要利用这一点来投资大量资金,并构建更多的模型、定制和推理能力。他们最近的融资轮次在估值过高,无法获得他们需要的投资来竞争。HuggingFace的排行榜表明他们有多么盲目,因为他们正在误导开源运动,让其创造出一堆在实际使用中毫无用处的模型。

Databricks(MosaicML)可能至少可以通过其数据和企业连接赶上,问题是如果他们想有希望为超过7,000名客户提供服务,他们需要加快支出的速度。对MosaicML的13亿美元收购是对这一垂直领域的重大赌注,但他们还需要在基础设施上投入类似的资金。不幸的是,对于Databricks来说,他们不能用股票支付显卡的费用。他们需要通过即将进行的私募轮/首次公开募股来进行大规模的发行,并使用那些冷硬现金来大幅度增加硬件投入。

经济论点在这里不成立,因为他们必须在客户到来之前建设,因为Nvidia正在向他们的服务投入资金。需要明确的是,许多人购买了大量计算资源,但并没有赚回他们的钱(Cohere、沙特阿拉伯、阿联酋),但这是竞争的先决条件。

训练和推理运营公司(Databricks、HuggingFace和Together)在其主要竞争对手之后,而这些竞争对手同时也是他们的计算资源的主要来源。下一个最大的定制模型运营商只是来自OpenAI的微调API。

关键在于,从Meta到Microsoft再到初创公司,他们只是作为向Nvidia的银行账户输送资金的通道。

有没有人能够拯救我们免于Nvidia的奴役?

是的,有一个潜在的救星。


谷歌 - 全球最富有计算资源的公司


虽然谷歌在内部使用显卡,同时也通过GCP销售了大量显卡,但他们还有一些王牌。其中包括Gemini和已经开始训练的下一代模型。他们最重要的优势是无与伦比的高效基础设施。谷歌将会拥有比OpenAI、Meta、CoreWeave、Oracle和亚马逊的显卡总数加起来还要多的TPUv5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/114128.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ES】elasticsearch8.3.3

这里仅实践操作并根据实际问题进行记录笔记。 运行 ES8 我们需要在自己的电脑上安装好 Docker Desktop。接着我们运行如下的命令:出现两个异常,一个是需要使用winpty因为我使用win的docker desktop,另外一个问题是docker启动elasticsearchE…

【MySQL】3、MySQL的索引、事务、存储引擎

create table class (id int not null,name char(10),score decimal(5,2)); insert into class values (1,zhangsan,80.5); update class set namewangwu,passwd123 where id2; select * from class where id2; drop 索引的概念 是一种帮助系统,能够更快速的查询信…

思乐直播系统短视频直播系统源码 直播短视频平台系统APP源码多功能后台系统

思乐直播系统,集直播、短视频等功能,根据市场趋势开发并推出思乐直播APP,APP功能丰富且可在后台管理系统进行配置,做到按需求来开启功能。APP使用起来方便快捷,随时随地开启直播、分享短视频。 整个系统具备非常完善、…

Docker部署(5)——使用docker run命令部署运行jar项目

对于一些简单的单体项目,可以使用 docker run 命令可以直接在命令行中运行容器,无需事先构建镜像。这相较于之前使用的 dockerfile 文件来运行部署项目相当于是另外一种简单的部署方法,关于之前使用dockerfile 文件来运行部署这种方法&#x…

错误:依赖检测失败: mysql-community-libs(x86-64) >= 5.7.9 被 (已安裝) mysql-community-li

错误: 错误原因:没有删除之前安装的依赖问题 解决办法: yum remove mysql-libs 再用下面指令检查一遍: rpm -qa | grep mysql 如果有还未清理的,用下面指令: rpm -e xxx

分布式定时任务框架Quartz总结和实践(2)—持久化到Mysql数据库

本文主要介绍分布式定时任务框架Quartz集成SpringBoot持久化数据到Mysql数据库的操作,上一篇文章使用Quartz创建定时任务都是保存在内存中,如果服务重启定时任务就会失效,所以Quartz官方也提供将定时任务等信息持久化到Mysql数据库的功能&…

C语言数值表示——进制、数值存储方式

进制 进制也就是进位制,是人们规定的一种进位方法对于任何一种进制—X进制,就表示某一位置上的数运算时是逢X进一位 十进制是逢十进一,十六进制是逢十六进一,二进制就是逢二进一,以此类推,x进制就是逢x进位…

如何提高工业网关的数据传输速度?

工业网关是工业物联网系统中不可或缺的设备,提高工业网关的数据采集、传输速度,是保障和优化物联网系统运营效率的基础。如何提高工业物联网关的数据传输速度?本篇就为大家简单介绍一下。 1、选用高品质网络设备 选用具有足够带宽容量的高质…

项目实践:类平面抓取点计算(占位,后面补充)

文章目录 文章目录:3D视觉个人学习目录微信:dhlddxB站: Non-Stop_

深入浅出:手把手教你实现顺序表

一、什么是顺序表 顺序表是一种数据结构,或者说,是数据在内存中存储和管理的一种方式。顺序表要求每个数据要从第一个位置开始,依次挨着放。这就很适合使用C语言中的数组来实现。 很多朋友可能会觉得,那有啥可以讲的?我…

Qt网络通信——获取本机网络信息

查询一个主机的MAC地址或者IP地址是网络应用中常用到的功能&#xff0c;Qt提供了QHostInfo和QNetworkInterface 类可以用于此类信息的查询 1.QHostInfo 类&#xff08;显示和查找本地的信息&#xff09;是的主要函数 类别 函数原型作用公共函数QList <QHostAdress> addr…

SpringBoot项目配置文件数据库用户名密码加密

1、需求 在使用SpringBoot开发过程中&#xff0c;会将一些敏感信息配置到SpringBoot项目的配置文件中(不考虑使用配置中心的情况 )&#xff0c;例如数据库的用户名和密码、Redis的密码等。为了保证敏感信息的安全&#xff0c;我们需要将此类数据进行加密配置。 2、操作步骤 …

docker 部署springboot(成功、截图)

1.新建sringboot工程并打包 2.编写Dockerfile文件 # 基础镜像使用java FROM openjdk:8 # 作者 MAINTAINER feng # VOLUME 指定了临时文件目录为/tmp。 # 其效果是在主机 /var/lib/docker 目录下创建了一个临时文件&#xff0c;并链接到容器的/tmp VOLUME /tmp # 将jar包添加…

探秘二叉树后序遍历:从叶子到根的深度之旅

本篇博客会讲解力扣“145. 二叉树的后序遍历”的解题思路&#xff0c;这是题目链接。 本题的思路是&#xff1a; 先创建一个数组&#xff0c;用来存储二叉树后序遍历的结果。数组的大小跟树的结点个数有关。树的结点个数可以使用递归实现&#xff0c;即总个数左子树结点个数右…

Ansible

目录 Ansible简介 ansible 环境安装部署 #管理端安装 ansible //ansible 目录结构 //配置主机清单 //配置密钥对验证 ansible 命令行模块 1&#xff0e;command 模块 2&#xff0e;shell 模块 3&#xff0e;cron 模块 4&#xff0e;user 模块 5&#xff0e;group 模块 6&am…

人生的回忆

回忆是人类宝贵的精神财富&#xff0c;它们像一串串珍珠&#xff0c;串联起我们生活中的每一个片段。 回忆是时间的见证者&#xff0c;它们承载着我们成长、经历、悲欢离合的点点滴滴。 回忆让我们重温过去的欢笑与眼泪&#xff0c;感受那些已经逝去的时光。它们就像一本翻开的…

Caffine和Guava的refreshAfterWrite的异同

背景: guava和caffine的refreshAfterWrite方法在用于本地缓存的场景是非常常用的&#xff0c;本文通过例子列举下caffine的refreshAfterWrite方法和guava的refreshAfterWrite的相同点和不同点 相同点/不同点&#xff1a; 以下都是使用keyXYZ作为例子 场景1&#xff1a;一开…

时序预测 | MATLAB实现基于QPSO-BiGRU、PSO-BiGRU、BiGRU时间序列预测

时序预测 | MATLAB实现基于QPSO-BiGRU、PSO-BiGRU、BiGRU时间序列预测 目录 时序预测 | MATLAB实现基于QPSO-BiGRU、PSO-BiGRU、BiGRU时间序列预测效果一览基本描述程序设计参考资料 效果一览 基本描述 1.时序预测 | MATLAB实现基于QPSO-BiGRU、PSO-BiGRU、BiGRU时间序列预测&a…

基于沙猫群算法优化的BP神经网络(预测应用) - 附代码

基于沙猫群算法优化的BP神经网络&#xff08;预测应用&#xff09; - 附代码 文章目录 基于沙猫群算法优化的BP神经网络&#xff08;预测应用&#xff09; - 附代码1.数据介绍2.沙猫群优化BP神经网络2.1 BP神经网络参数设置2.2 沙猫群算法应用 4.测试结果&#xff1a;5.Matlab代…

NFTScan | 08.21~08.27 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。周期&#xff1a;2023.08.21~ 2023.08.27 NFT Hot News 01/ NFT 品牌体验平台 Recur 将于 11 月 16 日彻底关闭&#xff0c;此前曾获 5000 万美元融资 8 月 21 日&#xff0c;NFT 品牌体验平台 Recur 在 X…