Llama 3.1用了1.6万个英伟达H100 GPU,耗费......

目录

Llama 3.1发布简介

Llama 3.1模型规模与训练

大模型企业发展面临的问题与困境

算力和能耗算力方面

数据和资金方面

技术和人才方面


Llama 3.1发布简介

当地时间 2024年 7月 23号,Meta 公司发布了迄今为止最强大的开源 AI 模型 Llama 3.1。该模型不仅规模庞大,性能也堪比最强大的闭源模型。这称得上是开源 AI 领域的一个重要里程碑。

Llama 3.1 模型家族总共有三个版本,规模最大的旗舰版本拥有 405B(4050 亿)参数,是近年来最大的开源 AI 模型。其余两个较小版本的参数量分别是 700 亿和 80 亿。

”模型评估“ 和 ”模型能力与应用“ 等具体介绍可以参考官方文档。

总体而言,Llama 3.1 405B 模型在推理、数学等多项任务中的表现与 GPT-4、GPT-4o 和 Claude 3.5 Sonnet 相当,在长文本、多语言等领域甚至更胜一筹。不过在代码基准测试中,Llama 3.1 405B 模型的表现不如 Claude 3.5 Sonnet。

来自Meta

Llama 3.1模型规模与训练

Llama 3.1 405B 模型的训练规模令人惊叹。

Meta 使用了超过 1.6 万个英伟达 H100 GPU,在超过 15 万亿个 tokens(的数据集)上进行训练,相当于 7500 亿个单词。尽管 Meta 没有透露具体的开发成本,但仅根据其使用的英伟达芯片价格估算,成本就已高达数亿美元。

Meta 对其整个训练堆栈进行了重大优化,以达到如此大规模的训练目标。

在模型架构方面,他们选择了标准的仅解码器 transformer 模型,而非混合专家模型,以最大化训练稳定性。

训练数据方面,Meta 通过改进处理和数据筛选流程,提高了训练数据的质量。

此外,他们还选取了迭代式的后训练程序,“每轮都使用监督微调和直接偏好优化,用高质量的合成数据不断提升模型性能”。

参考:从国内某平台上看,一张H100 80G的GPU显卡售价25万元左右。

大模型企业发展面临的问题与困境

算力和能耗算力方面

  • 大模型需要大量计算资源,导致全球算力需求指数级增长,对全社会信息基础设施和众多企业、科研机构的大模型研发带来巨大压力。

算力紧缺:大模型通常包含数十亿至上万亿个参数,训练时需要处理数万亿个Token,这对算力提出了极高的要求。随着大模型的快速发展,算力需求呈指数级增长,极大地推动了全球算力规模的扩展。大型预训练模型的训练和调优过程消耗了海量的算力资源。例如,训练ChatGPT所需的算力相当于64台英伟达A100 GPU持续训练一年的时间。此外,大模型的日常运营和优化也需要大量算力支持。预计到2030年,全球算力总规模将达到56ZFlops,其中智能算力成为主要驱动力。

  •  能耗方面,大模型对能源的巨大需求导致人工智能能源消耗占全球能源消耗的3%左右,到2025年将消耗全球15%的电能,给全球环境治理带来挑战。我国大模型发展带来的高能耗可能增加碳达峰、碳中和压力。

能耗巨大:大模型对算力的巨大需求带来了能源消耗的激增。人工智能服务器的功率是普通服务器的6至8倍,训练大模型的能耗是常规云计算工作的3倍。据估计,当前人工智能的能源消耗已占全球总能耗的约3%,预计到2025年,这一比例将上升至15%。人工智能的快速发展对能源消耗和环境将产生深远的影响。

据估算,GPT-4一次训练的耗电量相当于1200名中国人一年的用电量,且这仅占模型实际使用时能耗的40%,实际运行阶段的能源消耗更为庞大。一些大型模型在运行时会产生大量碳排放,给全球环境治理带来严峻挑战。我国大模型发展的高能耗可能进一步加剧碳达峰和碳中和的压力。

数据和资金方面

  • 大模型面临的挑战包括数据获取便利性、数据来源合法性、数据质量可靠性、数据使用安全性、资金投入等方面的挑战。

数据规模与质量待提高:

  • 数据获取方面,专用类大模型需要专业数据,而这些数据往往属于企业、研究机构等实体,增加了训练难度。
  • 数据来源合法性方面,个人信息保护意识的提高使得数据合法使用成为问题。
  • 数据质量可靠性方面,开源数据集虽然数量巨大,但质量良莠不齐,从中提取符合预训练要求的高质量数据面临很大挑战。
  • 数据使用安全性方面,如何保证使用的数据不带偏见,以及如何保证人工智能制造的数据本身的安全性,都是需要解决的问题。
  • 资金投入方面,大模型成本高昂,包括模型开发成本、训练成本、算力成本、数据成本、运维成本等,对普通企业和科研机构而言,资金成为难以逾越的“门槛”。

资金紧缺:

  • 大模型的训练与开发成本极为高昂,主要由模型开发、训练、算力、数据和运维成本等多方面构成。仅训练成本就动辄达到数百万美元。以Meta的LLaMA大语言模型为例,在1.4万亿的数据集上,使用2000多个英伟达A100 GPU,进行了21天的训练,花费高达1000万美元。根据华为公布的信息,开发和训练一次人工智能大模型的成本高达1200万美元。
  • 这种巨额的资金投入将许多小型研究机构和中小型企业排除在外,使得大模型的研发集中于少数头部企业和研究机构,进一步加剧了行业的不平等。

技术和人才方面

  • 针对大模型技术,与国际最先进的水平存在一定差距,主要体现在底层架构设计和硬件技术方面。在底层架构设计方面,国内尚无类似的底层架构,大模型的预训练方面只能“在别人的地基上盖子”;在硬件技术方面,存在“卡脖子”风险。(具体不能展开,不然无法审核通过......)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/395336.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java二十三种设计模式-享元模式(12/23)

享元模式:高效管理大量对象的设计模式 引言 在软件开发中,有时需要处理大量相似或重复的对象,这可能导致内存使用效率低下和性能问题。享元模式提供了一种解决方案,通过共享对象的共同部分来减少内存占用。 基础知识&#xff0c…

谷粒商城实战笔记-145-性能压测-性能监控-jvisualvm使用-解决插件不能安装

文章目录 jvisualvm的作用安装查看gc相关信息的插件解决jvisualvm不能正常安装插件的问题1,查看java版本2,打开网址3,修改jvisualvm的设置 jvisualvm的作用 JVisualVM是一个集成在Java Development Kit (JDK) 中的多功能工具,它提…

LLMOps — 使用 BentoML 为 Llama-3 模型提供服务

使用 BentoML 和 Runpod 快速设置 LLM API 经常看到数据科学家对 LLM 的开发感兴趣,包括模型架构、训练技术或数据收集。然而,我注意到,很多时候,除了理论方面,许多人在以用户实际使用的方式提供这些模型时遇到了问题…

【C++】—— 类与对象(三)

【C】—— 类与对象(三) 4、拷贝构造函数4.1、初识拷贝构造4.1.1、为什么要传引用4.1.2、引用尽量加上 const 4.2、深入拷贝构造4.2.1、为什么要自己实现拷贝构造4.2.2、传值返回先调用拷贝构造的原因4.2.3、躺赢的 MyQueue4.2.4、传值返回与引用返回 4.…

世界500强排行榜公布 中国互联网企业表现突出

在2024年8月5日,《财富》杂志公布了最新的全球500强企业排行榜。 这些公司的总营收接近41万亿美元,占到了全球GDP的三分之一,其净利润同比增长2.3%,总计约2.97万亿美元。 中国有133家公司入选这一榜单,以11万亿美元的…

SpringMVC学习笔记---带你快速入门和复习

一、初识SpringMVC 1.1、什么是SpringMVC 1.1.1、什么是MVC MVC是一种软件架构模式(是一种软件架构设计思想,不止Java开发中用到,其它语言也需要用到),它将应用分为三块: M:Model&#xff0…

数学建模--蒙特卡洛算法之电子管更换刀片寿命问题

目录 1.电子管问题重述 2.电子管问题分析 3.电子管问题求解 4.刀片问题重述 5.刀片问题分析 6.刀片问题求解 1.电子管问题重述 某设备上安装有4只型号规格完全相同的电子管,已知电子管寿命服从100~200h之间的均匀分布. 只要有一个电子管…

在线办公小程序的设计

管理员账户功能包括:系统首页,个人中心,通知公告管理,员工管理,部门信息管理,职位信息管理,会议记录管理,待办事项管理,系统管理 微信端账号功能包括:系统首…

Android经典实战之如何获取图片的经纬度以及如何根据经纬度获取对应的地点名称

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 在Android中,可以通过以下步骤获取图片的经纬度信息以及根据这些经纬度信息获取对应的地点名称。这里主要涉及两部分:从…

从0开始搭建vue + flask 旅游景点数据分析系统(七):可视化前后端对接实现

这一期继续编写flask后端,并且完成echarts折线图、柱状图和饼图的对接。 1 新增一些依赖 pip install Flask-SQLAlchemy Flask-Marshmallow pymysql修改 init.py文件,下面给出完整代码: from flask import Flask from flask_sqlalchemy im…

leetcode70_爬楼梯

思路 动态规划 爬到第n阶楼梯的方法数为&#xff1a;第n-1阶楼梯的方法数 第n-2阶楼梯的方法数 func climbStairs(n int) int {if n < 2 {return 1}dp : make([]int, n1)dp[1] 1dp[2] 2for i:3; i<n; i {dp[i] dp[i-1] dp[i-2]}return dp[n] }

Kubernetes中的PV)和 PVC深度剖析

在容器化的世界里&#xff0c;持久化存储一直是一个重要且复杂的问题。Kubernetes&#xff08;以下简称K8s&#xff09;为了解决容器中的数据持久化问题&#xff0c;提出了Persistent Volume&#xff08;PV&#xff09;和Persistent Volume Claim&#xff08;PVC&#xff09;这…

大数据信用报告查询哪家平台的比较好?

相信在搜索大数据信用的你&#xff0c;已经因为大数据信用不好受到了挫折&#xff0c;想详细了解一下自己的大数据信用&#xff0c;但是找遍了网络上的平台之后才发现&#xff0c;很多平台都只提供查询服务&#xff0c;想要找一个专业的平台查询和讲解很困难。下面本文就为大家…

LeetCode 150.逆波兰表达式求值

LeetCode 150.逆波兰表达式求值 思路&#x1f9d0;&#xff1a; 用栈存储该字符串&#xff0c;如果遇到数字就入栈&#xff0c;遇到符号就将数字出栈计算后再入栈&#xff0c;当整个字符串遍历完后&#xff0c;栈顶值就是该表达式的值。 代码&#x1f50e;&#xff1a; class …

【OpenCV C++20 学习笔记】范围阈值操作

范围阈值操作 原理HSV颜色空间RGB与HSV颜色空间之间的转换 代码实现颜色空间的转换范围阈值操作 原理 HSV颜色空间 HSV(色相hue, 饱和度sarturation, 色明度value)颜色空间与RGB颜色空间相似。hue色相通道代表颜色类型&#xff1b;saturation饱和度通道代表颜色的饱和度&…

MySQL-MHA高可用配置及故障切换

目录 案例搭建 1&#xff1a;所有服务器关闭防火墙 2&#xff1a;设置hosts文件 3&#xff1a;安装 MySQL 数据库 4&#xff1a;修改参数 5&#xff1a;安装 MHA 软件 6&#xff1a;配置无密码认证 7&#xff1a;配置 MHA 8&#xff1a;模拟 master 故障 MHA(MasterHi…

【Python修改所有可执行程序的图标】

孩子还小&#xff0c;不懂事写着玩的 警告&#xff1a;请谨慎使用。该程序会修改全系统所有可执行文件图标(其实就是注册表)&#xff0c;在重新开机后生效 演示&#xff1a; 把应用程序图标改为记事本&#x1f5d2; 原理&#xff1a; Windows 操作系统通过注册表来存储和管…

不懂期权怎么交易?看这个例子就懂了

期权就是股票&#xff0c;唯一区别标的物上证指数&#xff0c;会看大盘吧&#xff0c;期权交易两个方向认购做多&#xff0c;认沽做空&#xff0c;双向t0交易没了&#xff0c;跟期货一样&#xff0c;对的&#xff0c;玩的也是合约&#xff0c;唯一区别没有保证金不会爆仓&#…

CAD二次开发IFoxCAD框架系列(15)- IFox的介绍和初始化

背景介绍 因为本人在光伏行业从事软件研发&#xff0c;最近我一直在做CAD方面技术的预研和探索。在研究CAD的SDK的时候&#xff0c;发现很多写法比较繁琐&#xff0c;所以一直想封装工具&#xff0c;提高开发效率&#xff0c;也做了很多的CAD工具的封装&#xff0c;大家可以看…

一文读懂如何选择视频孪生三维建模方式及建模精度等级

导言/INTRODUCTION 三维模型是视频孪生应用的基础&#xff0c;建模方式与模型精度将直接影响到最终孪生场景的呈现和应用效果。各种建模方式和模型精度在成本、场景还原真实度、实施周期方面都有自己的特点&#xff0c;因而有着各自的优劣势和适用场景&#xff0c;同一场景可能…