大模型算力基础设施技术趋势、关键挑战与发展路径


文章目录

  • 前言
  • 一、大模型技术发展趋势
    • 1.1 大语言模型
    • 1.2 多模态模型
    • 1.3 长序列模型
    • 1.4 混合专家模型
  • 二、大模型算力基础设施发展问题与挑战
    • 2.1 可用算力规模亟需算力利用效率提升
    • 2.2 集群性能提升依赖跨尺度、多层次互联
  • 三、大模型算力基础设施高质量发展路径
  • 总结


前言

从大模型技术发展趋势出发,分析了多模态、长序列和混合专家模型的架构特征和算力需求特点。围绕大模型对巨量算力规模与复杂通信模式的需求,重点从算力利用效率、集群互联技术两方面量化分析了当前大模型算力基础设施存在的发展问题和面临的技术挑战,并提出了以应用为导向、以系统为核心、以效率为目标的高质量算力基础设施发展路径。

近年来,生成式人工智能技术,尤其是大语言模型(Large Language Model,LLM)的快速发展,标志着人工智能进入了一个前所未有的新时代。模型能力的提升和架构的演进催生了新的算力应用范式,对所需的算力基础设施提出了全新的挑战。

在这里插入图片描述


一、大模型技术发展趋势

1.1 大语言模型

最初的语言模型主要基于简单的统计方法,随着深度学习技术的进步,模型架构逐步从循环神经网络(Recurrent Neural Network,RNN)到长短期记忆(Long Short Term Memory,LSTM)再到Transformer演进,模型的复杂性和能力相继提升。2017年,Ashish Vaswani等首先提出了Transformer架构,这一架构很快成为了大语言模型开发的基石。2018年,BERT通过预训练加微调的方式,在多项自然语言处理任务上取得了前所未有的成效,极大地推动了下游任务的发展和应用。2018—2020年,OpenAI相继发布了GPT-1、GPT-2和GPT-3,模型的参数量从1 亿级别增长到1 000 亿级别,在多项自然语言处理任务上的性能呈现近似指数级的提升,论证了尺度定律(Scaling Law)在实际应用中的效果。2022年底,ChatGPT发布之后,引发了一轮LLM热潮,全球诸多企业、研究机构短时间内开发出LLaMA、文心一言、通义千问等上百种大语言模型。这一时期的模型大都基于Transformer基础架构,利用大量的文本数据进行训练,通过学习大规模数据集中的模式和关系,能够执行多种语言任务。但是,LLM的发展很快遇到了两个显著的问题,一是模型的能力局限于对文本信息的理解和生成,实际的落地应用场景受限;二是稠密模型架构特征将会使得模型能力提升必然伴随着算力需求的指数级增加,在算力资源受限的大背景下模型能力进化的速度受限。

1.2 多模态模型

为了进一步提升大模型的通用能力,研究者开始探索模型在非文本数据(如图像、视频、音频等领域)中的应用,进而发展出了多模态模型。这类模型能够处理和理解多种类型的输入数据,实现跨模态的信息理解和生成。例如,OpenAI的GPT-4V模型可以理解图片信息,而Google的BERT模型则被扩展到VideoBERT用于理解视频内容。多模态模型的出现大大扩展了人工智能的感知能力和应用范围,从简单的文本处理到复杂的视觉和声音处理。多模态模型在基础模型架构上跟LLM一样大都采用Transformer,但是通常需要设计特定的架构来处理不同类型的输入数据。例如,它们可能结合了专门处理图像数据的卷积神经网络(Convolutional Neural Networks,CNN)组件,需要使用跨模态的注意力机制、联合嵌入空间或特殊的融合层来实现对来自不同模态信息的有效融合。

1.3 长序列模型

研究者们发现通过扩展上下文窗口可以让大模型能够更好地捕捉全局信息,有助于更准确地保留原文的语义、降低幻觉的发生、提高新任务的泛化能力,这就是提升大模型能力的另外一条有效的路径——长序列(Long Sequence)。2023年以来,主流大模型都在不断提高长序列的处理能力(见图1),比如GPT-4 Turbo可以处理长达128 K的上下文,相比较GPT-3.5的4K处理能力已经增长了32倍,Anthropic的Claude2具备支持200 K上下文的潜力,Moonshot AI的Kimi Chat更是将中文文本处理能力提高到了2 000 K。从模型架构上来看,传统的LLM训练主要对Transformer中耗时最多的两个核心单元——多头注意力层(Multi-Head Attention,MHA)和前馈神经网络层(Feedforward Neural Network,FNN)进行张量并行,但保留了归一化层和丢弃层,这部分元素不需要大量的计算但随着序列的长度增加会产生大量的激活值内存。由于这部分非张量并行的操作沿着序列维度是相互独立的,可以通过沿序列维度切分实现激活值内存的减少。然而,序列并行(Sequence Parallelism,SP)的增加会引入额外的全聚集(All G

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/395596.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用 `grep` 命令的常用方式

使用 grep 命令的常用方式 grep 是一个强大的命令行工具,用于在文件中搜索文本。无论是程序员、系统管理员还是普通用户,都可以通过 grep 快速定位需要的信息。本文将介绍 grep 命令的一些常用方式,并给出相应示例的执行结果。 示例文本 在…

C语言求平方和倒数

文章目录 1. 代码实现float类型数据double类型数据使用 double 类型的调整 2. 魔数与位级别操作浮点数表示位级别魔数操作 3. 牛顿迭代4. 复杂代码具体解释具体解释:目的:举例: 5.感谢 平方和倒数 广泛用于计算机图形学中,尤其是在…

Spring Boot - 通过ApplicationListener实现接口请求的性能监控

文章目录 概述1. ServletRequestHandledEvent事件2. 实现步骤3. 优缺点分析4. 测试与验证小结其他方案1. 自定义拦截器2. 性能监控平台3. 使用Spring Boot Actuator4. APM工具 概述 在Spring框架中,监控接口请求的性能可以通过ServletRequestHandledEvent事件实现。…

【数据结构】—— 内部排序算法详解

1、前言2、常见排序算法3、排序算法实现3.1 直接插入排序3.2 希尔排序3.3 选择排序3.4 堆排序3.5 冒泡排序3.6 快速排序3.6.1 单趟排序hoare法挖坑法双指针法 3.6.2 非递归实现3.6.3 常见问题基准值的选取小区间优化 3.7 归并排序3.7.1 递归实现3.7.2 非递归实现 3.8 计数排序 …

glibc的安装及MySQL的安全用户角色权限(twenty-one day)

一、glibc安装 mysql 清空/etc/目录下的my.cnf ls -l /etc/my.cnf rm -rf /etc/my.cnf yum -y remove mariadb find / -name "*mysql*" -exec rm -rf {} \; 安装mysql软件包 wget https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.33-li nux-glibc2.1…

面壁的智能开源 MiniCPM-V 2.6 边缘人工智能多模态功能与 GPT-4V 不相上下

"MiniCPM-V2.6 "是一个边缘多模态人工智能模型,仅拥有 80 亿个参数,却在单图像、多图像和视频理解任务中取得了低于 200 亿个参数的三项 SOTA(艺术境界)成绩,显著增强了边缘多模态能力,并与 GPT-…

爬虫入门--了解相关工具

目录 1.爬虫与python 2.第一个爬虫 3.web请求的全过程 3.1服务器渲染 3.2前端JS渲染 4.浏览器工具 4.1Elements 4.2Console 4.3Source 4.4network(重点) 5.小结 1.爬虫与python 首先我们要知道,爬虫一定要用Python么? 非也~…

云计算任务调度优化matlab仿真,对比蚁群优化和蛙跳优化

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 ACO蚁群优化 4.2 蛙跳优化 5.完整程序 1.程序功能描述 云计算任务调度优化,优化目标位任务消耗时间,调度后的经济效益以及设备功耗,对比蚁群优化算法和蛙跳优化…

三星、小米和 OPPO设备实验室将采用Android设备流技术

早在 5 月份的年度开发者大会上,Google就发布了 Android 设备流测试版。开发人员可以在Google数据中心的真实物理设备上更轻松、更互动地测试自己的应用程序,这些设备会直接串流到 Android Studio。今天,Google宣布与三星、小米和 OPPO 合作扩…

关于LLC知识5

RLC的增益曲线不知一条 频率升高,增益会越来越低 无论在容性区还是感性区,当负载加重的时候,R阻值会变小,所以R的分压也会变小,导致增益会变低 当负载突然加重,输出电压会变低,增益曲线由红色变…

如何让左右两个div各占50%,并且高度相同?

如何设置两个div各占一半,并且高度随着内容增加,而且两边div的高度一致呢?默认会发现高度不一致,改用flex就可以了,另外发现传统的table也可以轻易实现。不知道不用flex的话是否可以实现。 方法1(div实现&a…

环境配置:如何在IntelliJ IDEA中安装和修改JDK版本配置(以Windows为例)

环境配置:如何在IntelliJ IDEA中安装和修改JDK版本配置(以Windows为例) 为了在Java开发中使用最新的功能和优化,升级和配置JDK版本是必不可少的。本文将详细介绍如何下载、安装、配置最新的JDK版本,并在IntelliJ IDEA…

pikachu文件包含漏洞

一:漏洞基础 程序在引用文件的时,引用的文件名存在可控的情况,传入的文件名没有经过合理的校验或校验不严,从而操作了预想之外的文件,就有可能导致文件泄漏和恶意的代码注入; 文件包含漏洞概念 在PHP程序…

安卓将子模块打aar包,并将其远程依赖打包进去

生成 AAR 包 在Android Studio Terminal 窗口输入以下命令: ./gradlew :monitor:assembleRelease把 monitor 换成你子模块的名称,不出意外的话 就会在下面目录生成相应aar文件 注意:如果你的Java运行环境是Java 8 则在老一点的AS上 可以运…

PCIe学习笔记(19)

TLP Prefix(前缀)规则 以下规则适用于任何包含TLP Prefix的TLP: •对于任何TLP, TLP第0字节的Fmt[2:0]字段值为100b表示存在TLP Prefix, Type[4]位表示TLP Prefix的类型。 ◦Type[4]位的值为0b表示存在Local TLP Prefix ◦Type[4]位的值为1b表示存在…

牛客JS题(二十三)判断质数

注释很详细&#xff0c;直接上代码 涉及知识点&#xff1a; 原型链如何优雅的判断质数 题干&#xff1a; 我的答案 <!DOCTYPE html> <html><head><meta charsetutf-8></head><body><script type"text/javascript">/*** 素…

Vue引入使用iconfont字体图标

由于element-ui或element-plus提供的图标有时候并不能满足日常需求,所以这篇介绍一下前端引入阿里巴巴矢量图标库使用,不止是vue使用,不限于vue2、vue3,html或是其他框架也是同样的道理,只要引入都是同样可以使用的。 1. 首先进入阿里巴巴矢量图标库官网 官网:https://…

螺旋矩阵

螺旋矩阵 思路&#xff1a; 这题是一个模拟的题目。 可以观察出一些性质&#xff1a;每次需要换方向的时候都是到达了边界&#xff08;长度和宽度的边界&#xff09;。 不知道怎么转化为代码&#xff01; 哭了 看看题解吧&#xff1a;真不会 看到一个太妙的方法了&#x…

初识云计算

随着科技的飞速发展&#xff0c;云计算作为一种新兴的信息技术架构&#xff0c;正在逐渐改变我们的工作方式和生活方式。 云计算是什么&#xff1f; 云计算是一种通过互联网提供计算资源和服务的计算模式。它通过互联网将计算和存储资源进行集中和共享&#xff0c;为用户提供…

zabbix的自动发现和注册、proxy代理和SNMP监控

一、zabbix自动发现和注册 1.概念 zabbix客户端主动的和服务端联系&#xff0c;将自己的地址和端口发送给服务端&#xff0c;实现自动添加监控主机。 客户端是主动的一方 缺点&#xff1a;自定义网段中主机数量太多&#xff0c;登记耗时会很久&#xff0c;而且这个自动发现…