大模型算力基础设施技术趋势、关键挑战与发展路径

文章目录

前言
一、大模型技术发展趋势
- 1.1 大语言模型
- 1.2 多模态模型
- 1.3 长序列模型
- 1.4 混合专家模型
二、大模型算力基础设施发展问题与挑战
- 2.1 可用算力规模亟需算力利用效率提升
- 2.2 集群性能提升依赖跨尺度、多层次互联
三、大模型算力基础设施高质量发展路径
总结

前言

从大模型技术发展趋势出发，分析了多模态、长序列和混合专家模型的架构特征和算力需求特点。围绕大模型对巨量算力规模与复杂通信模式的需求，重点从算力利用效率、集群互联技术两方面量化分析了当前大模型算力基础设施存在的发展问题和面临的技术挑战，并提出了以应用为导向、以系统为核心、以效率为目标的高质量算力基础设施发展路径。

近年来，生成式人工智能技术，尤其是大语言模型（Large Language Model，LLM）的快速发展，标志着人工智能进入了一个前所未有的新时代。模型能力的提升和架构的演进催生了新的算力应用范式，对所需的算力基础设施提出了全新的挑战。

在这里插入图片描述

一、大模型技术发展趋势

1.1 大语言模型

最初的语言模型主要基于简单的统计方法，随着深度学习技术的进步，模型架构逐步从循环神经网络（Recurrent Neural Network，RNN）到长短期记忆（Long Short Term Memory，LSTM）再到Transformer演进，模型的复杂性和能力相继提升。2017年，Ashish Vaswani等首先提出了Transformer架构，这一架构很快成为了大语言模型开发的基石。2018年，BERT通过预训练加微调的方式，在多项自然语言处理任务上取得了前所未有的成效，极大地推动了下游任务的发展和应用。2018—2020年，OpenAI相继发布了GPT-1、GPT-2和GPT-3，模型的参数量从1 亿级别增长到1 000 亿级别，在多项自然语言处理任务上的性能呈现近似指数级的提升，论证了尺度定律（Scaling Law）在实际应用中的效果。2022年底，ChatGPT发布之后，引发了一轮LLM热潮，全球诸多企业、研究机构短时间内开发出LLaMA、文心一言、通义千问等上百种大语言模型。这一时期的模型大都基于Transformer基础架构，利用大量的文本数据进行训练，通过学习大规模数据集中的模式和关系，能够执行多种语言任务。但是，LLM的发展很快遇到了两个显著的问题，一是模型的能力局限于对文本信息的理解和生成，实际的落地应用场景受限；二是稠密模型架构特征将会使得模型能力提升必然伴随着算力需求的指数级增加，在算力资源受限的大背景下模型能力进化的速度受限。

1.2 多模态模型

为了进一步提升大模型的通用能力，研究者开始探索模型在非文本数据（如图像、视频、音频等领域）中的应用，进而发展出了多模态模型。这类模型能够处理和理解多种类型的输入数据，实现跨模态的信息理解和生成。例如，OpenAI的GPT-4V模型可以理解图片信息，而Google的BERT模型则被扩展到VideoBERT用于理解视频内容。多模态模型的出现大大扩展了人工智能的感知能力和应用范围，从简单的文本处理到复杂的视觉和声音处理。多模态模型在基础模型架构上跟LLM一样大都采用Transformer，但是通常需要设计特定的架构来处理不同类型的输入数据。例如，它们可能结合了专门处理图像数据的卷积神经网络（Convolutional Neural Networks，CNN）组件，需要使用跨模态的注意力机制、联合嵌入空间或特殊的融合层来实现对来自不同模态信息的有效融合。

1.3 长序列模型

研究者们发现通过扩展上下文窗口可以让大模型能够更好地捕捉全局信息，有助于更准确地保留原文的语义、降低幻觉的发生、提高新任务的泛化能力，这就是提升大模型能力的另外一条有效的路径——长序列（Long Sequence）。2023年以来，主流大模型都在不断提高长序列的处理能力（见图1），比如GPT-4 Turbo可以处理长达128 K的上下文，相比较GPT-3.5的4K处理能力已经增长了32倍，Anthropic的Claude2具备支持200 K上下文的潜力，Moonshot AI的Kimi Chat更是将中文文本处理能力提高到了2 000 K。从模型架构上来看，传统的LLM训练主要对Transformer中耗时最多的两个核心单元——多头注意力层（Multi-Head Attention，MHA）和前馈神经网络层（Feedforward Neural Network，FNN）进行张量并行，但保留了归一化层和丢弃层，这部分元素不需要大量的计算但随着序列的长度增加会产生大量的激活值内存。由于这部分非张量并行的操作沿着序列维度是相互独立的，可以通过沿序列维度切分实现激活值内存的减少。然而，序列并行（Sequence Parallelism，SP）的增加会引入额外的全聚集（All G

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/395596.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！