中国电信解锁万亿参数大模型:TeleAI的创新与突破

首个由万卡集群训练出来的万亿参数大模型,已被一家央企解锁。

具体而言,为了推动纯国产人工智能的探索,带来这条新路径的正是中国电信人工智能研究院(TeleAI)。

该研究院由中国电信集团的CTO、首席科学家兼院长李学龙教授带领的团队完成了这一壮举。根据了解,训练过程中使用的万卡集群由天翼云上海临港国产万卡算力池提供,基于天翼云自研的“息壤一体化智算服务平台”和电信人工智能公司自研的“星海AI平台”的支持,可以实现万亿参数的稳定训练,平均每周仅有1.5次训练中断,集群训练的稳定性达到了国际领先水平。

此外,TeleAI还开源了由国产深度学习框架训练的千亿参数大模型——星辰语义大模型TeleChat2-115B。TeleChat是央企中首个开源的系列语义大模型,而TeleChat2-115B则在TeleChat的基础上,通过对训练数据量、数据质量、配比和模型架构等多个维度的优化,取得了更为显著的效果提升!在九月份的C-Eval评测Open Access模型综合榜单中,TeleChat2-115B以86.9分的成绩,一举夺得了榜单第一!

这已经不是TeleAI第一次在权威榜单中高居榜首了。早在今年5月份时,其TeleChat系列模型的逻辑推理能力便在OpenCompass测试榜单中取得了开源大模型的第一名。

具体到应用方面,星辰语义大模型在长文本写作方面采用了“大纲写作+正文写作”的模式,更加贴近用户的习惯。

据了解,它还采用逐段生成文本的方式,这有利于实现超长文章的写作。

即使面对超长会议,星辰语义大模型也能够轻松实现实时纪要生成,在准确性、完整性、幻觉问题、逻辑性以及规范性等多个方面都能呈现高质量的结果。

对于大型电子报表,星辰语义大模型支持报表生成、报表问数、报表摘要以及报表对应报告的风格化仿写等功能,能够轻松处理百万行数据!

那么,万卡万参是如何练成的呢?

需要明确的一点是,实现万卡万参并非易事,尤其是实现全国产化的难度显而易见。首先的难点便是提升万卡集群的性能和稳定性。为了提升训练性能,TeleAI采用了多维混合并行的技术,可以通过设置不同的并行模式,实现数据并行、模型并行和流水线并行的自动混合使用,支持万亿模型在万卡集群上的高效分布式训练。在此次训练中,还采用了以下关键技术以进一步提升训练性能:

  • 多副本并行:通过将输入模型的数据按照batch size维度进行切分,使得底层在通信时,另一副本进行计算操作,无需等待,从而显著提升模型性能。

  • 通信优化:通过通信融合和通信子图提取与复用等技术,减少通信耗时,提升训练性能。

  • DryRun仿真:无需真正执行计算,而是在小集群上分析计算图,识别性能瓶颈,如算子融合、显存使用和数据流的效率问题,提前为万卡集群的运行提供优化配置。

  • 灵活重计算配置:结合DryRun的显存使用分析,通过计算选重、通信选重、指定选重等多种配置,在满足单卡显存限制的情况下,找到显存和计算的最优平衡点,以实现性能的最大化。

最终,国产算力万卡集群的性能超过对应GPU的93%以上。此外,为了提升训练的稳定性,TeleAI通过上线训练集群断点续训、CCAE集群监控并快速隔离故障节点、多级存储优化等方法,达成了集群98%的稳定可用性,断点续训成功率超过90%,单次断点续训的时长约为15分钟。

其次的挑战在于训练万亿参数的大模型。在进行超大参数模型训练过程中,TeleAI通过大量小模型的训练,对Scaling Law(尺度定律)展开探索,分析每个模型的噪声空间,并构造正激励噪声来强化训练过程中的噪声管理。正激励噪声作为训练超大参数模型的核心技术,帮助研究人员确定最优模型结构,从而提高模型的整体能力与鲁棒性。

为此,TeleAI采用了“四步走”策略:

  1. 在模型构建方面,利用多项技术进行优化。首先,在位置编码方面,采用Rotary Embedding的编码方法,该方法具备出色的位置外推性,并能够与attention计算加速技术良好配合,从而大幅提升模型的训练速度。

  2. 其次,在激活函数层面,选用SwiGLU激活函数替代GELU激活函数。实验表明,SwiGLU相较于其他激活函数,拥有更好的模型拟合效果。

  3. 在层标准化环节,运用基于RMSNorm的Pre-Normalization。实验发现,该算法在训练进程中具有更佳的稳定性。

  4. 将词嵌入层(embedding)与输出lm head层参数解耦,实验表明,这样能够增强训练的稳定性和收敛性。

  5. 最后,在大参数模型(TeleChat2-115B)上应用GQA,有助于提高模型的训练和推理性能。GQA能大幅降低模型推理过程中的显存使用量,显著提升模型的外推长度和推理性能。

在基础训练数据构建方面,TeleAI在工程实践中借助多级先导模型展开细致的追随训练以及数据调整实验,对数据清洗及数据混合策略的有效性进行了充分评估和验证。

其一,在数据清洗方面,运用语种识别、数据去重、文本格式规范化、无关内容过滤、低质内容过滤等手段来提升预训练数据的质量。同时,建设多模态结构化文档解析工具,有效提取公式和表格内容。实验发现,经过数据清洗后,模型训练损失更低,学习速度更快,能够节约43%的训练时间。

其二,在数据混合方面,采用在线领域采样权重调整算法。在先导模型训练过程中,根据不同数据集的样本损失分布动态更新采样权重,进而获得效果最优的数据混合策略。在模型训练初期,还会根据评测指标变化情况持续调整配比方案。实验表明,增加中文数据比例、增大数学与题库数据比例,有助于提升模型的文本理解和考试能力。

其三,在数据合成方面,针对数学、代码等特定领域任务,梳理细粒度的知识点体系,并构建复杂指令,让大模型生成知识密度高的合成数据,例如试题解析过程、代码功能解释和代码调用关系等。

接下来是SFT(模型微调)专项优化

在低质量过滤方面,运用模型困惑度(PPL)、指令追随难度(IFD)以及可学习度(Learnability)等指标来衡量单条样本的回答难度,进而自动筛选并过滤掉文本格式规范性差、答案标注错误的样本。

对于高质量构建,将SFT划分为逻辑、认知、理解三个能力维度及二十多个子类。通过预先制定的标准评测集,定向筛选出对单项能力指标提升影响最大的高质量数据。

同时,提出基于黄金模板构建问答数据的两阶段标注方案,从规范性、新颖性、逻辑性、丰富性、完整性等维度总结每类问题的最佳模板,再依据模板标注符合要求的最佳答案。

在效果选择上,基于模型困惑度指标,能够快速评估不同版本的模型在小规模验证集上的拟合程度,从而挑选出表现较好的版本,以此降低计算成本。

然后是偏好对齐

为最大程度确保指令数据的全面性与均衡性,TeleAI分类并收集了涵盖总共300个类别的指令数据集。同时,为获取更高质量的指令数据,运用聚类和中心选择算法,从中挑选出具有代表性的指令。

随后,TeleAI将来自不同训练阶段、不同参数大小的TeleChat系列模型的回复,按照安全性、事实性、流畅性等多个维度,归为高质量、中质量、低质量三个不同标签,形成pair-wise数据用于奖励模型的训练。

DPO算法因工程实现简便、易于训练而被广泛应用,在TeleChat训练阶段也采用了这一策略。在数据构建阶段,TeleAI使用指令数据对当前Chat模型进行10至15次推理采样,并利用奖励模型对每个回复进行打分。

TeleAI采用West-of-N的方式构建pair数据,即将模型回答的最高分作为chosen response,最低分作为rejected response,以此确保pair数据具有较强的偏好差别。

在训练阶段,除了使用常规的DPO损失函数外,TeleAI还通过实验发现,引入对chosen response的NLL Loss(负对数似然损失),能够有效稳定DPO训练的效果,防止chosen response的概率降低。

最后,便是基于知识图谱降低语义大模型的事实类幻觉

具体而言,TeleAI是基于图谱结构化信息表示,将知识引入到问题提示中:根据与查询n-gram相似度检索候选实体,随后以此为基础进行随机游走,并计算游走路径与用户原始问题的相关性,选择top路径内容扩充至用户原始问题。以上便是TeleAI“炼”万卡万参的关键过程。

不过现在还有一个问题值得探讨:

为什么中国电信人工智能研究院能够做到这一点?

其实TeleAI在大模型上的布局并非一蹴而就,而是经过了长时间的打磨。

首先,在态度上给予了高度重视。

除了星辰AI大模型之外,在去年11月举行的数字科技生态大会上,TeleAI还发布了12个行业大模型,并推出了“星辰MaaS生态服务平台”,以实现定制化服务。

这一切,都是基于中国电信历经十年的AI能力建设。

其次,有人才的支撑才会有行业大牛的助力。

为了搭建星辰AI大模型,中国电信迅速组建了一支近800人的研发团队。团队成员来自国内外顶尖高校,诸如清华、北大、斯坦福和哥伦比亚等,平均年龄为31.79岁。

这批优秀人才帮助中国电信在对内对外业务中取代外部算法能力,实现核心算法能力的自主可控。

在广泛吸纳基础人才的同时,中国电信也拥有一批行业大牛。其中,去年年底全职加盟中国电信集团担任CTO和首席科学家的李学龙便是其中之一。

作为AI领域的Fellow大满贯选手,李学龙创新性地提出噪声分析是解决大模型等一系列人工智能问题的核心关键,他将这一思想引入到万卡万参项目中,也将带领中国电信人工智能研究院继续开展基础和前沿研究。

在TeleAI成立之际,便围绕“人”、“工”两大要素进行重点打造。

据了解,TeleAI现已引入多位海外TOP高校的教授、国内知名企业的CTO或科学家、科研机构的青年人才以及拥有高影响力开源成果的天才学生。

此外,不仅限于AI和大模型,中国电信在多个技术领域进行了投入,并取得了同行业中的优势,这也正是“工”为基所体现的方面。

例如在量子通信领域,中国电信不久前发布了具备“量子优越性”能力的“天衍”量子计算云平台,此前还开通了国内规模最大、用户最多、应用最全的量子保密通信城域网,并主导制定了中央企业首个牵头立项的7项量子通信行业标准(含团标)中的5项。

再例如在新一代信息通信技术上,中国电信实现了“手机直连卫星”的全面商用,并发布了全球首个支持消费级5G终端直连卫星双向语音和短信的运营级产品。

由此可见,中国电信早已不是大家眼中的传统运营商,在前沿技术上的投入,远比我们认知的要深得多。

这也就不难理解,为什么TeleAI能够率先实现万卡万参。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/436865.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS中字体图标的使用

引言: 在网页设计当中,会有很多很简洁的图标,比如箭头,照相机,放大镜等 这些大概率都是使用字体图标来完成的,因为字体图标比较简洁高效,不会像图片一样需要向浏览器请求数据。那么字体图标该…

使用powershell的脚本报错:因为在此系统中禁止执行脚本

1.添加powershell功能环境: 2.启动powershell的执行策略 因为在此系统中禁止执行脚本。 set-executionpolicy unrestricted

Redis: 主从复制读写分离环境搭建

概述 Redis 的单机模式实际上就是在一个服务器上装了一个单节点的Redis通过简单的配置和简单的命令启动起来就可以使用这种搭建环境,不保证高可用的情况下,完全没有问题如果说你的项目必须要具备高可用,而且 Redis 也要提供更高的性能这个单…

【hot100-java】【寻找重复数】

技巧 使用字典,边记录边比较,有直接输出。 def findDuplicate(nums):seen {}for num in nums:if num in seen:return numseen[num] Truereturn None 可惜不是O(1) 二分查找 class Solution {public int findDuplicate(int[] nums) {int left0;int ri…

宝塔搭建nextcould 30docker搭建onlyoffic8.0

宝塔搭建nextcould 宝塔搭建nextcould可以参考这两个博文 我搭建的是30版本的nextcould,服务组件用的是下面这些,步骤是一样的,只是版本不一样而已 nginx 1.24.0 建议选择nginx,apache没成功。 MySQL 8.0以上都可以 php 8.2.…

Certbot自动申请并续期https证书

Certbot自动申请并续期https证书 一、 安装 Certbot:使用命令安装 Certbot: dnf install certbot python3-certbot-nginx获取 SSL 证书:运行 Certbot 命令来获取并安装 SSL 证书。 示例命令,替换其中的域名和路径信息&#xff1a…

jmeter-请求参数加密-MD5加密

方法1 :使用jmeter自带的函数助手digest Tool(工具)---Function Helper Dialog(函数助手对话框) 第一个参数是要md5加密的值,第二个参数是保存加密后值的变量 ( 此处变量是从txt文件导入的,所以使用的是${wd} ) …

Linux网络操作命令与函数全面总结

1. 引言 Linux作为服务器和开发平台,网络操作是其核心功能之一。本文旨在全面总结Linux系统中的网络操作方法,包括命令行工具和编程接口,帮助读者深入理解Linux网络管理的机制。 2. 命令行工具 2.1 ping 命令 ping 命令用于测试网络连接和…

基于投影滤波算法的rick合成地震波滤波matlab仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 RICK合成地震波模型 4.2 投影滤波算法原理 5.完整工程文件 1.课题概述 基于投影滤波算法的rick合成地震波滤波matlab仿真。分别通过标准的滤波投影滤波以及卷积滤波投影滤波对合成地震剖面进行滤波…

基于Hive和Hadoop的共享单车分析系统

本项目是一个基于大数据技术的共享单车分析系统,旨在为用户提供全面的单车使用信息和深入的出行行为分析。系统采用 Hadoop 平台进行大规模数据存储和处理,利用 MapReduce 进行数据分析和处理,通过 Sqoop 实现数据的导入导出,以 S…

论文阅读 | HiDDeN网络架构

ECCV 2018 斯坦福-李飞飞团队 一、问题描述 受以下启发: 对抗性例子的发现:深度学习模型在图像识别任务中对微小的、难以察觉的输入扰动非常敏感,这些扰动可以导致模型错误分类图像。这一现象表明,神经网络可以在图像中编码信息&…

Python或R时偏移算法实现

🎯要点 计算单变量或多变量时序距离,使用欧几里得、曼哈顿等函数量化不同时序差异。量化生成时序之间接近度相似性矩阵。使用高尔距离和堪培拉距离等相似度测量。实现最小方差匹配算法,绘制步进模式的图形表示。其他语言包算法实现。 &…

IP协议讲解

IP协议 IP协议的本质:提供一种能力,将数据跨网络从A主机传输到B主机 4位版本号(version): 指定IP协议的版本, 对于IPv4来说, 就是4. 4位头部长度(header length): IP头部的长度是多少个32bit, 也就是 length * 4 的字节数. 4bit表示最大 的数字是15, 因…

【数据结构初阶】排序算法(下)冒泡排序与归并排序

文章目录 4. 交换排序4. 1 冒泡排序 5. 归并排序6. 非比较排序6. 1 计数排序 5. 排序性能分析6. 排序算法复杂度及稳定度分析 4. 交换排序 交换排序基本思想: 所谓交换**,就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置**。 交换排序的特点是…

归并排序【C语言版-笔记】

目录 一、概念二、排序流程理解三、代码实现3.1主调函数3.2 merge函数 四、性能分析 一、概念 归并是一种算法思想,是将两个或两个一上的有序表合并成一个长度较大的有序表。若一开始无序表中有n个元素,可以把n个元素看作n个有序表,把它们两…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27目录1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning VisScience:…

java中的强软弱虚

在java中对象的引用有强、软、弱、虚四种,这些引用级别的区别主要体现在对象的生命周期、回收时机的不同。 文章目录 准备工作1. 设置内存2. 内存检测 强引用软引用弱引用虚引用 准备工作 1. 设置内存 为方便调试,将内存设置为16MB 依次点击菜单栏的R…

初识算法 · 双指针(1)

目录 前言: 双指针算法 题目一: ​编辑 题目二: 前言: 本文作为算法部分的第一篇文章,自然是少不了简单叭叭两句,对于算法部分,多刷是少不了,我们刷题从暴力过度到算法解法,自…

【Linux】进程概念-2

文章目录 1.环境变量1.1 基本概念1.2 常见环境变量1.3 查看环境变量方法1.4 测试PATH1.5 测试HOME1.6 和环境变量相关的命令1.7 环境变量的组织方式1.8 通过代码如何获取环境变量1.9 通过系统调用获取或设置环境变量1.10 环境变量通常是具有全局属性的1.11 实验 2. 程序地址空间…

安全中心 (SOC) 与 网络运营中心 (NOC)

NOC 和 SOC 之间的区别 网络运营中心 (NOC) 负责维护公司计算机系统的技术基础设施,而安全运营中心 (SOC) 则负责保护组织免受网络威胁。 NOC 专注于防止自然灾害、停电和互联网中断等自然原因造成的网络干扰,而 SOC 则从事监控、管理和保护。 NOC 提…