智源大模型通用算子库FlagGems四大能力升级 持续赋能AI系统开源生态

FlagGems是由智源研究院于2024年6月推出的面向多种AI芯片的开源大模型通用算子库。FlagGems使用Triton语言开发,在Triton生态开源开放的基础上,为多种AI芯片提供开源、统一、高效的算子层生态接入方案。FlagGems沿着统一的中间语言、统一的算子接口和统一的开源算子库方向进行了深入探索与实践。经过半年的研发迭代,FlagGems 取得了诸多新进展。

四大能力升级

  • 提供大模型算子总数超过120个,是目前提供算子数量最多、覆盖广度最大的Triton算子库。

  • 提供多后端支持,目前已有7家厂商的不同 AI 芯片接入 FlagGems,为大模型提供更多算力选择。

  • 实现代码生成技术、运行时优化技术,在开发效率和运行性能等重要指标上都优于同类开源项目。

  • 持续优化多种 AI 芯片性能,加速比显著提升,多数超越原生算子。算子在 Nvidia GPU上整体性能优越,实现平均性能90%以上超越Pytorch CUDA版本。

  • 详细数据如下所示:

    • 平台:A100

    • 实验时间:11月27日

    • 代码版本:commit 41ab8017b4ed93db54358e3cb563eadf1a98f43d

    • 采集方法:benchmark数据按算子取加速比均值,全局排序

    • 数据意义:加速比为1表示FlagGems与Pytorch aten CUDA性能相当,超过1表示FlagGems性能更优,低于1表示FlagGems性能劣势;黄色条左侧的加速比均大于1,黄色条至红色条之间的加速比约等于1,红色条右侧的加速比小于1。

赋能大模型训练

FlagGems已与智源大模型并行训练及推理框架FlagScale(https://github.com/FlagOpen/FlagScale.git)进行集成使用,该框架能实现不同代际、不同架构芯片之间的异构混合训练,已支持智源内外10多个模型的端到端训练与推理,涵盖稠密与稀疏模型,涉及语言与多模态领域,参数规模到千亿量级,并实现多款芯片的适配。

首次实现FlagGems+FlagScale端到端训练的模型如下:

  • 语言模型 Aquila-135M

    • 模型概述

      • Aquila-135M是尺寸最小的中英双语语言大模型。

      • 基于1.66TB的预训练数据和优选的100B Token的退火数据,采用预训练和退火二阶段训练得到。

      • 整个训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现。

    • 模型效果

      • 英文指标接近同类型小模型SOTA水平(SmolLM2-135M),中文评测显著胜出。

      • 采用Triton算子的模型效果与CUDA算子基本一致,证明了Triton算子的正确性。

  • 多模态模型 Aquila-VL-2B

    • 模型概述

      • Aquila-VL-2B基于LLaVA-OneVision框架构建,采用Qwen-2.5-1.5B作为语言塔,Siglip400m作为视觉塔,并使用了智源开源的千万级多模态指令数据集Infinity-MM进行多阶段训练。这一创新设计和高质量数据的结合,使得Aquila-VL-2B在同规模模型中取得了领先的性能。

      • 训练过程基于智源Triton算子库FlagGems以及并行训练框架FlagScale实现,分别在 Nvidia GPU 和 某款非英伟达的全功能GPU训练,证明了 FlagGems 支持多元化AI芯片能力。

    • 模型效果

      • 其中 Aquila-VL-2B-Triton 在某款全功能 GPU 千卡规模高效训练,效果与Nvidia A800基本一致。

构建开发者生态

智源致力于构建FlagGems开发者生态,支持多元化AI芯片的合作体系,通过深化核心合作、强化社区建设、提供技术与框架支持、丰富生态建设活动等多维度策略,全面促进AI技术的创新与发展。目前,智源与蚂蚁、腾讯、商汤、火山等大模型应用厂商,以及浪潮、新华三、联想等系统厂商建立合作伙伴关系,并携手百度飞桨、中科加禾、硅基流动等厂商,共同为开发者提供算子及框架支持,此外,智源还联合上海实验室、信通院、电子四院等机构,积极推动制定相关标准,为生态健康发展提供技术的规范性和统一性。这些合作伙伴不仅为生态提供了丰富的资源和技术支持,也为生态的多样性和活力注入了新的血液。

在社区平台建设方面,FlagGems与CSDN深度合作,建立了Triton中文社区门户,汇聚了超过110名社区算子贡献者,通过Github Project看板协作完成项目贡献,并已对外发放25+个开发任务,激励社区开发者的参与和贡献。得到上海人工智能实验室、CSDN、中国互联网协会人工智能工作委员会的共同支持,首次活动线下满员,线上参与5000+人次。智源大会期间举办了Triton算子开发培训,并举办Triton生态活动专场,Triton中国生态Meetup系列活动,展现了生态的广泛影响力。

教育是生态建设的未来。智源积极参与北京市属高校人工智能通识课程案例征集,打造《AI高性能计算软件编程》课程,为高校学生提供了宝贵的学习资源。这不仅为学生提供了实践机会,也为生态培养了未来的人才。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/492617.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FFmpeg库之ffplay

文章目录 FFmpeg环境搭建ffplay使用通用选项视频选项音频选项快捷键使用滤镜直播拉流 FFmpeg环境搭建 FFmpeg官网 FFmpeg环境搭建 ./configure \--prefix"$HOME/ffmpeg" \--extra-cflags"-I$HOME/ffmpeg/include" \--extra-ldflags"-L$HOME/ffmpeg…

HTTP协议和接口测试详解

介绍接口测试前我们先来介绍一下HTTP协议,为什么先要介绍HTTP协议呢因为因为我们做接口测试其实就是用测试工具(postman,fiddler,jmeter等等)或代码来模拟用户使用软件的场景,在我们模拟的时候不像平时功能测试时我们有已经开发完…

CVE-2024-32709 WordPress —— Recall 插件存在 SQL 注入漏洞

漏洞描述 WordPress 是一款免费开源的内容管理系统,适用于各类网站,包括个人博客、电子商务系统、企业网站。其插件 WP-Recall 的 account 存在 SQL 注入漏洞,攻击者可以通过该漏洞获取数据库敏感信息。 WP-Recall 版本 <= 16.26.5 漏洞复现 搭建环境、安装插件、完成…

深度学习之目标检测篇——残差网络与FPN结合

特征金字塔多尺度融合特征金字塔的网络原理 这里是基于resnet网络与Fpn做的结合&#xff0c;主要把resnet中的特征层利用FPN的思想一起结合&#xff0c;实现resnet_fpn。增强目标检测backone的有效性。代码实现如下&#xff1a; import torch from torch import Tensor from c…

Qt之修改窗口标题、图标以及自定义标题栏(九)

Qt开发 系列文章 - titles-icons-titlebars&#xff08;九&#xff09; 目录 前言 一、修改标题 二、添加图标 三、更换标题栏 1.效果演示 2.创建标题栏类 3.定义相关函数 4.使用标题栏类 总结 前言 在我们利用Qt设计软件时&#xff0c;经常需要修改窗口标题、更改软…

睡岗和玩手机数据集,4653张原始图,支持YOLO,VOC XML,COCO JSON格式的标注

睡岗和玩手机数据集&#xff0c;4653张原始图&#xff0c;支持YOLO&#xff0c;VOC XML&#xff0c;COCO JSON格式的标注 数据集分割 训练组70&#xff05; 3257图片 有效集20&#xff05; 931图片 测试集10&#xff05; 465图片 预处理 没有采用任何预处…

GIN

gin是什么 Gin 是一个用 Go (Golang) 编写的 HTTP Web 框架。 它具有类似 Martini 的 API&#xff0c;但性能比 Martini 快 40 倍。如果你需要极好的性能&#xff0c;使用 Gin 吧。 特点&#xff1a;gin是golang的net/http库封装的web框架&#xff0c;api友好&#xff0c;注…

Git安装及基础学习

Git学习 Git安装 概述&#xff1a; Git是一个开源的分布式版本控制系统&#xff0c;可以有效、高速的处理 从很小到非常大的项目版本管理&#xff0c;是目前使用范围最广的版本 管理工具。 下载安装&#xff1a; 下载地址&#xff1a;https://git-scm.com/ 下载后傻瓜式一键安…

【Rust自学】4.2. 所有权规则、内存与分配

4.2.0 写在正文之前 在学习了Rust的通用编程概念后&#xff0c;就来到了整个Rust的重中之重——所有权&#xff0c;它跟其他语言都不太一样&#xff0c;很多初学者觉得学起来很难。这个章节就旨在让初学者能够完全掌握这个特性。 本章有三小节&#xff1a; 所有权&#xff1…

git stash 的文件如何找回

在Git中&#xff0c;如果你使用了git stash命令来保存你的工作进度&#xff0c;但之后想要找回这些被stash的文件&#xff0c;你可以按照以下步骤进行操作&#xff1a; 1. 查看stash列表 首先&#xff0c;使用git stash list命令来查看当前保存的所有stash记录。这个命令会列出…

如何构建一个可信的联邦RAG系统。

今天给大家分享一篇论文。 题目是&#xff1a;C-RAG&#xff1a;如何构建一个可信的联邦检索RAG系统。 论文链接:https://arxiv.org/abs/2412.13163 论文概述 尽管大型语言模型 (LLM) 在各种应用中展现出令人印象深刻的能力&#xff0c;但它们仍然存在可信度问题&#xff…

2025年入职/转行网络安全,该如何规划?网络安全职业规划

网络安全是一个日益增长的行业&#xff0c;对于打算进入或转行进入该领域的人来说&#xff0c;制定一个清晰且系统的职业规划非常重要。2025年&#xff0c;网络安全领域将继续发展并面临新的挑战&#xff0c;包括不断变化的技术、法规要求以及日益复杂的威胁环境。以下是一个关…

Ansible playbook 详解与实战操作

一、概述 playbook 与 ad-hoc 相比,是一种完全不同的运用 ansible 的方式&#xff0c;类似与 saltstack 的 state 状态文件。ad-hoc 无法持久使用&#xff0c;playbook 可以持久使用。 playbook 是由一个或多个 play 组成的列表&#xff0c;play 的主要功能在于将事先归并为一…

ai绘图丨中国新年春节背景第二弹(附关键词

使用工具&#xff1a;千鹿AI 咒语&#xff1a;圆形平面讲台&#xff0c;5 个礼品盒和台灯交错排列&#xff0c;红色背景上的圆形&#xff0c;中国唐朝风格&#xff0c;红色和金色主题&#xff0c;3D 效果图&#xff0c;摄影棚灯光&#xff0c;简约产品展示模型&#xff0c;逼真…

Envoy 进阶指南(下):深入探究Envoy服务和架构

接上篇&#xff1a;《Envoy 进阶指南&#xff08;上&#xff09;&#xff1a;从入门到核心功能全掌握》 链接 文章目录 3.深入探究Envoy3.1 Envoy服务发现机制3.1.1文件订阅3.1.2 gRPC 流式订阅3.1.3 REST-JSON 轮询订阅 3.2监听器&#xff08;Listener&#xff09;3.3.架构3.3…

关于ftp.ncbi.nlm.nih.gov数据下载路由调整的记录

经查防火墙看到ftp.ncbi.nlm.nih.gov的流量比较大&#xff0c;对专线带宽使用造成比较大的负担。 于是把ftp.ncbi.nlm.nih.gov改从PPOE线出&#xff0c;发现下载速度下降好多。通过流量图进行分析&#xff0c; 可以看出路由走PPOE时&#xff0c;仅HTTPS协议有通迅流量&#xf…

upload-labs靶场保姆级攻略

第一关&#xff1a;删除前端js校验 写一个一句话木马&#xff0c;命名为1.php 一句话木马 浏览上传 我们发现不可以上传&#xff0c;右键检查&#xff0c;依次点击 找到return checkFile()删掉&#xff0c;再上传 去看一下是否已经写入进去一句话木马 页面什么也没有&#xff…

鸿蒙项目云捐助第十五讲云数据库的初步使用

鸿蒙项目云捐助第十五讲云数据库的初步使用 在华为云技术使用中&#xff0c;前面使用了云函数&#xff0c;接下来看一下华为云技术中的另外一个技术云数据库的使用。 一、云数据库的创建 这里使用华为云数据库也需要登录到AppGallery Connect平台中&#xff0c;点击进入到之…

写入hive metastore报问题Permission denied: user=hadoop,inode=“/user/hive”

背景 使用Doris创建hive catalog后&#xff0c;想在hive上的库中创建一个表&#xff0c;报如下图片错误 解决办法 hdfs dfs -ls /看到如下图片所示&#xff0c;只有root用户有写的权限 所以通过export HADOOP_USER_NAMEroot将hadoop的用户名改成root&#xff0c;然后再hdfs…

GPT-Omni 与 Mini-Omni2:创新与性能的结合

近年来&#xff0c;随着人工智能技术的飞速发展&#xff0c;各种模型和平台应运而生&#xff0c;以满足从个人用户到企业级应用的多样化需求。在这一领域&#xff0c;GPT-Omni 和 Mini-Omni2 是两款备受瞩目的技术产品&#xff0c;它们凭借独特的设计和强大的功能&#xff0c;在…