MLPerf最新发榜!这家AI芯片公司再获世界第一,大模型性能狂超A100

「Python数据之道」分享

来源:机器之心

此次是墨芯连续第二次问鼎 MLPerf,也是又一次 “12nm 战胜 4nm”。

ChatGPT 引爆大模型浪潮,也带来了算力挑战:当大模型进入大规模部署阶段,海量算力需求、推理加速等痛点,如何解决?

早在 2021 年,Google Research 和 OpenAI 的合作论文给出答案:《Sparse is Enough in Scaling Transformers》,证明稀疏计算能够为大模型带来数十倍加速。

4 月 6 日,全球权威 AI 基准评测 MLPerf Inference v3.0 公布的结果,再次佐证了:稀疏计算是大模型时代最不容忽视的算力 “潜力股”。

abd8037be6d57b11c716255acefda89a.png

来自中国的 AI 芯片企业 —— 墨芯人工智能,凭借软硬协同的稀疏计算技术,在 MLPerf 竞争最激烈的 ResNet50 模型上蝉联冠军,斩获开放任务分区 “双料冠军”:S40 计算卡以 127,375 FPS,获得单卡算力全球第一;S30 计算卡以 383,520 FPS 算力,获整机 4 卡算力全球第一。

此次是墨芯连续第二次问鼎 MLPerf,也是又一次 “12nm 战胜 4nm”:墨芯 AI 计算卡系列是基于首颗稀疏计算芯片12nm的AntoumⓇ,性能超越了4nm制程产品,展现出稀疏计算的强大优势。

3de5e5f770e99f920d93c19d63a04ac4.jpeg

作为业界公认最为权威、标准严格的AI基准测试,本届MLPerf参与热度再创新高,共收到来自英伟达、高通、英特尔等25家企业提交的6700多份测试结果,其中最显著的变化当属旨在鼓励创新的开放分区,提交结果数达上一届的三倍之多。种种迹象表明,ChatGPT引爆的大模型趋势将算力产业推向变革关口,众多厂商都在积极探索新的算力增长之道,通过软硬协同、稀疏计算等新方式,以满足大模型迫切的巨量算力需求。

刷新纪录,稀疏计算引领算力突破

继去年 MLPerf 2.1 夺魁以后,本次墨芯在 MLPerf 上再次刷新算力纪录,连获 Resnet-50 单卡、多卡的性能第一,并在 Bert 语言模型上实现性能提升。在MLPerf相同模型、数据集、精度条件下,墨芯计算卡产品性能超过英伟达 H100 和 A100。

刷新算力纪录:墨芯 S40 计算卡首次亮相 MLPerf,在数据中心的图像任务主流模型 ResNet-50 上夺得冠军,算力达 127,375 FPS。S40 计算卡性能达英伟达 H100、A100 的 1.4 倍和 2.9 倍。

3a73b27b73553149c1c4e699b1ebc75b.png

二度问鼎,优势持续扩大:这是墨芯第二次在 ResNet-50 模型上夺冠。墨芯 S40 计算卡比上届冠军 S30 计算卡的算力增幅达 33%,体现出持续的产品性能提升能力。与上一次 MLPerf 相比,墨芯产品相较 H100 和 A100 的算力优势分别扩大了 20% 和 90%。

54d1e9ee374fa5a32d42a5cd747a05f9.png

单机 4 卡第一,算力超 8 张 A100:墨芯 30 计算卡获得 ResNet-50 模型 “整机 4 卡” 冠军,算力 383,520 FPS,达英伟达 H100 的 4 卡成绩的 1.8 倍,并且超过英伟达 A100 的 8 卡成绩。

1dd3c9a0f29b4ec0d2105f94ceecebc8.png

在NLP模型BERT上,墨芯S40计算卡算力5,069 SPS达到英伟达提交的A100算力的2.7倍。

ec44024754b9db9664e8a412f06a82db.png

适配多服务器,发挥稳定:本次MLPerf中墨芯计算卡在多家厂商的服务器上的运行性能均表现出色、稳定,体现出产品的高成熟度与高兼容性,凸显出稀疏计算生态的广阔前景。

大幅加速推理,赋能 AIGC 等在线应用

随着 ChatGPT 等 AIGC 类应用的推广,加速推理速度、满足用户在线实时交互的需求,已成为大模型落地的一大痛点。在本次 MLPerf 中,墨芯 S30 与 S10 计算卡在离线(Offline)与在线(Server)两种模式下均表现优异,S30在ResNet-50和BERT的在线模式下算力分别达83,998(FPS)和3,009(SPS),展现出稀疏计算同时兼顾高吞吐、低延时的独特优势。

61205001f568f04117d5414adb1ff507.png

在推理加速方面,稀疏计算还具有更大的发挥空间。此前,墨芯人工智能创始人兼CEO王维在出席活动时透露:在墨芯内测中,在与GPT-3参数相当的开源LLM——1760亿参数的BLOOM上,4张墨芯S30计算卡在仅采用中低倍稀疏率的情况下,就能实现25 tokens/s的内容生成速度,超过8张A100。

b4428f0085a6f44b8a18402e6f551042.gif

实测:在 1760 亿参数的 BLOOM 上,4 张墨芯 S30 计算卡的内容生成速度达到 25 tokens/s,超过 8 张 A100

蝉联冠军的背后,是行业深度洞察与强大技术加持

本次 MLPerf 的参与热度再创新高,在高手云集的激烈竞争中,墨芯连续两届蝉联 MLPerf 冠军,表明了产品的优秀稳定性能与持续领先的地位。不仅如此,此次距离上次 MLPerf 仅过去半年有余,墨芯就推出了新的 AI 计算卡产品,并且性能有大幅提升,凸显出强大的团队实力、工程化能力等综合实力。

产品的持续领先和稳步发展,是建立在对行业的深刻洞察与远见之上的。在 ChatGPT 火爆之前,墨芯团队已经观察到大模型的必然趋势,并笃定:稀疏计算是大模型时代的最佳算力方案。

“Transformers引发的大模型浪潮,代表着整个AI的划时代巨变:在那之前是小模型时代,也就是AI 1.0,以解析式AI为主;到了AI 2.0大模型时代,大模型推动了生成式AI应用场景的爆发。”王维表示,从AI 1.0到AI 2.0,对算力的需求产生质变:“小模型时代,用场景数据训练小模型,研发和部署周期短,对算力的需求主要是通用性、易用性。到了大模型时代,大模型主要基于Transformer模型架构,算子层面逐渐固化,更追求计算速度和算力成本等。”

王维指出,大模型时代的算力痛点主要集中在两点:首先是大算力,大模型参数呈指数级增长,算力需求爆发,产生巨大的算力缺口;另一方面是加快推理速度,由于生成式 AI 基本都是在线应用,系统对于用户的需求要在毫秒内快速响应。

“微创新是大公司做的事情。大模型参数已经突破万亿、并且持续增大,微创新无法根本解决问题。创业公司要做就做有数量级突破的颠覆式创新。墨芯成立之初,我们就看到了:稀疏计算能够带来数量级的性能增长。因此我们一直笃定,做一家稀疏计算公司。” 王维表示。此次墨芯在 MLPerf 的连续夺冠,正是用实际证明了稀疏计算的巨大应用价值,以 “12nm 战胜 4nm” 的成绩打开新的算力增长空间。

墨芯的判断,与业界、学界对稀疏计算的看好是相一致的:Transformers 带来大模型浪潮后,稀疏计算相关研究活跃度显著提升。学界与业界都积极将稀疏计算作为大模型算力破解的重要方向,例如谷歌对 AI 的终极愿景 ——Pathways 架构采用稀疏计算原理:执行任务时仅稀疏激活模型的特定部分,计算真正有用的元素,这正是稀疏计算的本质。

8ac66c7fb30bb0eac241e1733b40b0bc.png

谷歌在《Introducing Pathways: A next-generation AI architecture》写道:“今天的模型是稠密和低效的,Pathways 将使它们变得稀疏和高效。” 英伟达也在其 Ampere 架构中首次支持 2 倍稀疏计算。墨芯则将稀疏计算从算法上升到软硬协同层面,2022 年发布首颗高稀疏倍率芯片 AntoumⓇ,能够支持 32 倍稀疏,大幅降低大模型所需的计算量。

4b287e93ba8eca0aaa28e4be7b530061.png

MLPerf 参与情况也侧面印证了业界共识:算力提升不能再纯靠硬件,必须通过软硬协同的方式。本届 MLPerf 中开放分区的提交结果再创新高,高通、英特尔等头部企业也提交多项结果,开放分区的算力方案呈现丰富的多样性。

不仅在 MLPerf 上表现出色,墨芯的产品商业落地上也进展迅速。据王维透露,墨芯 AI 计算卡发布数月就已实现量产,在互联网等领域成单落地。ChatGPT 走红后墨芯也收到大量客户问询,了解稀疏计算在大模型上的算力优势与巨大潜力。

ChatGPT 被比尔・盖茨评价为 “其意义不亚于互联网和 PC 的诞生”,被黄仁勋称为 AI 的 “iPhone 时刻”。每一项应用普及的前提,都是由基础设施提供坚实支撑。在大模型时代,稀疏计算无疑是最有前景的最佳算力方案,引领 AI 2.0 时代的算力进化,加速生成式 AI 等应用百花齐放的未来。

© THE END 

-------- End --------

推荐👇同名微信视频号

4cba1f01fd78e4ec0c2a583d8f80ecda.png

b2568b16802a675f9e3aef31dce6e2e7.jpeg

图解Pandas

图文00-内容框架介绍 | 图文01-数据结构介绍 | 图文02-创建数据对象 | 图文03-操作Excel文件 | 图文04-常见的数据访问 | 图文05-常见的数据运算 |  图文06-常见的数学计算 | 图文07-常见的数据统计 | 图文08-常见的数据筛选 |  图文09-常见的缺失值处理 | 图文10-数据合并操作 | 图文11-Groupby分组操作

a4499bd78d9a15b4a1ebb5a901831f33.jpeg 9f576323c49e45dc5a6299b79d92d585.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/56150.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

80%的代码AI帮你写?还没这么夸张,不过也快了

兔年春节一过,APIcat进入到云服务版本的开发阶段,过年前发生了一件大事,Chatgpt横空出世,不少人预测Chatgpt会替代的10大行业,其中就有程序员。 这时,一位特斯拉的老哥出来说,GitHub Copilot帮…

Android中英文单词录入背诵软件

PC端演示: Android端演示(GIF太大,就图片吧): 源代码下载地址:http://suo.im/6f6zLa,解压密码:lrbs7 我在上传资源时,没有为任何一个设置下载需要C币或是积分,但是平…

⚡写一个有发音的背单词软件⚡——四六级必过系列

四六级必过 ⚡导读演示爬虫阶段GUI阶段朗读单词阶段封装阶段⚡肥学有话说⚡导读 你还在为小小英语而发愁吗?,你还在为备考四六级没有动力而难过吗?那么今天教你写一个背单词软件你不会不想学吧。兄弟们新学期都开始了大家和我一起肥学一起吧!! 演示 用python教大家怎么写…

一款c#实现的实用好玩儿的背单词程序

1.程序功能: 软件logo: 1.可实现背四级单词、六级单词、考研单词、托福单词、雅思单词、中考单词、高考单词、新概念单词的功能。 2.四级单词、六级单词、考研单词、托福单词、雅思单词、中考单词、高考单词、新概念单词以一定的格式存储在记事儿本里通…

程序员快速记忆英文单词的专属诀窍

本文来自作者 曹某某 在 GitChat 上分享 「程序员快速记忆英文单词的专属诀窍」,「阅读原文」查看交流实录。 「文末高能」 编辑 | 哈比 首先感谢选择我这个专题的所有的读者。这是我第一次在 GitChat 做分享。我希望我的分享能够带来一些有趣和有用的东西&#xff…

大模型扎堆涌现,AIGC 的价值到底是什么?

ChatGPT 在 2023 年初爆红之后,AIGC 引发了各行业的热切关注,国内的各类大模型不断推出。近日,科大讯飞对外发布了“讯飞星火认知大模型”,现场不仅实测了文本生成、语言理解、知识问答、数学、逻辑推理等能力表现,科大…

win10的cmd中显示:telnet不是内部或外部命令也不是可运行的程序或批处理?

先说说什么是telnet命令? telnet命令用于登录远程主机,对远程主机进行管理。 举个栗子:在cmd中运行telnet localhost 8431 也就等同于在浏览器中输入localhost:8431 如果在cmd中使用telnet指令发现报错:telnet不是内部或外部命…

在VSCode下利用PlateFormIO开发Arduino的MicroROS遇到的一些问题

文章目录 简介1.左下角没有platformio的相关按钮2.vscode没有串行监视器(Serial Monitor)3.关于trajectory_msgs/msg/joint_trajectory.hpp的相关问题4.关于control_msgs::action::FollowJointTrajectory的相关问题4.1.方法一4.2.方法二 5.关于moveit_ms…

进程管理(笔记)

如果对内存寻址熟悉的话, 或者认真看过上一节的内容: 内存管理之内存寻址: https://blog.csdn.net/qq_40482358/article/details/130868188. 那么对linux系统中的进程管理应该已经有一个初步的认识了: cr3作为一个控制寄存器, 描述当前进程的页目录的物理内存基地址, 当进程切换…

chatgpt赋能python:Python数据读写——技术大杂烩

Python数据读写——技术大杂烩 介绍 Python作为一种高级的编程语言,被广泛应用于数据科学领域。Python提供了多种实用工具来读取和写入数据,包括CSV文件、Excel文件、JSON文件、SQL数据库等。本文将介绍Python常用的数据读写技术和应用,并探…

chatgpt赋能Python-libreoffice_python扩展

LibreOffice Python扩展: 提升办公效率的利器 如果你一直在寻找一种提高办公效率的方法,那么你肯定会喜欢LibreOffice Python扩展。作为LibreOffice的一个特性,它可以让你使用Python编写宏程序自动化你的日常办公任务。 什么是LibreOffice Python扩展&…

【Linux操作系统】【综合实验二 vi应用与shell脚本编辑】【浅试编辑命令】

文章目录 一、实验目的二、实验要求三、实验内容⭐(1)继续练习Linux系统的文件类、目录类、进程管理类与磁盘操作类常用命令,并使用常见的选择项;⭐(2)了解ed、ex行编辑器与Emacs全屏幕编辑器的工作模式、基…

chatgpt赋能python:使用Python获取句柄和发送消息

使用Python获取句柄和发送消息 什么是句柄? 在计算机中,句柄是指一个唯一的标识符,用于引用正在执行的进程或程序。在Python中,我们可以使用win32api模块获取Windows操作系统中的句柄。使用句柄,我们可以与Windows中…

chatmol:将chatgpt应用于pymol

文章目录 前言一、源文件二、安装二、应用示例总览示例1(方法查询)示例2(直接运行上述方法)示例三(结合口袋展示) 前言 Chatmol将chatgpt内置到了pymol当中,采用对话的方式调用pymol进行绘图。 一、源文件 https://github.com/JinyuanSun/ChatMol/blob/main/chatm…

开源问卷项目分享-TDUCK填鸭表单

前言 自TDUCK填鸭表单开源以来,收到许许多多微信社群朋友的反馈,其中关心最多的莫非就是部署的相关问题,对于初学者或者行业小白来说,非常希望能够简化部署方式。为了满足伙伴们的需求,现在我们推出简化部署教程&…

chatgpt赋能python:Python的排列组合生成工具——实现高效SEO

Python的排列组合生成工具——实现高效SEO 排列组合是算法中非常常见的模块,也是搜索引擎优化(SEO)中常用的工具。举例来说,如果某个电商平台需要为某个页面展示的商品进行排列组合,那么Python就是一个非常有效的选择…

chatgpt赋能python:Python就近捕捉原理及其在开发中的应用

Python 就近捕捉原理及其在开发中的应用 Python 作为一门高级编程语言,拥有着丰富的库和工具,广泛应用于数据分析、机器学习、自然语言处理等领域。同时,Python 作为一种主流的 Web 编程语言,也有着众多优秀的 Web 框架和库。在 …

ChatGPT刷力扣面试题 01.05.一次编辑

题目描述 字符串有三种编辑操作:插入一个英文字符、删除一个英文字符或者替换一个英文字符。 给定两个字符串,编写一个函数判定它们是否只需要一次(或者零次)编辑。示例 1:输入: first "pale" second "ple" 输出: True示例 2:输入: first …

【直播回放】ChatGPT刷力扣面试题 02.03. 删除中间节点

直播截图 题目描述 若链表中的某个节点,既不是链表头节点,也不是链表尾节点,则称其为该链表的「中间节点」。假定已知链表的某一个中间节点,请实现一种算法,将该节点从链表中删除。例如,传入节点 c&#x…

用完即走!设计师必备的浏览器工具!

设计师们都知道,谁都不想在设计过程中被一堆繁琐的操作搞得焦头烂额。 浏览器中一些有趣但实用的工具,如颜色拾取器、像素标尺和抠图、在线生成工具等,让我们的设计变得更加简单有趣。 但网站每次都要去收藏夹里找出来用,有时候…