提高AI算力,异构优化也是关键

近期,劲爆亮相的ChatGPT着实让人们眼前一亮,让普罗大众也“亲密”体验了人工智能(AI)的神奇魔力,窥见了智能未来的璀璨前景之一斑。

然而,就在这离生活愈来愈近的AI让人们对未来充满无限憧憬、满怀激动的同时,也有冷静的分析指出,诸如ChatGPT等AI规模应用也是一个“吞金兽”,其带来的不仅仅是让人急呼“AI算力告急”的算力消耗(有研究显示,中国智能算力需求规模,到2026年就将进入每秒十万亿亿次浮点计算(ZFLOPS)级别,达到1,271.4EFLOPS,从2021到2026年,年复合增长率将达52.3%1);更有从云端、边缘到终端广泛AI应用场景,使得IT运营环境日益复杂和多样,让各种AI方案在异构平台获得便捷、易用且有效优化成为急迫的需求。

异构计算,主要指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,在云数据中心、边缘计算场景等有着广泛应用。

异构计算的兴起与工作负载密切相关,在能有效发挥异构计算优势的应用场景中,人工智能场景可谓是典型的代表场景之一,不管是深度学习训练,还是深度学习推理,都会进行大量矩阵运算,需要异构计算提供更有力支撑;而随着AI应用快速走向边缘,由此引致的云边端协同,对异构计算提出了更高要求。计算平台在提升自身算力水平的同时,也需要通过提供优化策略,帮助用户更好地提升AI方案的性能,助力AI应用降本增效。

腾讯云创新打造TACO Kit套件,

为AI应用提供异构加速

为帮助广大用户应对日益复杂的异构环境给AI应用带来的挑战,腾讯云创新推出计算加速套件TACO Kit (TencentCloud Accelerated Computing Optimization Kit) ,通过在异构硬件平台上提供全栈式的软硬件解决方案的模式,为AI方案设计者、AI开发人员以及AI使用者构建全新的异构计算加速软件服务,助其借助多元化异构、高性能加速框架、离线虚拟化技术以及灵活的商业模式,轻松驾驭多元算力,助力AI应用全方位、全场景降本增效。

而作为异构加速服务的入口,TACO Kit内置AI推理加速引擎TACO Infer,能针对AI应用中不同的训练和服务框架、个性的优化实践和使用习惯、各异的软件版本和硬件偏好,以计算加速、无感接入和鲁棒易用的特性和优势,帮助用户一站式解决AI模型在生产环境中部署与应用的痛点。

图一 AI推理加速引擎TACO Infer

TACO Infer引擎具备的功能特性包括:

  无感集成:可跨平台透明适配CPU、GPU、NPU等异构芯片;尊重用户使用习惯,无需改变模型源格式;无需进行IR(Intermediate Representation,中间表示)转换,对无显式算子结构模型友好;

■ 基于原生框架Runtime:可基于多种流行原生框架,包括TensorFlow、PyTorch、ONNXRuntime 等运行;可基于框架原Runtime构建,并可充分利用框架自定义的扩展机制;

■ 无缝对接服务框架:包括TF Serving、Triton以及TorchServe等。

基于以上特性,无论在何种场景中,用户在硬件平台上部署AI应用,都只需要进行简单地前端交互,就能让TACO Kit在后台以最佳模式启动工作负载,并获得更优的推理性能。

而这一优异推理性能的获得,离不开英特尔和腾讯云面向TACO Kit开展的深度协作加持。具体讲,就是将英特尔® Neural Compressor集成到TACO Kit之中,来大幅提升AI推理性能,加速各类AI应用便捷高效落地。

英特尔® Neural Compressor提供

优化支持,助力TACO Kit加速推理

英特尔® Neural Compressor是英特尔开源的神经网络模型压缩库,不仅面向如量化、修剪以及知识提取等主流模型压缩技术,提供了跨多个深度学习框架的统一接口,还具有以下模型性能调优特性:

■ 具备由精度驱动的自动化调整策略,帮助用户快速获得最佳量化模型;

■ 可使用预定义的稀疏性目标生成修剪模型,实现不同的权重修剪算法;

■ 能够从更大的网络(“教师”)中提取知识用于训练更小的网络(“学生”),实现更小的精度损失。

如欲了解更多英特尔® Neural Compressor信息,请扫描下方二维码参阅英特尔官网

英特尔和腾讯云协作,通过插件的方式将英特尔® Neural Compressor集成到TACO Kit,让TACO Kit充分利用英特尔® Neural Compressor的优势特性。如图二所示,利用量化压缩技术来为不同的深度深度框架(如TensorFlow、PyTorch、ONNXRuntime等)提供统一的模型优化 API,便捷实现模型推理优化(由FP32数据类型量化为INT8数据类型)。同时,也可以利用压缩库内置的精度调优策略,根据不同的模型内部结构生成精度更佳的量化模型,帮助用户大幅降低模型量化的技术门槛,并有效提升AI模型的推理效率。

图二 集成英特尔® Neural Compressor后的TACO Kit工作流程

在云端部署时,量化后的模型可通过英特尔® 至强® 可扩展平台内置的英特尔® DL Boost,来获得有效的硬件加速和更高的推理效率。以指令集中的vpdpbusd指令为例,以往需要3条指令(vpmaddubsw、vpmaddwd、vpaddd)完成的64次乘加过程,现在仅需1条指令(vpdpbusd)即可,并能够消除运行过程中的处理器饱和问题,再辅之以乘加过程中的中间数值直接从内存播送,可使得处理性能达初始FP32模型的4倍2。这无疑为TACO Kit加速推理,进而帮助用户在异构环境更高效地构建和部署AI提供了关键助力。

图三 英特尔® DL Boost(AVX-512_VNNI)技术

方案验证显真实性能,

展异构AI加速优势

那么,集成英特尔® Neural Compressor后的TACO Kit的性能究竟有何等惊艳提升呢?实践最有发言权,数据最有说服力。套件打造完成后,英特尔与腾讯云一起选取了多种被广泛应用的自然语言处理深度学习模型,对TACO Kit性能加速进行了验证测试。

测试中,各个深度学习模型在通过TACO Kit进行优化后,使用英特尔® Neural Compressor进行INT8量化及性能调优,推理性能加速结果令人满意。如图四所示3,在保持精度水平基本不变的情况下,各深度学习模型的推理性能均获得显著提升,提升幅度从55%到139%不等,在其中的bert-base-uncased-mrpc场景中,推理性能更是达到了基准值的2.39倍。

图四 集成英特尔® Neural Compressor的TACO Kit所带来的推理性能加速4

对TACO Kit引入英特尔® Neural Compressor获得的大幅性能加速,腾讯云异构计算专家级工程师叶帆直言,这一合作成果能帮助不同角色的用户在异构硬件平台上获得便捷、易用且经过有效优化的 AI 加速能力,助力AI 应用实现全方位、全场景的降本增效。而英特尔® Neural Compressor 是 TACO Kit 中 AI 推理负载获得充分性能加速的有效技术保证。

基于这一成果,英特尔和腾讯云也将面向未来继续深化合作,通过融合硬件厂商优化算子、自研AI编译技术升级等措施,驱动TACO Infer在软硬件兼容性和性能上不断迭代优化。同时,双方还计划进一步将第四代英特尔® 至强® 可扩展平台及其内置的深度学习加速技术与腾讯计算加速套件TACO Kit相融合,借助新平台更为澎湃的算力输出与深度学习加速新技术,为用户提供更加高效可用的异构AI加速能力,进而在推动AI走向更广泛应用的同时,助力应对多模态大模型等对算力提出的更严峻挑战,驱动智能应用向纵深化演进,为经济社会的高质量发展提供强劲数字生产力。

[1]《 2022-2023中国人工智能计算力发展评估报告》,https://www.inspur.com/lcjtww/resource/cms/article/2448319/2734787/2022122601.pdf

[2] 测试配置:

测试平台:Tencent S6 CVM Instance;操作系统:CentOS 7.9.2009 (Core);系统配置:英特尔(R) 至强(R) 铂金8374C处理器@2.7GHz,16 CPUs/2 Threads per core/1 Socket/ 1 Numa Node,32GB RAM;TACO版本:v2.6 (Onnxruntime v1.12.0,oneDNN v2.3.0);工作负载:Onnx model

[3] 测试配置:

测试平台:Tencent S6 CVM Instance;操作系统:CentOS 7.9.2009 (Core);系统配置:英特尔(R) 至强(R) 铂金8374C处理器@2.7GHz,16 CPUs/2 Threads per core/1 Socket/ 1 Numa Node,32GB RAM;TACO版本:v2.6 (Onnxruntime v1.12.0,oneDNN v2.3.0);工作负载:Onnx model

[4] 测试配置:

测试平台:Tencent S6 CVM Instance;操作系统:CentOS 7.9.2009 (Core);系统配置:英特尔(R) 至强(R) 铂金8374C处理器@2.7GHz,16 CPUs/2 Threads per core/1 Socket/ 1 Numa Node,32GB RAM;TACO版本:v2.6 (Onnxruntime v1.12.0,oneDNN v2.3.0);工作负载:Onnx model

英特尔、英特尔标识、以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。

© 英特尔公司版权所有。

* 文中涉及的其它名称及商标属于各自所有者资产

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24034.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

朱啸虎:ChatGPT对创业公司很不友好,未来两三年内请大家放弃融资幻想

来源:i黑马 作者:朱啸虎 创业家&i黑⻢讯 3月19日,“2023黑马产业大会”在北京举行。本次大会主题为“产业新力量”,来自北京怀柔、四川绵阳、江苏南京、重庆、山东青岛、山东威海、广东佛山等7个产业城市和园区的政府代表&a…

ChatGPT —— Pycharm插件NexChatGPT ,好用好用

废话不多说直接教程吧 文件 -> 设置(Settings) -> 插件 应用后,右侧边栏会有使用的边框,部分功能如下: 还可以在框内提问,方便~:

解决:keeps stopping(停止运行)

今天在写Android的时候,本来要写一个关于线程的。正常应该是这样的: 可是,在敲完代码后,运行…… 对于这个问题,网上有很杂,最后不得不去问老师,最后,解决。步骤分享如下&#xff1a…

Linux 解决终端关闭后应用程序停止运行

使用screen命令,使用方法如下: 首先执行screen,按任意键进入界面内 在界面内执行程序,若是想在后台保持程序的运行,先按ctrla然后按d 此时便退回了主界面,此时便可以关闭终端 用screen –ls可以查看目前子界…

chatgpt赋能python:如何让Python停止运行

如何让Python停止运行 Python是一种高级编程语言,常用于开发Web应用、数据分析和机器学习等领域。然而,在编写Python代码时,我们难免会遇到程序无限循环、阻塞或出现错误等情况,导致程序无法正常结束。本文将介绍如何让Python停止…

chatgpt赋能python:Python中如何停止运行程序

Python中如何停止运行程序 Python 是一种功能丰富、灵活的编程语言,但有时候你需要停止运行你的程序,无论是因为出现了错误,或者因为完成了你想要的任务。在本文中,我们将介绍 Python 中停止运行程序的几种方法,以及对…

华为平板和手表?我全都要!2021最强ICT人答题挑战赛正式开始!

专属于新生代ICT人的夏末福利 「最强ICT人答题挑战赛」 2021排位赛来啦! 朋友们,是时候展示真正的技术了! ✨奖品丰厚,越早参与,赢的概率越高✨ 本次挑战赛共分为5个关卡,每个关卡都设置有不同的奖品&#…

华为手表开发:WATCH 3 Pro(13)websocket 请求数据到服务器

华为手表开发:WATCH 3 Pro(13)websocket 请求数据到服务器 初环境与设备文件夹:文件 重点核心代码:app.js新增一个文本输入框index.hmlindex.cssindex.js 初 希望能写一些简单的教程和案例分享给需要的人 鸿蒙可穿戴…

华为手表微信排行榜服务器繁忙,华为watch3微信消息-华为watch3可以回微信消息吗...

华为watch3是首款搭载了鸿蒙系统的智能手表,带给用户更加多的功能体验,智能享受!那么这款华为watch3关于微信消息的功能大家都清楚吗!今天小编就为大家介绍这款华为watch3的微信消息回复功能!帮助大家看看这款华为watch3有没有微信回复功能!好奇的用户一…

华为正式出售荣耀;圆通回应内鬼致 40 万条个人信息泄露;Spring Boot 2.3.6 发布|极客头条...

整理 | 郑丽媛 头图 | CSDN 下载自东方 IC 快来收听极客头条音频版吧,智能播报由出门问问「魔音工坊」提供技术支持。 「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我…

戴森

著名数学家弗里曼戴森的演讲译文:鸟和青蛙 编辑按: 弗里曼•戴森 (Freeman Dyson)1923年12月15日出生,美籍英裔数学物理学家,普林斯顿高等研究院自然科学学院荣誉退休教授。 戴森早年在剑桥大学追随著名的数…

链表(上)

链表(上) (数据结构与算法) 链表的经典应用场景: LRU 缓存淘汰算法。 缓存是一种提高数据读取性能的计数,如常见的:CPU 缓存,数据库缓存,浏览器缓存等。 缓存的大小有限,当缓存被用满…

ogc是一个非营利性组织_非营利组织的21个最佳WordPress主题

ogc是一个非营利性组织 Are you looking for the best WordPress themes for nonprofits? 您是否在寻找非营利组织的最佳WordPress主题? Charity and nonprofit websites require an appealing presentation with the right tools to achieve their donation goal…

橡皮擦的英语_小朋友们知道“橡皮擦”用英语该怎么说吗?

点击上面“蓝字”关注我们! 小朋友们知道橡皮擦用英语该怎么说吗? 和老师一起学起来吧~ eraser 英 [ɪˈreɪzə(r)] 美 [ɪˈreɪsər] n.橡皮擦;黑板擦 复数:erasers 小朋友们都知道橡皮擦是我们常用的文具, 那小朋友们还知道哪…

测试用例方法-等价类划分

一、等价类划分 例:测试一个两位数的加法计算器 测试需求:测试两个参数值的相加后的结果是否正确 隐身需求:输入的数值在-99到99之间,大于99或小于-99输入应被拒绝,并显示错误信息 第一步:根据测试需求&am…

网易云数据分析实战

网易云数据分析 字段:title,tag,text,collection,play,songs,comments 导入模块,读取数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt import squarifydf pd.read_excel(D:/Pandas/music_message.xlsx,header0,names[…

最近抖音上虚拟元宇宙项目-猜歌名,代码解析

介绍一下最近抖音上元宇宙虚拟项目猜歌名,直播游戏。用户互动猜歌名,30秒后自动切歌。 CSDN项目源码:https://download.csdn.net/download/u010978757/85326344 类似的弹幕互动游戏除了猜歌名,还有挤地铁、广场舞和舞厅蹦迪的&a…

德清租房软件测试,门头沟实习生出租房

10 图 2室 65㎡ 苏州街 海淀南路小区 距4号线大兴线海淀黄庄地铁站步行438m 来自经纪人: 陈伟建 1天前 8300元 8 图 1室 35㎡ 北太平庄 花园路8号院 距10号线牡丹园地铁站步行1122m 来自经纪人: 陈泽科 1天前 4800元 10 图 1室 45㎡ 西北旺 芳怡园 距16号线西北旺地…

训练数据集操作方法总结

参考博客 移动九天毕昇:https://blog.csdn.net/weixin_45887062/article/details/126796359 肆十二:(B站有详细解说)https://blog.csdn.net/ECHOSON/article/details/121939535?ops_request_misc%257B%2522request%255Fid%2522%2…

chatgpt赋能python:Python多种输出格式详解

Python多种输出格式详解 对于Python程序员来说,输出是非常重要的。无论是在开发阶段还是在生产环境中,输出都是我们调试程序和确认程序运行是否正常的重要手段。Python标准库提供了丰富的输出格式,本文介绍了几种常见的输出格式及其使用方法…