AI PC处理器架-低功耗、NPU算力、大模型

 d5562459151980572285f430f6c247fa.jpeg

AI PC处理器架构变化:ARM低功耗、引入NPU算力、大模型落地端侧

   

d07bc4577dc4af27b115957497dcf2eb.jpeg


ARM架构以简洁的指令集设计,快速执行每条命令,实现低功耗下的高效性能。其核心理念是节能和效率,为电池驱动设备提供了理想选择。相较之下,x86架构虽指令复杂,却能在单条指令中完成更多任务,强调性能和灵活性,成为高计算需求设备的不二之选。

ARM架构在移动和嵌入式市场占据主导地位,其高能效与低功耗特性备受青睐。相较之下,x86架构则以其卓越性能和丰富的软件生态,主导着桌面和服务器市场。

1、ARM架构因其低功耗的特点份额有望逐步提升

ARM架构的低功耗优势,源于其精简的指令集、优化的硬件实现和流水线设计。通过低功耗模式、减少晶体管数量和使用专用处理单元,以及对嵌入式系统和移动设备的深度优化,ARM处理器在低功耗应用场景中展现出卓越性能。

在AIPC场景中,ARM架构展现出卓越的能效比和高效的计算能力,同时维持低能耗。其高度定制化特性使芯片设计者能针对AI计算需求优化硬件架构。这种灵活性使ARM架构能在各种AI应用场景中提供优化解决方案。

苹果由x86架构转向ARM架构收获成功,是其市场份额上升的关键因素之一

在2020年,苹果进行了一次重大的技术转变,从x86架构的CPU转向了ARM架构CPU,并推出了全新的M系列芯片。这一里程碑式的事件在2020年11月10日得以实现,当时苹果正式发布了其首款自主研发的M1芯片。

这款芯片被广泛应用在多款苹果产品中,包括MacBook Air (2020 年末版)、Mac Mini(2020 年末版)、MacBook Pro(13 英寸,2020 年)、iMac、iPad Pro和iPad Air (第五代)。这次技术转变不仅标志着苹果从使用英特尔处理器转向使用自主研发的芯片,也预示着苹果在未来可能会继续推动技术创新,为消费者带来更加强大和高效的产品。

苹果宣称该芯片在所有低功耗中央处理器产品中性能最佳,同时具有最佳的性能功耗比。

苹果MacOS市场份额提升,有部分原因可能是M系列芯片高能低耗对于其mac产品销量的拉动。根据statcounter数据,2018年MacOS在PC操作系统的占比仅为12.84%,2023年提升至18.71%,而windows操作系统市场份额则从2018年的80.36%下降至2023年的68.28%,根据苹果公司公告数据,2020年四季度推出ARM架构的M芯片后,其mac产品线销售收入在1Q21环比上涨5%,同比上涨70%,增速显著高于全球PC销量的增速。

Rosetta 2确保苹果从x86架构转向ARM架构的过渡期平稳度过

苹果从Intel芯片转向自研ARM芯片,旨在实现硬件性能的个性化规划,以达成高效能与低能耗的完美融合。

苹果在x86至ARM架构的转型中,挑战重重:确保应用兼容性和性能的同时,还需巧妙平衡硬件设计、操作系统优化、用户体验、生态整合及市场竞争。

Rosetta 2使得macx86架构转向ARM架构平稳过渡。由于当时大量现有的Mac应用程序是为x86架构编写的,为了确保现有的x86应用能够在ARM架构的Mac上运行,苹果推出了Rosetta 2翻译层。Rosetta 2在运行时将x86指令翻译为ARM指令。这种翻译是动态进行的,意味着应用程序在启动和运行时,Rosetta 2会实时进行指令翻译,从而确保兼容性,对于用户而言,Rosetta 2的运行是透明的。

用户不需要进行任何额外的操作即可运行他们现有的x86应用程序,只需像往常一样打开应用程序即可。使用Rosetta 2翻译的应用程序与原生运行在x86设备上的体验几乎没有区别。这种无缝体验是苹果致力于确保过渡期间用户不会感受到明显差异的重要组成部分。

ARM架构完美契合苹果生态系统的一致性与连贯性需求。新ARM设备能无缝对接iPhone、iPad及其他Mac,实现高效协同。开发者更可在iOS和macOS平台间轻松移植应用,进一步巩固苹果生态的一体化与协同效应。

微软逐步完善ARM架构的生态系统

2021年微软推出了ARM64EC,可以将基于X86的应用程序代码转移到基于ARM的代码上,ARM64EC可以看作是连接 x86 和 ARM架构的重要桥梁,它通过提供兼容性和优化性能,促进了两种架构之间的互操作性和协同发展。

ARM64EC是一种应用二进制接口(ABI),旨在促进在ARM系统上运行x64应用程序的兼容性。这使得x64应用程序在WOA(Windows on ARM)设备上能够更高效地运行,实现原生执行ARM代码。为了使 ARM 设备能够运行 x86 应用程序,微软引入了 ARM64EC。

ARM64EC 允许开发者将现有的x64(即 x86-64)应用程序部分或全部移植到 ARM 平台上,而无需完全重写代码。通过支持 x86 应用程序,ARM64EC 使得 ARM 设备(如基于 ARM 的 Windows 笔记本电脑和平板电脑)能够运行更多的现有软件,从而扩大了这些设备的应用范围和吸引力。

ARM架构系列软件正逐步亮相。目前,Windows on ARM中已有87%应用为ARM原生应用,仅余13%需兼容层转译。

在2023年,高通骁龙X系列震撼登场后,高通与各大应用开发商紧密合作。2024年3月,谷歌也推出了Windows on ARM原生版完整Chrome浏览器,这款浏览器可在搭载高通骁龙的Windows PC上免费下载使用。

ARM架构市场份额有望逐年上涨,高通+微软联手发力WOA

Counterpoint Research预测,到2027年,基于ARM架构的笔记本电脑市场份额将增长至25%。这一数据展现了ARM架构在笔记本市场的潜力。

根据分析,当前市场上的ARM笔记本电脑主要来自苹果,搭载MacOS操作系统。然而,微软的Windows操作系统仍然是最受欢迎的选择。过去,ARM市场份额未能显著增长的主要原因是Windows应用程序与ARM架构的兼容性问题,但这一问题正在逐步得到解决。

高通+微软联手发力推动WOA,Copilot+PC的推出可能是WOA的重要转折点。

在Build 2024开发者大会前夕,5月20日微软发布了自家最新的“Copilot+PC”, 是专为 AI 设计的新型 Windows PC,有望开启Windows on ARM新时代。其他各大品牌同步推出Copilot+PC。微软不仅自己推出全新的Copilot+ PC,同时与各大 OEM 厂商(宏碁、华硕、戴尔、惠普、联想、三星)合作全新 Copilot+PC,于 6 月 18 日开始上市。

2、异构计算成为AIPC新品主流,引入NPU成为关键

引入NPU对于提升计算效率、降低能耗与成本具有重要意义。

NPU,神经网络计算的专家,高效处理并行任务,显著提升AI性能。如图像识别、自然语言处理及自动驾驶等领域,NPU能加速训练和推理,释放强大潜力。

2)能效与成本:在执行特定AI任务时,NPU的能效比显著高于通用处理器(如CPU、GPU)。这对于移动设备和嵌入式系统至关重要,因为这些设备对功耗和电池寿命有着严格的标准。

3)超强适应性与扩展性:现代NPU以可重构设计见长,能轻松应对各类AI模型和算法。其灵活性使其在各种应用场景中运行高效,满足多元计算需求。

AIPC处理器异构计算成为共性,增加NPU本质是为了进行低功耗计算

在硬件领域,英特尔、高通和AMD新一代AIPC处理器均采纳了"CPU+GPU+NPU"的异构架构。相较于传统的CPU+GPU,新增的NPU专注于人工神经网络计算。这种三芯片融合,旨在实现更迅速、更高效的边缘AI模型推理。

2023年12月英特尔推出首款面向AI PC的Meteor Lake酷睿Ultra处理器。酷睿Ultra处理器采用分离式模块架构,由四个独立的模块组成,并通过Foveros 3D封装技术连接。其计算模块首次采用Intel 4制程工艺打造,带有基于Redwood Cove架构的P-Core和基于Crestmont架构的E-Core;核显采用了全新的Alchemist Xe-LPG设计;SOC模块里面包含了2个全新的LP E-Core,用于新型低功耗负载,进一步优化节能与性能间的平衡。同时酷睿Ultra处理器还采用了英特尔首个用于客户端的片上AI加速器“神经网络处理单元(NPU)”,将高能效AI加速提升到了新的高度,带来2.5倍于上一代产品的能效表现。

根据公司官网信息,intel计划将在 2025 年之前在超过 1 亿台 PC 上实现人工智能 。

2024年6月,Intel正式发布下一代面向AIPC的移动处理器Lunar Lake,综合算力达到120TOPS,NPU算力达到48TOPS,同时能耗大幅降低。

Lunar Lake处理器AI总算力达到120TOPS,其中CPU可提供5 TOPS的算力,驱动轻度AI工作;GPU提供67 TOPS算力提供游戏与创作所需的AI性能;NPU提供48 TOPS算力能够提供AI辅助与创作等功能。经过重新设计,为 x86 的能效设定了新的标准,lunar lake再供电和电源管理方面大幅改进,采用更先进的工艺节点,相较上一代meteor lake能耗降低40%。目前Lunar Lake已有来自20家OEM厂商,超过80款设计,预计第三季度开始出货。

在AI应用方面,英特尔ultra处理器性能显著提升,较上一代性能提升70%,同时也领先AMD上一代产品。

根据英特尔公布的对比数据显示,与英特尔Core i7-1370P相比,Core Ultra 7 165H的Generative AI(生成式AI)性能提高了70%;与AMD Ryzen 7 7840U相比,英特尔Core Ultra 7 165H在GIMP Stable Diffusion性能方面提高了5.4倍,在Stable Difference A1111性能方面提高了3.2倍,在Adobe Premier Pro(ColorGrade+场景编辑+导出)方面提高了1.7倍,在Adobe Lightroom Classic(AI照片编辑)方面提高了1.5倍,DaVinci Resolve(渲染+AI遮罩+导出)的性能提高了1.2倍,Wondershare Filmora(A1FX+预览+导出)性能提高了1.1倍。

Ultra系列新一代产品,实现了显著的功耗降低。不仅性能大幅提升,功耗也同步优化。对比英特尔Core i7-1370P,Core Ultra 7 165H在Zoom视频会议中的功耗降低了38%。而在28W超薄设备上,与AMD Ryzen 7 7840U相比,空闲模式下的功耗更是低了79%。更为惊人的是,当功率突破20W后,其速度甚至超越了苹果M3。Ultra系列的功耗优化,不仅提升了性能,更为您的设备带来更长的使用寿命。

Ultra系列功耗降低的秘诀在于其独特的Tile分离模块设计,将中高、低、超低功耗以及GPU等负载场景和运算模块划分为不同Tile。在低功耗场景下,NPU或LPE独立承载,CPU和GPU降频或静置,从而实现显著的功耗削减。

英特尔酷睿Ultra引入全新3D高性能混合架构,由P-Core(性能核)、E-Core(能效核)和LP E-Core(低功耗能效核)组成。这一设计使处理器能够根据不同应用场景智能调整核心活动状态,实现性能与功耗的完美平衡。

AIPC处理器异构计算成为共性,增加NPU本质是为了进行低功耗计算

随着生成式AI在具有多样化需求和计算需求的垂直领域中的需求不断增加,对专为AI定制设计的全新计算架构的需求也随之增长。为此,我们首先需要一种全新的面向生成式AI的神经网络处理器(NPU),并借助异构处理器的组合,如中央处理器(CPU)和图形处理器(GPU)。通过将NPU与适当的处理器相结合,异构计算能够实现卓越的应用性能、能效和电池续航。

NPU专为实现以低功耗加速AI推理而全新打造,并随着新AI用例、模型和需求的发展不断演进。

根据高通《通过NPU和异构计算开启终端侧生成式AI》,在2015年,早期NPU面向音频和语音AI用例而设计,这些用例基于简单卷积神经网络并且主要需要标量和向量数学运算;2016年开始,拍照和视频AI用例大受欢迎,出现了基于transformer、循环神经网络、长短期记忆网络和更高维度的卷积神经网络等更复杂的全新模型,这些工作需要大量张量数学运算,因此NPU增加了张量加速器和卷积加速,大幅提升处理效率;2023年,LLM、LVM赋能的生成式AI使得典型模型的大小超过了一个数量级,因此还需要重点考虑内存和系统设计,通过减少内存数据传输以提高性能和能效。

3、大模型落地端侧提升设备对于内存的需求

内存,作为AI PC的核心元素,直接关联系统性能与AI任务的完成。随着AI模型的日益庞大和复杂,对内存的需求也相应提升。

在PC领域,微软的Copilot+ PC首发硬件需求为16GB DDR5/LPDDR5内存和256GB SSD/UFS或更大容量的存储。AI PC有望推动PC的平均存储容量提升。据集邦咨询预测,笔记本的DRAM平均搭载容量年增长率约为12.4%。随着AI PC的大规模生产,预计到2025年,这一增长趋势将更为显著。

随着手机代际AI的升级,DRAM需求有望迎来爆发式增长。尽管人工智能(AI)已在智能手机中应用多年,但高端设备所采用的大型语言模型(LLM)改进将推动DRAM需求飙升,同时加速最小NAND存储容量的淘汰。据YOLE预测,2023年,高端智能手机的平均DRAM容量将达到9GB。随着制造商逐步整合基于生成式AI的功能,预计到2024年,这一数字将逼近10GB。


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/390652.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

XXE-lab-master靶场:PHP_xxe

目录 有回显 测试回显位置 构建payload 无回显数据外带 构建payload 漏洞修复 XXE-lab是一个一个包含php,java,python,C#等各种语言版本的XXE漏洞靶场。 下载地址:https://github.com/c0ny1/xxe-lab 将PHPStudy的中间件与版本信息调制为 php-5.4.29Apache 以…

@SchedulerLock注解使用

文章目录 Scheduled注解参数介绍建表配置类示例参考 如果服务中使用了Scheduled注解,且服务部署了多个节点。那么在同一时刻,所有节点都会执行定时任务。但有有些任务我们只需执行一次,这就需要使用分布式锁的方式来控制,如可以使…

七夕情人节有什么好物推荐?五款性价比超高的产品推荐!

亲爱的朋友们,随着七夕情人节的临近,空气中弥漫着浪漫与甜蜜的气息。在这个专属恋人的节日里,团团知道大家在为心爱的人挑选礼物时可能会感到纠结。因此,我根据个人的浪漫经验和精心的市场挑选,为大家准备了一份情人节…

基础实验回顾

一、虚拟机网络设定 克隆一台node1 在node1上进行网络配置 进入网卡配置目录 # 红帽9网卡配置文件目录,其他版本不一样 [rootlocalhost ~]# cd /etc/NetworkManager/system-connections/网卡配置文件 [rootlocalhost system-connections]# vim ens160.nmconnect…

WordPress 轻量级产品官网类主题 CeoNova-Pro_v4.4绕授权开心版

CeoNova-Pro 主题是一款轻量级、且简洁大气、产品官网类主题,定位于高端产品官网、同时包含了知识付费、定制服务、问答社区、论坛交流、网址导航、以及付费产品购买下载等全方位覆盖。 源码下载:ceonova-pro4.4.zip 变更日志 新增虚拟资源隐藏信息增…

GitHub最全中文排行榜开源项目,助你轻松发现优质资源!

文章目录 GitHub-Chinese-Top-Charts:中文开发者的开源项目精选项目介绍项目特点核心功能1. 热门项目榜单2. 详细项目信息 如何使用覆盖范围软件类资料类 GitHub-Chinese-Top-Charts:中文开发者的开源项目精选 在全球范围内,GitHub已经成为了…

vue3直播视频流easy-player

vue3直播视频流easy-player <script src"/easyPlayer/EasyPlayer-element.min.js"></script> easyPlayer文件下载地址 https://download.csdn.net/download/weixin_42120669/89605739 <template><div class"container"><div …

Flask 介绍

Flask 介绍 为什么要学 Flask框架对比设计哲学功能特点适用场景学习曲线总结 Flask 的特点Flask 常用扩展包Flask 的基本组件Flask 的应用场景官方文档官方文档链接文档内容概述学习建议 Flask 是一个使用 Python 编写的轻量级 Web 应用框架。它旨在让 Web 开发变得快速、简单且…

1.4亿中文知识图谱导入Nebula Graph快速体验

1. 史上最大规模的中文知识图谱 Yener 开源了史上最大规模的中文知识图谱—— OwnThink&#xff08;链接&#xff1a;​​https://github.com/ownthink/KnowledgeGraphData​​&#xff0c;数据量为 1.4 亿条。数据以 ​​(实体, 属性, 值)​​ 和 ​​(实体, 关系, 实体)​​…

【最长重复子数组】python刷题记录

R3-滑动窗口专题 . - 力扣&#xff08;LeetCode&#xff09;

Xilinx FPGA 原语解析(一):IBUFDS_GTE3 差分时钟输入缓冲器

目录 1.使用说明 2.实例化代码 3.参数解释 4.端口连接 1.使用说明 IBUFDS_GTE3 是Xilinx FPGA 中用于高速接口的差分时钟信号输入缓冲器。 BUFDS_GTEx&#xff0c;x2/3/4&#xff08;不同系列的FPGA x的值不同&#xff09;&#xff0c;其中UltraScale使IBUFDS_GTE3…

苹果手机录音删除了怎么恢复?快收藏,这3个方法超简单!

在日常生活中&#xff0c;苹果手机的语音备忘录功能为我们捕捉了许多珍贵的瞬间。然而&#xff0c;有时因为误操作或其他原因&#xff0c;我们可能会不小心删除了重要的录音。面对手机录音删除了怎么恢复这种情况&#xff0c;不必慌张&#xff0c;今天小编将向你展示3种简单易行…

ACl访问控制实验

要求&#xff1a;PC1可以telnet登录r1&#xff0c;不能ping通r1&#xff0c;pc1可以ping通r2&#xff0c;但不能telnet登录r2&#xff0c;pc2的所有限制与pc1相反 实验思路&#xff1a;因为华为的ensp默认允许所有&#xff0c;所以只写拒绝规则就行 rule 5 deny icmp source 19…

使用MultipartFile来上传单个及多个文件代码示例(前端传参数及后端接收)

背景 前端使用vue或vue+vant上传文件 后端java接收MultipartFile和其他参数 一、MultipartFile上传单个文件代码示例 1.1 MultipartFile上传单个文件,不包含其它参数 1.1.1 控制层代码如下: /*** 1、上传单个文件,不包含其它参数* */ @PostMapping( "/upload")…

vulhub:nginx解析漏洞CVE-2013-4547

此漏洞为文件名逻辑漏洞&#xff0c;该漏洞在上传图片时&#xff0c;修改其16进制编码可使其绕过策略&#xff0c;导致解析为 php。当Nginx 得到一个用户请求时&#xff0c;首先对 url 进行解析&#xff0c;进行正则匹配&#xff0c;如果匹配到以.php后缀结尾的文件名&#xff…

JAVA游戏源码:仙剑|大学生练手项目

学习java朋友们&#xff0c;福利来了&#xff0c;今天小编给大家带来了一款仙剑源码。注意&#xff1a;此源码仅供学习使用!! 源码搭建和讲解 启动main入口&#xff1a; //************************************************************************ // ************完整源码…

【practise】大数相加、大数相乘

通常&#xff0c;我们的int、long long类型都有最大的数字上限&#xff0c;也就是说再大了会有溢出问题&#xff0c;那么很大的数字是怎么进行运算的呢&#xff1f; 其中一种方法是把很大的数字转变成字符串存放到string中&#xff0c;然后用代码对字符串进行处理&#xff0c;…

进程通信(7):互斥锁(mutex)和条件变量

互斥锁(mutex)用于互斥访问临界区&#xff0c;只允许一个线程访问共享变量。 条件变量可以让获取互斥锁 的线程在某个条件变量上等待&#xff0c;直到有其他线程把他唤醒。 互斥锁和条件变量通常一起使用实现同步。 互斥锁的操作 lock(mutex)&#xff1b; // 获取锁&#xff…

C++——哈希结构

1.unordered系列关联式容器 本节主要介绍unordered_map和unordered_set两个容器&#xff0c;底层使用哈希实现的 unordered_map 1.unordered_map是储存<key,value>键值对的关联式容器&#xff0c;其允许通过key快速查找到对应的value&#xff0c;和map非常相似&#x…

数学建模--支持向量机

目录 SVM的基本原理 SVM的应用场景 实现细节与案例分析 总结 支持向量机&#xff08;SVM&#xff09;在处理非线性数据时的核函数有哪些&#xff0c;以及它们各自的优缺点是什么&#xff1f; 如何选择支持向量机的惩罚参数CC以优化模型性能和计算效率&#xff1f; 在实际…