手机流畅运行470亿参数大模型,上交大发布PowerInfer-2推理框架,性能提升29倍



苹果一出手,在手机等移动设备上部署大模型迅速成为行业焦点。

目前,移动设备上运行的模型相对较小(苹果的是3B,谷歌的是2B),并且消耗大量内存,这在很大程度上限制了其应用场景。

即使是苹果,也需要与OpenAI合作,通过将云端GPT-4o大模型嵌入到操作系统中来提供更强大的服务。

GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952



这种混合方案引发了关于数据隐私的讨论和争议,甚至马斯克也参与了讨论。

既然本地部署大模型既能提供强大的AI功能,又能保护隐私,为什么苹果还要冒着隐私风险选择云端大模型呢?主要有两点挑战:

  •  手机内存不足:根据大模型的Scaling Law法则,模型参数越大,能力越强,对内存的要求也越高。
     
  • 手机算力不够:即使通过量化等手段将模型塞进手机,推理速度也慢,适用场景有限。



    为了解决这些挑战,上海交大IPADS实验室推出了面向手机的大模型推理引擎PowerInfer-2.0。

论文地址:https://arxiv.org/pdf/2406.06282


PowerInfer-2.0能够在内存有限的智能手机上实现快速推理,让Mixtral 47B模型在手机上达到11 tokens/s的速度。

与热门开源推理框架llama.cpp相比,PowerInfer-2.0的推理加速比平均达到25倍,最高达29倍。

针对手机运行内存不足的问题,PowerInfer-2.0利用了稀疏模型推理的特点:每次只需激活一小部分神经元,即“稀疏激活”。



未激活的神经元不参与推理计算,不影响模型输出质量。

稀疏激活为降低模型推理的内存使用创造了机会。

PowerInfer-2.0将神经网络中的神经元分为冷、热两种,并在内存中基于LRU策略维护一个神经元缓存池。



频繁激活的“热神经元”被放置在运行内存中,而“冷神经元”只有在被预测激活时才会被拉进内存,大幅降低了内存使用量。

冷热神经元分类继承自PowerInfer-1.0已有的做法。

去年12月,苹果在“LLM in a Flash”中提出了类似的“滑动窗口”技术,但这些工作主要针对PC环境,直接迁移到手机环境还会遇到新的难题。



手机平台的硬件条件远不及PC,无论是算力、内存总量还是存储带宽,都存在较大差距。

手机硬件平台存在CPU、GPU、NPU三种异构计算单元,十分复杂。

神经元簇概念不仅适应手机的异构计算环境,还能支持计算与存储I/O的流水线并行执行。

而对于Mistral 7B这种可以放进手机运行内存的模型,PowerInfer-2.0可以节约40%内存的情况下,达到与llama.cpp和MLC-LLM同水平甚至更快的解码速度:



PowerInfer-2.0提出了分段神经元缓存和神经元簇级的流水线技术,在一个神经元簇等待I/O时,可以及时调度另一个已准备好的神经元簇到处理器上计算,从而隐藏I/O延迟。

这种基于神经元簇的流水线打破了传统推理引擎中逐矩阵计算的方式,允许来自不同参数矩阵的神经元簇交错执行,达到最高的并行效率。

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard



推荐阅读:

如何免费使用GPT-4o?如何升级GPT...

更强大Mamba-2正式发布啦!!!

黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/348577.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【西瓜书】9.聚类

聚类任务是无监督学习的一种用于分类等其他任务的前驱过程,作为数据清洗,基于聚类结果训练分类模型 1.聚类性能度量(有效性指标) 分类任务的性能度量有错误率、精度、准确率P、召回率R、F1度量(P-R的调和平均)、TPR、FPR、AUC回归…

20240613解决飞凌的OK3588-C的核心板的USB3.0接口不读U盘的问题

20240613解决飞凌的OK3588-C的核心板的USB3.0接口不读U盘的问题 2024/6/13 15:21 缘起,由于USB3.0的CC芯片在飞凌的OK3588-C的开发板的底板上,一切正常。 如果你单独使用核心板,很容易出现这个问题【省成本没有使用CC芯片】:不读U…

LabVIEW开发CAN通讯协议

在LabVIEW中开发CAN(Controller Area Network)通讯协议时,需要全面考虑硬件选择、驱动安装、通信配置、错误处理、数据解析和实时性等多个方面。本文详细介绍了在LabVIEW中实现CAN通讯时的关键点和最佳实践,确保系统的稳定性、可靠…

JFrame.setDefaultLookAndFeelDecorated

在java Swing编程中,作为窗体,我们经常编写类继承JFrame,在main方法中进行加载,如下 有一种方法,不用继承JFrame也可以弹窗,代码如下 但是这个跟我们今天的setDefaultLookAndFeelDecorated有什么关系呢,这个设置,必须在new 对象前进行调用,才有装饰效果,如下 说白了…

Java中Transactional在不同方法间的穿透性,rollbackFor参数含义

哈喽,大家好,我是木头左! 在Java开发中,经常会遇到需要在一个事务中执行多个操作的场景。为了确保这些操作的原子性,可以使用Spring框架提供的Transactional注解来实现事务管理。然而,在实际开发过程中&…

【Intel CVPR 2024】通过图像扩散模型生成高质量360度场景,只需要一个语言模型

在当前人工智能取得突破性进展的时代,从单一输入图像生成全景场景仍是一项关键挑战。大多数现有方法都使用基于扩散的迭代或同步多视角内绘。然而,由于缺乏全局场景布局先验,导致输出结果存在重复对象(如卧室中的多张床&#xff0…

JVM性能优化案例:减少对象频繁创建

JVM性能优化案例:减少对象频繁创建 案例背景 某金融应用系统在处理大量并发交易时,响应时间过长,并且有时出现内存溢出(OutOfMemoryError)的问题。经过分析,发现问题主要出在频繁的对象创建和较差的内存管…

如何降低pcdn的延迟?

要降低P2P CDN的延迟,可以采取以下操作: 一.优化网络连接: 1、使用有线网络连接替代无线连接,因为有线连接通常提供更稳定的数据传输。 2、升级家庭或企业路由器,选择性能更好的路由器以提高网络传输速度…

【后端开发】服务开发场景之高可用(冗余设计,服务限流,降级熔断,超时重试,性能测试)

【后端开发】服务开发场景之高可用(冗余设计,服务限流,降级熔断,超时重试,性能测试) 文章目录 序:如何设计一个高可用的系统?可用性的判断指标是什么?哪些情况会导致系统…

SJ902安全网贯穿测试仪

产品内容 安全网耐贯穿试验机是根据GB 5725-2009 《安全网》用于检测安全网的耐贯穿性能。 技术指标 1、贯穿物:直径50mm,质量5kg的2圆棒 2、贯穿试验架与水平面夹角:30 3、贯穿试验高度:距离被贯穿网中心1米 4、电动提升、…

怎么防止源代码泄露?9种方法教会你!

怎么防止源代码泄露?首先要了解员工可以通过哪些方式将源代码传输出去! 物理方法: — 网线直连,即把网线从墙上插头拔下来,然后和一个非受控电脑直连; — winPE启动,通过光盘或U盘的winPE启动,甚…

操作系统——信号

将信号分为以上四个阶段 1.信号注册:是针对信号处理方式的规定,进程收到信号时有三种处理方式:默认动作,忽略,自定义动作。如果不是自定义动作,这一步可以忽略。这个步骤要使用到signal/sigaction接口 2.…

最新有钱还系统源码 人人还众筹还钱模式还贷系统源码

本文来自:最新有钱还系统源码 人人还众筹还钱模式还贷系统源码 - 源码1688 应用介绍 简介: 最新有钱还系统源码 | 人人还众筹还钱模式还贷系统源码 转载未测试 盈利模式: 1.系统里直推400 2.间推得200 3.升级是隔代匹配200 4.漏单直接…

借助Historian Connector + TDengine,打造工业创新底座

在工业自动化的领域中,数据的采集、存储和分析是实现高效决策和操作的基石。AVEVA Historian (原 Wonderware Historian) 作为领先的工业实时数据库,专注于收集和存储高保真度的历史工艺数据。与此同时,TDengine 作为一款专为时序数据打造的高…

SpringBoot的Mybatis-plus实战之基础知识

文章目录 MybatisPlus 介绍一、MyBatisPlus 集成步骤第一步、引入依赖第二步、定义mapper 二、注解TableNameTableldTableField 三、配置文件四、加解密实现步骤 在SpringBoot项目中使用Mybatis-plus,记录下来,方便备查。 MybatisPlus 介绍 为简化开发而…

项目文章 | Cell ReportsChIP-seq和RNA-seq联合鉴定伯克霍尔德氏菌毒性的重要调节因子

发表单位:中山大学深圳校区制药科学学院 发表日期:2024年5月14日 研究期刊:Cell Reports(IF: 8.8) 研究材料:伯克霍尔德氏菌 主要技术:ChIP-seq,EMSA,微尺度热泳分析…

Linux环境---在线安装MYSQL数据库

Linux环境—在线安装MYSQL数据库 一、使用步骤 1.安装环境 Mysql 驱动 8.0 需要 jdk1.8 才行。 JDK版本:1.8 参考文档 MYSQL版本:8.0.2 下载链接: https://pan.baidu.com/s/1MwXIilSL6EY3OuS7WtpySA?pwdg263 操作系统:CentOS 1.1 建立存…

LabVIEW Actor架构特点与适用范围

LabVIEW的Actor架构提供了一种基于消息传递的并行任务管理方式,适合复杂系统的模块化设计。其特点包括高可扩展性、灵活的消息传递和并行处理能力。维护和修改要求较高,适合有一定经验的开发人员。对于中小型项目,可考虑选择更简单的状态机架…

如何在浏览器书签栏设置2个书签实现一键到达网页顶部和底部

本次设置浏览器为:Chrome浏览器(其他浏览器可自行测试) 1,随便收藏一个网页到浏览器书签栏 2,右键这个书签 3,修改 4,修改名称 5,修改网址: javascript:(function(…

Vivado时序报告之Datasheet详解

目录 一、前言 二、Datasheet配置选项说明 2.1 Options 2.2 Groups 2.3 Timer Settings 2.4 Common Options 三、Datasheet报告 3.1 General Information 3.2 Input Ports Setup/Hold 3.3 Output Ports Clock-to-out 3.4 Setup between Clocks 3.5 Combinational…