LMDeploy量化部署LLMVLM实践-笔记五

LMDeploy量化部署LLMVLM实践-笔记五

news/2024/12/24 13:51:27/文章来源:https://blog.csdn.net/qq_46576562/article/details/138233730

本次课程由西北工业大学博士生、书生·浦源挑战赛冠军队伍队长、第一期书生·浦语大模型实战营优秀学员【安泓郡】讲解【OpenCompass 大模型评测实战】课程

课程视频：https://www.bilibili.com/video/BV1tr421x75B/

课程文档：https://github.com/InternLM/Tutorial/blob/camp2/lmdeploy/README.md

模型部署

在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。
在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。

大模型部署挑战一：计算量巨大

大模型部署挑战二：内存开销巨大

大模型部署挑战三：访存瓶颈

大模型部署方法：

模型剪枝：剪枝指移除模型中不必要或多余的组件，比如参数，以使模型更加高效。通过对模型中贡献有限的兄余参数进行剪枝，在保证性能最低下降的同时，可以减小存储需求、提高计算效率。
知识蒸馏：知识蒸馏是一种经典的模型压缩方法，核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型，在不改变学生模型结构的情况下提高其性能。
量化：量化技术将传统的表示方法中的浮点数转换为整数或其他离散形式，以减轻深度学习模型的存储和计算负担。

LMDeploy简介：

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。核心功能包括高效推理、可靠量化、便捷服务和有状态推理。

功点：

高效推理
可靠的量化
便捷的服务
有状态推理

核心功能：模型高效推理、模型量化压缩、服务化部署

LMDeploy性能表现：

LMDeploy TurboMind 引擎拥有卓越的推理能力，在各种规模的模型上，每秒处理的请求数是 vLLM的1.36~1.85 倍。在静态推理能力方面，TurboMind 4bit 模型推理速度(out token/s)远高于FP16/BF16推理。在小batch时，提高到2.4倍。

动手实践部分见：LMDeploy量化部署LLM&VLM实践-作业五

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/314852.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

IP-guard getdatarecord 存在任意文件读取

IP-guard getdatarecord 存在任意文件读取

声明本文仅用于技术交流，请勿用于非法用途由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，文章作者不为此承担任何责任。一、产品介绍 IP-guard是由溢信科技股份有限公司开发的一款终端安全管…

阅读更多...

STM32单片机通过ST-Link 烧录和调试

STM32单片机通过ST-Link 烧录和调试

系列文章目录 STM32单片机系列专栏 C语言术语和结构总结专栏文章目录 1. ST-LINK V2 2. 操作步骤 2.1 连接方式 2.2 驱动安装常规步骤 2.3 Keil中的设置 3. 调式仿真 4. 常见问题排查 1. ST-LINK V2 ST LINK v2下载器用于STM32单片机，可以下载程序、调试…

阅读更多...

01、创建型-单例模式--只有一个实例

01、创建型-单例模式--只有一个实例

文章目录前言一、基本介绍1.1 什么是单例模式1.2 为什么要用单例模式1.3 应用场景1.4 单例优缺点二、单例模式的实现方式2.1 饿汉式单例2.1.1 静态变量方式2.1.2 静态代码块 2.2 懒汉式单例2.2.1 懒汉式单例2.2.2 懒汉式优化①-线程安全2.2.2 懒汉式优化②-双重检查锁2.2.3 懒…

阅读更多...

构建NodeJS库--前端项目的打包发布

构建NodeJS库--前端项目的打包发布

1. 前言学习如何打包发布前端项目，需要学习以下相关知识： package.json 如何初始化配置，以及学习npm配置项； 模块类型type配置， 这是nodejs的package.json的配置main 入口文件的配置 webpack 是一个用于现代 JavaSc…

阅读更多...

spring boot3单模块项目工程搭建-上（个人开发模板）

spring boot3单模块项目工程搭建-上（个人开发模板）

⛰️个人主页: 蒾酒 🔥系列专栏：《spring boot实战》目录写在前面上文衔接常规目录创建 common目录 exception.handle目录 result.handle目录 controller目录 service目录 mapper目录 entity目录 test目录写在最后写在前面本文…

阅读更多...

[Java EE] 多线程(四):线程安全问题(下)

[Java EE] 多线程(四):线程安全问题(下)

1.5 volatile关键字我们在了解这个关键字之前,我们首先要把产生线程安全的第4个原因补齐,我们来说说由于内存可见性引起的线程安全问题. 我们来看下面这样一段代码: import java.util.Scanner;public class Demo16 {public static int count 0;public static void main(Str…

阅读更多...

HTML随机点名程序

HTML随机点名程序

案例要求 1.点击点名按钮，名字界面随机显示，按钮文字由点名变为停止 2.再次点击点名按钮，显示当前被点名学生姓名，按钮文字由停止变为点名案例源码 <!DOCTYPE html> <html lang"en"> <head> <m…

阅读更多...

动态规划——斐波那契数列模型：746.使用最小花费爬楼梯

动态规划——斐波那契数列模型：746.使用最小花费爬楼梯

文章目录题目描述算法原理解法一1.状态表示2.状态转移方程3.初始化4.填表顺序5.返回值解法二1.状态表示2.状态转移方程3.初始化4.填表顺序5.返回值代码实现解法一：C解法一：Java解法二：C解法二：Java 题目描述题目链接&#xf…

阅读更多...

K8S探针分享

K8S探针分享

一，探针介绍 1 探针类型 livenessProbe：存活探针，用于判断容器是不是健康；如果探测失败，Kubernetes就会重启容器。 readinessProbe：就绪探针，用于判断是否可以将容器加入到Service负载均衡池…

阅读更多...

STM32H7使用FileX库BUG，SD卡挂载失败

STM32H7使用FileX库BUG，SD卡挂载失败

问题描述： 使用STM32H7ThreadXFileX，之前使用swissbit牌的存储卡可正常使用，最近项目用了金士顿的存储卡，发现无法挂载文件系统。原因分析： 调试过程发现，关闭D-Cache可以挂载使用exfat文件系统。 File…

阅读更多...

接口测试全流程扫盲

接口测试全流程扫盲

扫盲内容： 1.什么是接口？ 2.接口都有哪些类型？ 3.接口的本质是什么？ 4.什么是接口测试？ 5.问什么要做接口测试？ 6.怎样做接口测试？ 7.接口测测试点是什么？ 8.接口测试都要掌…

阅读更多...

pytest-xdist：远程多主机 - 分布式运行自动化测试

pytest-xdist：远程多主机 - 分布式运行自动化测试

简介：pytest-xdist插件使用新的测试执行模式扩展了pytest，最常用的是在多个CPU之间分发测试以加快测试执行，即 pytest -n auto同时也是一个非常优秀的分布式测试插件，分别支持ssh和socket两种方式实现master和worker的远程通讯。…

阅读更多...

Linux 第十一章

Linux 第十一章

🐶博主主页：ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列：线性代数，C初学者入门训练，题解C，C的使用文章，「初学」C，linux 🔥座右铭：“不要等到什么都没有了…

阅读更多...

Ubuntu终端常用指令

Ubuntu终端常用指令

cat cat 读取文件的内容 1、ls 一、 1、ll 显示当前目录下文件的详细信息,包括读写权限,文件大小,文件生成日期等(若想按照更改的时间先后排序,则需加-t参数,按时间降序(最新修改的时间排在最前)执行: $ ll -t, 按时间升序执行: $ ll -t | tac): ll 2、查看当前所处路径(完整…

阅读更多...

自然语言处理: 第二十八章大模型基底之llama3

自然语言处理: 第二十八章大模型基底之llama3

项目地址: meta-llama/llama3: The official Meta Llama 3 GitHub site 前言 LLaMa系列一直是人们关注的焦点，Meta在4月18日发布了其最新大型语言模型 LLaMA 3。该模型将被集成到其虚拟助手Meta AI中。Meta自称8B和70B的LLaMA 3是当今 8B 和 70B 参数规模的最佳模…

阅读更多...

【oj题解】二分算法、二分答案

【oj题解】二分算法、二分答案

1909 - 跳石头题目描述一年一度的“跳石头”比赛又要开始了! 这项比赛将在一条笔直的河道中进行，河道中分布着一些巨大岩石。组委会已经选择好了两块岩石作为比赛起点和终点。在起点和终点之间，有 N 块岩石（不含起点和终点的岩石&#xf…

阅读更多...

Qt:学习笔记一

Qt:学习笔记一

一、工程文件介绍 1.1 main.cpp #include "widget.h" #include <QApplication> // 包含一个应用程序类的头文件 //argc：命令行变量的数量；argv：命令行变量的数组 int main(int argc, char *argv[]) {//a应用程序对象&…

阅读更多...

朴素贝叶斯算法分类

朴素贝叶斯算法分类

def loadDataSet():postingList[[my, dog, has, flea, problems, help, please], #切分的词条[maybe, not, take, him, to, dog, park, stupid],[my, dalmation, is, so, cute, I, love, him],[stop, posting, stupid, worthless, garbage],[mr, licks, ate, my, steak, …

阅读更多...

Linux - tar （tape archive）

Linux - tar （tape archive）

tar 的全称是 Tape Archive。它最初是在 Unix 系统中用于将数据写入磁带的工具，但现在它通常用于创建、维护、修改和提取文件的归档文件。尽管 tar 可以用于压缩和解压缩文件，但它本身并不进行压缩，而是通常与 gzip 或 bzip2 等压缩工具一起使…

阅读更多...

记录——FPGA的学习路线

记录——FPGA的学习路线

文章目录一、前言二、编程语言2.1 书籍2.2 刷题网站2.3 仿真工具三、基础知识3.1 专业基础课3.2 fpga相关专业知识四、开发工具五、动手实验一、前言也不是心血来潮想学习fpga了，而是祥哥还有我一个国科大的同学都在往fpga这个方向走并且看过我之前文章的同…

阅读更多...

最新文章

推荐文章