MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

news/2024/12/25 21:54:41/文章来源:https://blog.csdn.net/yang_daxia/article/details/141325678

大模型的趋势：模型性能越来越好，模型参数变小，端边设备计算能力变强。

MiniCPM-V优点

结果好、OCR能力突出、多分辨率、多语言、易于部署

模型结构

在这里插入图片描述
图片encoder适用vit。输入整体以及切片。切片使用自适应算法，通过计算分数，选取一个mxn，位置编码改用2d方式。然后通过压缩模块，将1024维的tokens压缩到64/96维，增大推理速度。在每一行到切片后加入换行符号，保持空间一致性。最后送入LLM。

训练过程

分为3步：预训练、有监督微调以及RLAIF-V对齐

预训练

在这里插入图片描述

用于对齐视觉模块。分为3个stage

训练压缩模块，连接语言与视觉特征，冻结其他层。使用清洗过后的200万的Image Captioning数据。
更改输入分辨率224->448。只训visual encoder。200万的Image Captioning数据。
训练压缩模块+visual encoder。LLM不动，Image Captioning数据+OCR数据

其他tricks

数据重新描述。使用GPT优化描述
数据打包。所有的数据打包到一个固定的长度。加快预训练2-3倍。
语言泛化能力。只在中文和英文语言上训练。然后通过多语言的监督微调对齐到目标语言。

有监督微调SFT

在这里插入图片描述

使用GPT标注问答数据，训练所有模块。数据主要为高质量的视觉问答。
数据分为2部分。一部分增强模型基础识别能力，短句子为主。一部分增强模型细节、跟随人类指令能力。

RLAIF-V对齐

在这里插入图片描述

问政策、法规之类的问题。然后让模型产出10个响应。
分治思想。将响应拆分几个部分。每一个不问问一个LLM，让LLM去打分。最后综合打分得到响应的结果。
使用DPO优化，利用6K个对齐数据集。成对样本优化。

端边部署

在这里插入图片描述
主要的挑战在于，内存限制、CPU、GPU的算力限制。
常用的策略为量化。fp16 16-17G、int4大约5G。部署框架上，cpu还是慢，小米8为例，一个tokens1.3s。

高级策略

在这里插入图片描述

内存优化。序列内存占用。先vit encoder，再LLM。45->31s
编译优化。在对应的设备上进行编译。50->17。1.3->3.2
配置优化，自动在对应的设备上选择最优的配置参数，3.2->8.2
NPU优化，使用NPU做vit encoder。encoders时间3.7->1.3

当前主要消耗的时间在LLM的预填充。也就是img encode+text encode

实验

不同的系列
在这里插入图片描述
benchmark选择了通用、OCR以及幻觉相关

通用能力

OCR能力

多语言很好

语言正则化效果显著

不同的分辨率

幻觉减弱

对齐相关：

https://blog.csdn.net/v_JULY_v/article/details/134242910

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/404266.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

人机环境系统智能已经超越了传统的空间智能和物理世界的概念

人机环境系统智能已经超越了传统的空间智能和物理世界的概念

人机环境系统智能已经超越了传统的空间智能和物理世界的概念，进入了更为复杂的层次。在人机环境系统中，智能不仅涉及对物理世界的感知和理解，还包括对人类语言、情感、意图等的理解和生成。人工智能技术的应用，如自然语言处理、机…

阅读更多...

C++静态数组的用法

C++静态数组的用法

每日诗词： 疏影横斜水清浅，暗香浮动月黄昏。 ——《山园小梅其一》林逋目录数组的基础操作： 数组元素的增加： 演示： 数组元素的删除： 演示： 数组元素的访问和修改： 演示&am…

阅读更多...

WLAN射频调优

WLAN射频调优

射频调优的基本原则信道优化的基本原则 2.4G射频在非高密部署场景中推荐采用1、6、11这种3个不重叠的信道进行规划，同理也可以选用2、7、12或3、8、13的组合方式；在高密部署场景中则推荐采用1、5、9、13共4个信道组合进行规划。5G射频推荐采用36、40、…

阅读更多...

HQChart使用教程101-创建内置键盘精灵

HQChart使用教程101-创建内置键盘精灵

HQChart使用教程101-创建内置键盘精灵键盘精灵步骤1. 创建键盘精灵实例2. 设置事件回调3. 初始化键盘精灵4. 设置码表数据5. 监听"keydown","mousedown" 交流QQ群HQChart代码地址键盘精灵源码完整实例键盘精灵键盘精灵是一种便捷操作软件的功能工具&a…

阅读更多...

【人工智能】Python融合机器学习、深度学习和微服务的创新之路

【人工智能】Python融合机器学习、深度学习和微服务的创新之路

1. 🚀 引言1.1 🚀 人工智能的现状与发展趋势1.2 📜 机器学习、深度学习和神经网络的基本概念1.3 🏆 微服务架构在人工智能中的作用 2. 🔍 机器学习的演变与创新2.1 🌟 机器学习的历史回顾2.2 🧠…

阅读更多...

UE----IPA 安装在手机上后显示不受信任的开发者

UE----IPA 安装在手机上后显示不受信任的开发者

进入设置 ----》点击通用 ----》点击 VPN与设备管理点击信任然后再打开开发者模式即可在隐私与安全性里下滑最底部即可看到开发者模式

阅读更多...

JavaScript学习笔记（十二）：JS Web API

JavaScript学习笔记（十二）：JS Web API

1、Web API - 简介 Web API 是开发人员的梦想。它可以扩展浏览器的功能它可以极大简化复杂的功能它可以为复杂的代码提供简单的语法 1.1 什么是 Web API？ API 指的是应用程序编程接口（Application Programming Interface）。 Web API 是 …

阅读更多...

机器学习第十四章-概率图模型

机器学习第十四章-概率图模型

目录 14.1 隐马尔可夫模型 14.2马尔科夫随机场 14.3条件随机场 14.4学习与推断 14.4.1变量消去 14.4.2信念传播 14.5近似推断 14.5.1 MCMC采样 14.5.2 变分推断 14.6 话题模型 14.1 隐马尔可夫模型概率围棋型是一类用图来表达变量相关关系的概率模型.它以图为表示工具…

阅读更多...

Python入门级[ 基础语法函数... ] 笔记例题较多

Python入门级[ 基础语法函数... ] 笔记例题较多

本文是刚学习Python的笔记，当时使用的编辑器是交互式编程，所以很多代码可能在你们的编译器上面不能运行，我用快引用引起来了，还需要大家自己动手试一试。内容涉及的比较简单，主要还是Python的语法部分：三…

阅读更多...

短链接系统设计方案

短链接系统设计方案

背景需要设计一个短链接系统，主要功能主要有如下几点： ToB： 输入一个长链接，转换成短链接。这个短链接有时效性，可以设定指定过期时间。这个系统的每天会生成千万级别的短链接。数据具备可分析功能。 ToC&#xf…

阅读更多...

借助Vercel 十分钟搭建属于自己的AI应用站点

借助Vercel 十分钟搭建属于自己的AI应用站点

轻松依托 Vercel,快速构建 Nexior AI 平台 Nexior 是一个令人惊叹的开源项目，托管于 GitHub。通过它，您能够一键便捷地部署专属的 AI 应用站点，包括 AI 问答、Midjourney 绘画、知识库问答、艺术二维码等，完全不需要自己去开发 A…

阅读更多...

springBoot+ druid配置多数据源

springBoot+ druid配置多数据源

springBoot druid配置多数据源 1.在yml加： spring:#1.JDBC数据源datasource:druid:first:username: PYpassword: ral2024url: jdbc:mysql://localhost:3306/mysql?serverTimezoneUTC&characterEncodingutf8&useUnicodetrue&useSSLfalsedriver-class-n…

阅读更多...

前端进行分页Vue3+Setup写法

前端进行分页Vue3+Setup写法

当后端不方便提供数据分页查询接口时，就需要前端来自己分割进行分页操作在有可能的情况下还是建议用分页查询接口，减少网络数据传输首先el-table绑定数组分页组件，变量自己定义防止报错 <el-paginationlayout"->, total, siz…

阅读更多...

HTML中的＜fieldset＞标签元素框的使用

HTML中的＜fieldset＞标签元素框的使用

HTML 提供的 <fieldset> 标签用于在表单中分组相关元素。 <fieldset> 标签会在相关元素周围绘制一个框。 <legend> 标签为 fieldset 元素定义标题。语法如下： <fieldset><legend>标题</legend>…

阅读更多...

qt-17不规则窗体

qt-17不规则窗体

不规则窗体知识点shape.hshape.cppmain.cpp运行图知识点感觉这个就是在图片背景贴了白色 shape.h #ifndef SHAPE_H #define SHAPE_H#include <QWidget>class Shape : public QWidget {Q_OBJECTpublic:Shape(QWidget *parent nullptr);~Shape(); protected:void m…

阅读更多...

最新图像修复论文汇总（2024年以来）（三）

最新图像修复论文汇总（2024年以来）（三）

汇总了自2024年以来新提出的高质量图像修复工作，包含扩散模型、transformer、mamba、sam等最前沿的技术，其中一些是ICLR、ICML、CVPR、ECCV、ACM MM 2024年的新作。这里是第三部分，还有两部分请参阅。最新图像修复论文汇总（20…

阅读更多...

【Python快速入门和实践013】Python常用脚本-目标检测之按照类别数量划分数据集

【Python快速入门和实践013】Python常用脚本-目标检测之按照类别数量划分数据集

一、功能介绍这段代码实现了从给定的图像和标签文件夹中分割数据集为训练集、验证集和测试集的功能。以下是代码功能的总结： 创建目标文件夹结构： 在指定的根目录（dataset_root）下创建images和labels两个文件夹。在这两个文件夹下…

阅读更多...

瑞友科技项目经理认证负责人杨文娟受邀为第四届中国项目经理大会演讲嘉宾︱PMO评论

瑞友科技项目经理认证负责人杨文娟受邀为第四届中国项目经理大会演讲嘉宾︱PMO评论

全国项目经理专业人士年度盛会北京瑞友科技股份有限公司项目经理认证负责人杨文娟女士受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾，演讲议题为“瑞友科技项目经理人才培养体系落地实践”。大会将于10月26-27日在北京举…

阅读更多...

【C++】C++11新增特性

【C++】C++11新增特性

目录 C11简介： 1、统一的列表初始化： std::initializer_list 2、自动类型推导： auto： decltype： 3、final 和 override final： override： 4、默认成员函数控制： 显示缺省…

阅读更多...

第132天：内网安全-横向移动Exchange服务有账户CVE漏洞无账户口令爆破

第132天：内网安全-横向移动Exchange服务有账户CVE漏洞无账户口令爆破

域控环境0day.org 通过网盘分享的文件：131-0day.org内网域环境镜像文件链接: https://pan.baidu.com/s/1rf_gHVJSNG8PEsiSr7DFSw?pwdr5jc 提取码: r5jc 给win7设置一张nat网卡，其他各个主机都设置为vm2 案例一： 域横向移动-内网服务-Exchan…

阅读更多...

最新文章

推荐文章