论文阅读--LlaVA

论文阅读--LlaVA

news/2025/3/12 17:57:49/文章来源:https://blog.csdn.net/m0_73202283/article/details/145519227

数据

使用GPT-4，根据现有的图片对数据（image-pair data）收集指令跟随数据。作者团队收集了158,000个独特的语言-图像指令遵循样本，其中包括58,000个对话样本、23,000个详细描述样本和77,000个复杂推理样本

以图像描述为例：由图像Xv，图像的标题Xc组成的二元组可以对应一系列问题Xq（由GPT-4生成）来指示模型生成简单的描述。就可以将这个图像-文本对扩展为一个指令跟随数据：

Human : X_q, X_v <STOP>
Assistant : X_c <STOP>

但这样的扩展在深度和广度上都是不足的，交互性很弱，因此用GPT-4创建涉及视觉内容的指令遵循数据：

标题和边界框两种方法来将视觉信息传递给语言模型：

标题（Caption） 提供了不同的视角下对图像的描述，例如不同的物体之间的位置关系，或者其中的人物正在做什么。
边界框（Boxes） 定位了图像中的物体，以物体概念+位置信息的形式呈现（通常就是物体概念和矩形四个角的坐标构成）。

生成对话数据

助手（Assistance）会回答人类提出的在图像上具有明确答案的视觉问题（包括物体类型、数量、动作、位置等）

生成细节描述

创建了一个问题列表，提示GPT-4然后筛选出了如表中所示的问题。对于每个问题，从列表中抽取一个询问GPT-4以生成详细描述。

生成复杂推理数据

前面两种类型更多的是描述图片中存在的信息，而该问题需要在前两步的基础上遵循严格的逻辑，推理出一些信息出来

网络

LLaVA 的模型结构很简单，使用预训练的 Visual Encoder（CLIP ViT-L/14）和 LLM （LLaMA），为了做 Alignment，用一个简单的线性层 Projector 将视觉特征转换为文本特征

训练

对于任意一个图像Xv ，生成一个T轮的问答数据序列( Xq1 , Xa1 , … , XqT , XaT)

第一轮对话中加入视觉信息Xv，即使用视觉特征和语言向量的一种排列当做指令

Stage1: 预训练视觉->文本

要求机器描述这个图像作为输入的Xq，将数据集中的标题（图像描述）作为回答Xa 。然后冻结图像编码器和语言模型，训练投影矩阵W直到似然函数达到极大

Stage2: 端到端训练

这一阶段冻结视觉编码器，并更新LLaVA模型的投影层和LLM

使用数据：

多模态聊天机器人将收集的158K独特的语言图像指令按照三种回答格式（对话、详细描述和复杂推理）进行均匀抽样并基于这些数据进行微调得到聊天机器人
科学问答（Science QA）在Science QA基准数据集上进行，通过将问题和上下文作为输入，将推理过程和答案作为输出进行训练。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/14409.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【R语言】apply函数族

【R语言】apply函数族

在R语言中使用循环操作时是使用自身来实现的，效率较低。所以R语言有一个符合其统计语言出身的特点：向量化。R语言中的向量化运用了底层的C语言，而C语言的效率比高层的R语言的效率高。 apply函数族主要是为了解决数据向量化运算的问题&#x…

阅读更多...

归一化与伪彩：LabVIEW图像处理的区别

归一化与伪彩：LabVIEW图像处理的区别

在LabVIEW的图像处理领域，归一化（Normalization）和伪彩（Pseudo-coloring）是两个不同的概念，虽然它们都涉及图像像素值的调整，但目的和实现方式截然不同。归一化用于调整像素值的范围&#xff0c…

阅读更多...

【3分钟极速部署】在本地快速部署deepseek

【3分钟极速部署】在本地快速部署deepseek

第一步，找到网站，下载： 首先找到Ollama ， 根据自己的电脑下载对应的版本。我个人用的是Windows 我就先尝试用Windows版本了 ，文件不是很大，下载也比较的快第二部就是安装了 ： 安装完成后提示…

阅读更多...

论文阅读：MGMAE : Motion Guided Masking for Video Masked Autoencoding

论文阅读：MGMAE : Motion Guided Masking for Video Masked Autoencoding

MGMAE:Motion Guided Masking for Video Masked Autoencoding Abstract 掩蔽自编码（Masked Autoencoding）在自监督视频表示学习中展现了出色的表现。时间冗余导致了VideoMAE中高掩蔽比率和定制的掩蔽策略。本文旨在通过引入运动引导掩蔽策略&#xff0…

阅读更多...

【Ai】--- 可视化 DeepSeek-r1 接入 Chatbox（超详细）

【Ai】--- 可视化 DeepSeek-r1 接入 Chatbox（超详细）

在编程的艺术世界里，代码和灵感需要寻找到最佳的交融点，才能打造出令人为之惊叹的作品。而在这座秋知叶i博客的殿堂里，我们将共同追寻这种完美结合，为未来的世界留下属于我们的独特印记。【Ai】--- 可视化 DeepSeek-r1 接入 Chat…

阅读更多...

P1049 装箱问题（dp）

P1049 装箱问题（dp）

#include<bits/stdc.h> using namespace std;int main() {int v,n;cin>>v>>n;int a[30];int dp[20005];for(int i0;i<n;i){cin>>a[i];}memset(dp,0,sizeof(dp));// 设置所有元素为0，表示最大体积为0for(int i0;i<n;i){for(int jv;j&…

阅读更多...

程序诗篇里的灵动笔触：指针绘就数据的梦幻蓝图＜7＞

程序诗篇里的灵动笔触：指针绘就数据的梦幻蓝图＜7＞

大家好啊，我是小象٩(๑ω๑)۶ 我的博客：Xiao Xiangζั͡ޓއއ 很高兴见到大家，希望能够和大家一起交流学习，共同进步。今天我们一起来学习转移表，回调函数，qsort… 目录一、转移表1.1 定义与原理1.3…

阅读更多...

声明式导航，编程式导航，导航传参，下拉刷新

声明式导航，编程式导航，导航传参，下拉刷新

1.页面导航 1.声明式导航 1.1跳转到tabBar页面 1.2跳转到非tabBar页面 1.2后退导航、 2.编程式导航 2.1跳转到tabBar页面 2.1跳转到非tabBar页面 2.3后退导航 3.导航传参 3.1声名式导航传参 3.2编程式导航传参 3.3在onLoad中接受参数 4.下拉刷新 4.1回顾下拉刷新…

阅读更多...

C++ Primer 递增和递减运算符

C++ Primer 递增和递减运算符

欢迎阅读我的【CPrimer】专栏专栏简介：本专栏主要面向C初学者，解释C的一些基本概念和基础语言特性，涉及C标准库的用法，面向对象特性，泛型特性高级用法。通过使用标准库中定义的抽象设施，使你更加适应高级…

阅读更多...

【C++高并发服务器WebServer】-13：多线程服务器开发

【C++高并发服务器WebServer】-13：多线程服务器开发

本文目录一、多线程服务器开发二、TCP状态转换三、端口复用一、多线程服务器开发服务端代码如下。 #include <stdio.h> #include <arpa/inet.h> #include <unistd.h> #include <stdlib.h> #include <string.h> #include <pthread.h>s…

阅读更多...

重生之我要当云原生大师（十一）访问Linux文件系统

重生之我要当云原生大师（十一）访问Linux文件系统

目录一、解释下文件系统、块设备、挂载点、逻辑卷。二、简述文件系统、块设备、挂载点、逻辑卷之间的关系？ 三、如何检查文件系统？ 四、挂载和卸载文件系统的流程？ 五、find命令都可以根据什么查找文件。一、解释下文件系统、块设备、…

阅读更多...

NetCore Consul动态伸缩+Ocelot 网关缓存自定义缓存 + 限流、熔断、超时等服务治理 + ids4鉴权

NetCore Consul动态伸缩+Ocelot 网关缓存自定义缓存 + 限流、熔断、超时等服务治理 + ids4鉴权

网关 OcelotGeteway 网关 Ocelot配置文件 {//单地址多实例负载均衡Consul 实现动态伸缩"Routes": [{// 上游》》接受的请求//上游请求方法,可以设置特定的 HTTP 方法列表或设置空列表以允许其中任何方法"UpstreamHttpMethod": [ "Get", &quo…

阅读更多...

星网锐捷 DMB-BS LED屏信息发布系统taskexport接口处存在敏感信息泄露

星网锐捷 DMB-BS LED屏信息发布系统taskexport接口处存在敏感信息泄露

星网锐捷 DMB-BS LED屏信息发布系统taskexport接口处存在敏感信息泄露漏洞描述福建星网锐捷通讯股份有限公司成立于2000年，公司秉承“融合创新科技，构建智慧未来"的经营理念，是国内领先的ICT基础设施及AI应用方案提供商。星网锐捷 DMB-BS LED屏信息发布系统taskexp…

阅读更多...

国产高端双光子成像系统的自主突破

国产高端双光子成像系统的自主突破

近年来，高端科研仪器的国产化受到越来越多的关注。在双光子成像系统这一关键领域，我们基于LabVIEW自主开发了一套完整的解决方案，不仅填补了国内空白，也在功能和性能上达到了国际领先水平。我们的目标是让国内科研机构和医疗行业拥…

阅读更多...

Python多版本管理

Python多版本管理

关注后回复 python 获取相关资料 ubuntu18.04 # ubuntu18 默认版本 Python 2.7.17 apt install python python-dev python-pip# ubuntu18 默认版本 Python 3.6.9 apt install python3 python3-dev python3-pip# ubuntu18 使用 python3.8 apt install python3.8 python3.8-dev#…

阅读更多...

详细教程 | 如何使用DolphinScheduler调度Flink实时任务

详细教程 | 如何使用DolphinScheduler调度Flink实时任务

Apache DolphinScheduler 非常适用于实时数据处理场景，尤其是与 Apache Flink 的集成。DolphinScheduler 提供了丰富的功能，包括任务依赖管理、动态调度、实时监控和日志管理，能够有效简化 Flink 实时任务的管理和部署。通过 DolphinSchedule…

阅读更多...

windows安装WSL完整指南

windows安装WSL完整指南

本文首先介绍WSL，然后一步一步安装WSL及Ubuntu系统，最后讲解如何在两个系统之间访问和共享文件信息。通过学习该完整指南，能帮助你快速安装WSL，解决安装和使用过程中的常见问题。理解WSL（Windows Subsystem for Linux…

阅读更多...

kafka专栏解读

kafka专栏解读

kafka专栏文章的编写将根据kafka架构进行编写，即先编辑kafka生产者相关的内容，再编写kafka服务端的内容（这部分是核心，内容较多，包含kafka分区管理、日志存储、延时操作、控制器、可靠性等），最后…

阅读更多...

【东莞常平】戴尔R710服务器不开机维修分享

【东莞常平】戴尔R710服务器不开机维修分享

1：2025-02-06一位老客户的朋友刚开工公司ERP服务器一台戴尔老服务器故障无法开机，于是经老客户介绍找到我们。 2：服务器型号是DELL PowerEdge R710 这个服务器至少也有15年以上的使用年限了。 3：客户反馈的故障问题为：…

阅读更多...

win10 llamafactory模型微调相关① || Ollama运行微调模型

win10 llamafactory模型微调相关① || Ollama运行微调模型

目录微调相关 1.微调结果评估 2.模型下载到本地导出转换，Ollama运行 1.模型转换（非常好的教程！） 2.Ollama 加载GGUF模型文件微调相关 1.微调结果评估【06】LLaMA-Factory微调大模型——微调模型评估_llamafactory评估-C…

阅读更多...

最新文章

推荐文章