【论文笔记】Visual Instruction Tuning

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Visual Instruction Tuning
作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023)
arxiv: https://arxiv.org/abs/2304.08485
项目主页: https://llava-vl.github.io/

基本信息

摘要

使用机器生成的指令遵循数据对大型语言模型（LLMs）进行指令微调已被证明可以提升新任务上的零样本能力，但在多模态领域这一想法探索较少。

我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。

通过对这些生成数据进行指令微调，我们引入了LLaVA：大型语言和视觉助手，这是一个端到端训练的大规模多模态模型，它将视觉编码器和LLM连接起来，以实现通用视觉和语言理解。

为了促进未来对视觉指令遵循的研究，我们构建了两个具有多样性和挑战性应用任务的评估基准。

我们的实验表明，LLaVA展示了令人印象深刻的跨模态聊天能力，有时在未见过的图像/指令上表现出多模态GPT-4的行为，并在一个合成的多模态指令遵循数据集上相对于GPT-4实现了85.1%的相对分数。

当在科学问答（Science QA）上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新最精确度。

我们将GPT-4生成的视觉指令微调数据、我们的模型和代码公开提供。

主要贡献

提出了一种视觉指令数据生成的方法流程
设计并训练了LLaVA，在Science QA上达到了SOTA
提出了一个有挑战性的多模态指令遵循Benchmark，LLaVA-Bench(COCO and In-the-Wild)
开源代码

GPT辅助视觉指令数据生成

基于COCO数据集，将其文本标签输入到GPT-4，构造出三类视觉指令数据：

Conversation，对话数据。以对话形式提出关于图像视觉内容的一系列问题，包括物体类型、计数物体、物体动作、物体位置以及物体之间的相对位置。
Detailed description，详细描述。对图像进行丰富而全面的描述。
Complex reasoning，复杂推理。深入推理问题，答案通常需要遵循严谨逻辑的逐步推理过程。

GPT辅助视觉指令数据生成

视觉指令调优

模型结构

LLaVA模型结构

Visual Encoder: CLIP ViT-L/14
Projection: Linear Layer w/o Bias
Language Model: Vicuna

训练流程

两阶段训练：

Stage 1 特征对齐预训练:
- 数据集: CC595K
- 🔥Projection
- ❄️Visual Encoder, Language Model
Stage 2 端到端微调训练:
- 数据集: Multimodal Chatbot, Science QA
- 🔥Projection, Language Model
- ❄️Visual Encoder

Benchmark

LLaVA Benchmark (COCO)。从COCO-Val-2014中随机选择了30张图像，每张图像生成上述三类问题，一共得到90个图像-指令对。
LLaVA Benchmark (In-the-Wild)。收集了24张多样化的图像，构造了共60个问题，为每张图像关联了一个高度详细且人工精选的描述并选择了适当的问题。

LLaVA Benchmark (In-the-Wild)