【大模型系列】Video-LLaVA(2023.12)

【大模型系列】Video-LLaVA(2023.12)

news/2024/12/23 21:27:41/文章来源:https://blog.csdn.net/kabuto_hui/article/details/140911561

在这里插入图片描述

Paper：https://arxiv.org/pdf/2311.10122v2
Github：https://github.com/PKU-YuanGroup/Video-LLaVA
Huggingface：https://huggingface.co/spaces/LanguageBind/Video-LLaVA
Author：Bin Lin et al. 北大袁粒团队

文章目录

1 Video-LLaVA总结(省流版)
- 1.1 Video-LLaVA是什么?
- 1.2 Video-LLaVA能干什么？
- - 1.2.1 Image understanding
  - 1.2.2 Video understanding
2 Method
3 训练细节
4 相关数据
参考资料

1 Video-LLaVA总结(省流版)

1.1 Video-LLaVA是什么?

Video-LLaVA是北大袁粒团队提出的一个视觉理解模型，是他们之前工作的延申LanguageBind。
在这里插入图片描述
核心创新点： 通过将Image和Video特征隐射到一个统一的视觉空间进行对齐，得到统一的visual representation。

当前LLM模型的问题：

LLMs as scheduler： 视觉模型被作为即插即用模块，LLM根据特定的任务来schedule（VisualChatGPT、HuggingGPT、MM-REACT、ViperGPT），这些模型不需要端到端训练，也无需对每种模态进行联合和训练和对齐；
LLMs as decoder：
- MiniGPT-4：使用线性投影层将图像与文本对齐；这种对齐很弱且缺乏人类指令反馈；
- mPLUG-Owl：2阶段：先自回归将图像和文本对齐，再使用人类指令进行微调；
- InstructBLIP、LLaVA：使用人类指令数据集进行端到端训练；
- VideoChat、VideoLLaMA：通过联合训练来实现对齐，可同时处理图像和视频。

1.2 Video-LLaVA能干什么？

Video-LLaVA可以实现是视觉理解，即图像、视频问答：
在这里插入图片描述

1.2.1 Image understanding

在这里插入图片描述

1.2.2 Video understanding

在这里插入图片描述

2 Method

在这里插入图片描述

LanguageBind [也是他们组的工作]：
- 能从多种模态(image、video)中提取特征隐射到文本特征的空间；
- 使用ViT-L/14初始化(OpenCLIP)；
- 参数冻结
LLM： Vicuna-7B v1.5；
Projection layer： 2 fully connected layers；
Word embedding layer： LLaMA；

3 训练细节

Stage1 Understanding training：使用question+visual feature作为输入，answer作为gt；
- 558K LAION-CC-SBU image-text pairs
- 702k video-text pairs WebVid(Valley)
Stage2 Instruction tuning：对话轮数大于1时，需要concat之前所有的对话和回答作为输入；
- 665k image-text pairs LLaVA v1.5
- 100k video-text pairs Video-ChatGPT

数据处理方式：

Image： resize&crop，224x224
Video：均匀采样8帧，每帧处理与image一致

每个batch中随机组合image和videos:

Stage1： batchsize=256
Stage2： batchsize=128

4 相关数据

The images pretraining dataset is from LLaVA
The images tuning dataset is from LLaVA.
The videos pretraining dataset is from Valley
The videos tuning dataset is from Video-ChatGPT

Datasets	Baidu Disk	Size
Image pretraining	Link	25.48G
Image tuning	Link	66.44G
Video pretraining	Link	431.87G
Video tuning	Link	160.07G

参考资料

[1] LanguageBind
[2] LLaVA
[3] Valley
[4] Video-ChatGPT

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/391524.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

各地级市能源消费总量、夜间灯光值数据（2000-2022年）

各地级市能源消费总量、夜间灯光值数据（2000-2022年）

全国各地级市能源消费总量、夜间灯光值数据（2000-2022年） 数据年限：2000-2022年数据格式：excel 数据内容：337个地级市能源消费总量、夜间灯光值数据，包括城市、省份、年份、夜间灯光值（总和&am…

阅读更多...

基于pytorch的steam游戏评分的线性回归问题分析

基于pytorch的steam游戏评分的线性回归问题分析

前言相信已经暑假一个月的大家肯定并不陌生上面这个学习软件()，面对琳琅满目的游戏总是让人不知道挑选什么，这时候一个游戏的评分往往便成为了一个玩家选择下载的原因，那么今天我们就来研究研究，steam上一个游戏的种种数据&…

阅读更多...

【window10/window11】解决任务管理器有进程无法强制结束情况

【window10/window11】解决任务管理器有进程无法强制结束情况

以管理员身份启动控制台窗体，然后从任务管理器中查询到你要结束的进程名，然后运行以下命令（UniAccessAgent.exe替换成你要结束的进程）： wmic process where nameUniAccessAgent.exe delete 此方法可以解决在任务管理…

阅读更多...

快速体验LLaMA-Factory 私有化部署和高效微调Llama3模型（曙光超算互联网平台异构加速卡DCU）

快速体验LLaMA-Factory 私有化部署和高效微调Llama3模型（曙光超算互联网平台异构加速卡DCU）

序言本文以 LLaMA-Factory 为例，在超算互联网平台SCNet上使用异构加速卡AI 显存64GB PCIE，私有化部署Llama3模型，并对 Llama3-8B-Instruct 模型进行 LoRA 微调、推理和合并。快速体验基础版本，请参考另一篇博客：快…

阅读更多...

Animate软件基础：在时间轴中标识动画

Animate软件基础：在时间轴中标识动画

FlashASer：AdobeAnimate2021软件零基础入门教程https://zhuanlan.zhihu.com/p/633230084 FlashASer：实用的各种Adobe Animate软件教程https://zhuanlan.zhihu.com/p/675680471 FlashASer：Animate教程及作品源文件https://zhuanlan.zhihu.co…

阅读更多...

React--》掌握styled-components重塑React样式管理

React--》掌握styled-components重塑React样式管理

想象一下，如果你的React组件不仅能自描述其逻辑，还能直接声明自己的样式，这种“所见即所得”的编程体验是不是让人心动不已？styled-components正是这样一把钥匙，它彻底颠覆了我们对React样式管理的传统认知&#xff0c…

阅读更多...

CH571F蓝牙orUSB摇杆鼠标

CH571F蓝牙orUSB摇杆鼠标

演示视频： 短视频刷个爽程序基本上是基于官方的例程上改的，用到的例程有：蓝牙的HID_Mouse,USB的CompoundDev，还有ADC，按键中断。主要原理就是ADC采集采集摇杆电压，通过蓝牙HID或者USB的HID发送给电脑或…

阅读更多...

Java中操作文件

Java中操作文件

认识⽂件我们先来认识狭义上的⽂件(file)。针对硬盘这种持久化存储的I/O设备，当我们想要进⾏数据保存时， 往往不是保存成⼀个整体，⽽是独⽴成⼀个个的单位进⾏保存，这个独⽴的单位就被抽象成⽂件的概念，就类似办公桌…

阅读更多...

Parallels Desktop19让你的Mac无缝运行Windows！

Parallels Desktop19让你的Mac无缝运行Windows！

大家好，我是你们的科技小伙伴，今天我要给大家安利一款神奇的软件——Parallels Desktop 19虚拟机。这款产品真的是让我眼前一亮，用起来简直不能更爽！ 让我们来聊聊为什么我们需要一个虚拟机。想象一下，你是一个Mac用…

阅读更多...

多租户系统数据隔离方案

目录前言数据行数据表基于业务场景基于数据量数据库数据源表动态数据源前言多租户系统是一种将多个客户的数据和应用程序分开的系统，每个客户被视为一个独立的租户，互不干扰。实现多租户系统的关键之一是确保数据的隔离。数据隔离的…

阅读更多...

[云原生]三、Kubernetes(1.18)

[云原生]三、Kubernetes(1.18)

主要内容： 1、kubernetes 简介 2、kubernetes 集群搭建  方式搭建  二进制方式搭建 3、 kubeadm kubernetes 核心技术  YAML 文件详解  kubectl 命令工具  Pod  Label  Controller 控制器 …

阅读更多...

职业教育大数据实验实训室建设应用案例

职业教育大数据实验实训室建设应用案例

大数据作为一种重要的信息技术，对各行各业产生了深远的影响。职业教育作为培养应用型人才的摇篮，建设大数据实验实训室，对于提高学生的数据分析能力和解决实际问题的能力具有重要意义。唯众作为一家专注于教育技术领域的企业，凭借…

阅读更多...

从零开始：MySQL安装与配置完全指南

从零开始：MySQL安装与配置完全指南

前言哇，终于进入到令人激动的MySQL环节了它可以说是你编程生涯中的最佳朋友，因为它总是能存储你的数据，从不说：“我忘记了你的信息”。而且，它是免费的，不像一些昂贵的数据库，它从不让你的…

阅读更多...

量产部落SM2258XT开卡软件，SM2258XT主控128G SSD固态卡死修复

量产部落SM2258XT开卡软件，SM2258XT主控128G SSD固态卡死修复

故障现象：连接此固态硬盘后电脑就会卡死，拔掉重新连接概率性显示盘符，显示了之后也不能正常操作，一点击打开，电脑就立马卡死。解决过程：下载了很多款量产工具，都不能开卡成功，点击…

阅读更多...

Elasticsearch 未授权访问漏洞

Elasticsearch 未授权访问漏洞

Elasticsearch 未授权访问漏洞 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索…

阅读更多...

iAppv3无白银会员使用SDK

iAppv3无白银会员使用SDK

前言一个实用小技巧分享给大家。工具 iapp：百度或点我获取 Mt管理器：百度或点我获取教程 1.移出“项目路径/apk/lib/”内的全部文件 2.在iapp内测试打包，打包完成后直接返回，不要安装 3.在mt管理器里面点击“项目路径/b…

阅读更多...

【课程总结】Day18：Seq2Seq的深入了解

【课程总结】Day18：Seq2Seq的深入了解

前言在上一章【课程总结】Day17（下）：初始Seq2Seq模型中，我们初步了解了Seq2Seq模型的基本情况及代码运行效果，本章内容将深入了解Seq2Seq模型的代码，梳理代码的框架图、各部分组成部分以及运行流程。框…

阅读更多...

【大模型系列】LanguageBind(ICLR2024.01)

【大模型系列】LanguageBind(ICLR2024.01)

Paper：https://arxiv.org/abs/2310.01852Github：https://github.com/PKU-YuanGroup/LanguageBindHuggingface：https://huggingface.co/spaces/LanguageBind/LanguageBindAuthor：Bin Zhu et al. 北大袁粒团队文章目录 1 LanguageB…

阅读更多...

入门mem0.NET

入门mem0.NET

入门mem0.NET 安装包如果你的项目使用了EntityFrameworkCore,那么你可以跟随这个教程走 <ItemGroup><PackageReference Include"mem0.NET" Version"0.1.7" /><PackageReference Include"mem0.NET.Qdrant" Version"0.1.7…

阅读更多...

软件测试需要具备的基础知识【功能测试】---前端知识（一）

软件测试需要具备的基础知识【功能测试】---前端知识（一）

您好，我是程序员小羊！ 前言为了更好的学习软件测试的相关技能，需要具备一定的基础知识。需要学习的基础知识包括： 1、计算机基础 2、前端知识 3、后端知识 4、软件测试理论后期分四篇文章进行编写，这是第二篇 …

阅读更多...

最新文章

推荐文章