【大模型系列】Video-LLaVA(2023.12)

在这里插入图片描述

  • Paper:https://arxiv.org/pdf/2311.10122v2
  • Github:https://github.com/PKU-YuanGroup/Video-LLaVA
  • Huggingface:https://huggingface.co/spaces/LanguageBind/Video-LLaVA
  • Author:Bin Lin et al. 北大袁粒团队

文章目录

  • 1 Video-LLaVA总结(省流版)
    • 1.1 Video-LLaVA是什么?
    • 1.2 Video-LLaVA能干什么?
      • 1.2.1 Image understanding
      • 1.2.2 Video understanding
  • 2 Method
  • 3 训练细节
  • 4 相关数据
  • 参考资料

1 Video-LLaVA总结(省流版)

1.1 Video-LLaVA是什么?

Video-LLaVA是北大袁粒团队提出的一个视觉理解模型,是他们之前工作的延申LanguageBind。
在这里插入图片描述
核心创新点: 通过将Image和Video特征隐射到一个统一的视觉空间进行对齐,得到统一的visual representation。

当前LLM模型的问题:

  • LLMs as scheduler: 视觉模型被作为即插即用模块,LLM根据特定的任务来schedule(VisualChatGPT、HuggingGPT、MM-REACT、ViperGPT),这些模型不需要端到端训练,也无需对每种模态进行联合和训练和对齐;
  • LLMs as decoder:
    • MiniGPT-4:使用线性投影层将图像与文本对齐;这种对齐很弱且缺乏人类指令反馈;
    • mPLUG-Owl:2阶段:先自回归将图像和文本对齐,再使用人类指令进行微调;
    • InstructBLIP、LLaVA:使用人类指令数据集进行端到端训练;
    • VideoChat、VideoLLaMA:通过联合训练来实现对齐,可同时处理图像和视频。

1.2 Video-LLaVA能干什么?

Video-LLaVA可以实现是视觉理解,即图像、视频问答:
在这里插入图片描述

1.2.1 Image understanding

在这里插入图片描述

1.2.2 Video understanding

在这里插入图片描述

2 Method

在这里插入图片描述

  • LanguageBind [也是他们组的工作]:
    • 能从多种模态(image、video)中提取特征隐射到文本特征的空间;
    • 使用ViT-L/14初始化(OpenCLIP);
    • 参数冻结
  • LLM: Vicuna-7B v1.5;
  • Projection layer: 2 fully connected layers;
  • Word embedding layer: LLaMA;

3 训练细节

  • Stage1 Understanding training:使用question+visual feature作为输入,answer作为gt;
    • 558K LAION-CC-SBU image-text pairs
    • 702k video-text pairs WebVid(Valley)
  • Stage2 Instruction tuning:对话轮数大于1时,需要concat之前所有的对话和回答作为输入;
    • 665k image-text pairs LLaVA v1.5
    • 100k video-text pairs Video-ChatGPT
      在这里插入图片描述

数据处理方式:

  • Image: resize&crop,224x224
  • Video:均匀采样8帧,每帧处理与image一致

每个batch中随机组合image和videos:

  • Stage1: batchsize=256
  • Stage2: batchsize=128

4 相关数据

  • The images pretraining dataset is from LLaVA
  • The images tuning dataset is from LLaVA.
  • The videos pretraining dataset is from Valley
  • The videos tuning dataset is from Video-ChatGPT
DatasetsBaidu DiskSize
Image pretrainingLink25.48G
Image tuningLink66.44G
Video pretrainingLink431.87G
Video tuningLink160.07G

参考资料

[1] LanguageBind
[2] LLaVA
[3] Valley
[4] Video-ChatGPT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/391524.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

各地级市能源消费总量、夜间灯光值数据(2000-2022年)

全国各地级市能源消费总量、夜间灯光值数据(2000-2022年) 数据年限:2000-2022年 数据格式:excel 数据内容:337个地级市能源消费总量、夜间灯光值数据,包括城市、省份、年份、夜间灯光值(总和&am…

基于pytorch的steam游戏评分的线性回归问题分析

前言 相信已经暑假一个月的大家肯定并不陌生上面这个学习软件(),面对琳琅满目的游戏总是让人不知道挑选什么,这时候一个游戏的评分往往便成为了一个玩家选择下载的原因,那么今天我们就来研究研究,steam上一个游戏的种种数据&…

【window10/window11】解决任务管理器有进程无法强制结束情况

以管理员身份启动控制台窗体,然后从任务管理器中查询到你要结束的进程名,然后运行以下命令(UniAccessAgent.exe替换成你要结束的进程): wmic process where nameUniAccessAgent.exe delete 此方法可以解决在任务管理…

快速体验LLaMA-Factory 私有化部署和高效微调Llama3模型(曙光超算互联网平台异构加速卡DCU)

序言 本文以 LLaMA-Factory 为例,在超算互联网平台SCNet上使用异构加速卡AI 显存64GB PCIE,私有化部署Llama3模型,并对 Llama3-8B-Instruct 模型进行 LoRA 微调、推理和合并。 快速体验基础版本,请参考另一篇博客:快…

Animate软件基础:在时间轴中标识动画

FlashASer:AdobeAnimate2021软件零基础入门教程https://zhuanlan.zhihu.com/p/633230084 FlashASer:实用的各种Adobe Animate软件教程https://zhuanlan.zhihu.com/p/675680471 FlashASer:Animate教程及作品源文件https://zhuanlan.zhihu.co…

React--》掌握styled-components重塑React样式管理

想象一下,如果你的React组件不仅能自描述其逻辑,还能直接声明自己的样式,这种“所见即所得”的编程体验是不是让人心动不已?styled-components正是这样一把钥匙,它彻底颠覆了我们对React样式管理的传统认知&#xff0c…

CH571F蓝牙orUSB摇杆鼠标

演示视频: 短视频刷个爽 程序基本上是基于官方的例程上改的,用到的例程有:蓝牙的HID_Mouse,USB的CompoundDev,还有ADC,按键中断。 主要原理 就是ADC采集采集摇杆电压,通过蓝牙HID或者USB的HID发送给电脑或…

Java中操作文件

认识⽂件 我们先来认识狭义上的⽂件(file)。针对硬盘这种持久化存储的I/O设备,当我们想要进⾏数据保存时, 往往不是保存成⼀个整体,⽽是独⽴成⼀个个的单位进⾏保存,这个独⽴的单位就被抽象成⽂件的概 念,就类似办公桌…

Parallels Desktop19让你的Mac无缝运行Windows!

大家好,我是你们的科技小伙伴,今天我要给大家安利一款神奇的软件——Parallels Desktop 19虚拟机。这款产品真的是让我眼前一亮,用起来简直不能更爽! 让我们来聊聊为什么我们需要一个虚拟机。 想象一下,你是一个Mac用…

多租户系统数据隔离方案

目录 前言 数据行 数据表 基于业务场景 基于数据量 数据库 数据源表 动态数据源 前言 多租户系统是一种将多个客户的数据和应用程序分开的系统,每个客户被视为一个独立的租户,互不干扰。实现多租户系统的关键之一是确保数据的隔离。 数据隔离的…

[云原生]三、Kubernetes(1.18)

主要内容: 1、kubernetes 简介 2、kubernetes 集群搭建  方式搭建  二进制方式搭建 3、 kubeadm kubernetes 核心技术  YAML 文件详解  kubectl 命令工具  Pod  Label  Controller 控制器 …

职业教育大数据实验实训室建设应用案例

大数据作为一种重要的信息技术,对各行各业产生了深远的影响。职业教育作为培养应用型人才的摇篮,建设大数据实验实训室,对于提高学生的数据分析能力和解决实际问题的能力具有重要意义。唯众作为一家专注于教育技术领域的企业,凭借…

从零开始:MySQL安装与配置完全指南

前言 哇,终于进入到令人激动的MySQL环节了 它可以说是你编程生涯中的最佳朋友,因为它总是能存储你的数据,从不说:“我忘记了你的信 息”。而且,它是免费的,不像一些昂贵的数据库,它从不让你的…

量产部落SM2258XT开卡软件,SM2258XT主控128G SSD固态卡死修复

故障现象:连接此固态硬盘后电脑就会卡死,拔掉重新连接概率性显示盘符,显示了之后也不能正常操作,一点击打开,电脑就立马卡死。 解决过程:下载了很多款量产工具,都不能开卡成功,点击…

Elasticsearch 未授权访问漏洞

Elasticsearch 未授权访问漏洞 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索…

iAppv3无白银会员使用SDK

前言 一个实用小技巧分享给大家。 工具 iapp:百度或点我获取 Mt管理器:百度或点我获取 教程 1.移出“项目路径/apk/lib/”内的全部文件 2.在iapp内测试打包,打包完成后直接返回,不要安装 3.在mt管理器里面点击“项目路径/b…

【课程总结】Day18:Seq2Seq的深入了解

前言 在上一章【课程总结】Day17(下):初始Seq2Seq模型中,我们初步了解了Seq2Seq模型的基本情况及代码运行效果,本章内容将深入了解Seq2Seq模型的代码,梳理代码的框架图、各部分组成部分以及运行流程。 框…

【大模型系列】LanguageBind(ICLR2024.01)

Paper:https://arxiv.org/abs/2310.01852Github:https://github.com/PKU-YuanGroup/LanguageBindHuggingface:https://huggingface.co/spaces/LanguageBind/LanguageBindAuthor:Bin Zhu et al. 北大袁粒团队 文章目录 1 LanguageB…

入门mem0.NET

入门mem0.NET 安装包 如果你的项目使用了EntityFrameworkCore,那么你可以跟随这个教程走 <ItemGroup><PackageReference Include"mem0.NET" Version"0.1.7" /><PackageReference Include"mem0.NET.Qdrant" Version"0.1.7…

软件测试需要具备的基础知识【功能测试】---前端知识(一)

​ ​ 您好&#xff0c;我是程序员小羊&#xff01; 前言 为了更好的学习软件测试的相关技能&#xff0c;需要具备一定的基础知识。需要学习的基础知识包括&#xff1a; 1、计算机基础 2、前端知识 3、后端知识 4、软件测试理论 后期分四篇文章进行编写&#xff0c;这是第二篇 …