Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
相关工作
大型语言模型:
本文的工作基于这些LLM,并提供即插即用插件,使其能够理解视频中的视觉和听觉内容。
多模态大型语言模型:
现有的方法可以分为两大类。
第一类包括使用LLM作为控制器和利用现有的多模态模型作为工具。
当接收到用户的文本指令时,LLM识别出用户的注意力,并决定调用哪些工具。然后,它通过整合从这些现成的多模态模型中获得的结果,生成全面的响应。
第二类集中于训练基本的大规模多模态模型。
关键思想是将用于其他模态的预训练基础模型与文本LLM对齐。
本文的工作属于第二类,训练基本模型来理解视频中的视觉和听觉内容。
与之前专注于静态图像的视觉LLM不同&#