目录
- CVPR2020:ORG-TRL
- CVPR2020:STG-KD
- TIP2020:OSTG
- TPAMI2020:SibNet(MM2018)
- WACV2020:DSD
- WACV2020:STaTS
CVPR2020:ORG-TRL
- 题目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下载链接 - 动机
- 贡献
- 方法
- 实验
CVPR2020:STG-KD
- 题目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下载链接 - 动机
已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考虑objects之间的交互,这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
- 贡献
- 本文提出了新颖的时空图网络( spatio-temporal graph network),用于video captioning。
- 本文提出了基于对象感知的知识蒸馏机制(object-aware knowledge distillation mechanism),用于处理时空图网络中的noisy features。
- 方法
本文方法的整体框架如下图所示。其中,从Transformer到output之间存在一条线,作者为了图像清晰没有画出来。
- 实验
在MSR-VTT上的实验结果:
在MSVD上的实验结果:
在MSVD上的消融实验:
一些实验结果,其中对比的方法出自ICCV 2019。
TIP2020:OSTG
- 题目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下载链接 - 动机
本文方法和STG-KD几乎一致,作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体,还要考虑物体间的关系(时间+空间)。
- 贡献
- 双向时间对齐(Bidirectional temporal alignment)。在两个时间方向上对objects进行对齐,可以实现互补。
- 基于图的空间关系学习(Graph based spatial relation learning)。使用图卷积捕获每帧中的物体之间的关系,将结果输入到后续的处理中,提高captions的准确性。
- 基于对象感知的特征聚合(Object-aware feature aggregation)。本文在物体的双向轨迹(the bidirectional trajectories of objects)上构造trainable VLAD(Vector of Locally Aggregated Descriptors),可以学到每个物体的具有判别力的特征。
- 方法
本文方法的整体框架如下图所示。其中,VLAD(vector of locally aggregated descriptors)出自
- 实验
在 MSVD数据集上的实验结果:
在MSR-VTT上的实验结果:
消融实验:
TPAMI2020:SibNet(MM2018)
- 题目
SibNet: Sibling Convolutional Encoder for Video Captioning
下载链接 - 动机
现有的方法中,编码video的信息时,常使用“一条线”(a single flow),本文为了更好的编码video信息,提出了“两条线”(two-branch)方法。其中,第一个分支(内容分支,content branch)使用自编码器编码video的视觉内容。第二个分支(语义分支,semantic branch)使用视觉-语义嵌入编码video的语义信息。然后,使用soft-attention将二者联合,再使用RNN进行解码,得到最终输出。
- 贡献
- 提出Sibling Convolutional Encoder (SibNet),由两个分支组成,内容分支负责捕获视觉信息,语义分支用于生成“特定语义 (semantic-specific)”的表示,这种表示可以捕获某些帧在语义上的重要性,为内容分支提供补充。
- 本文设计了新的损失函数,由三项组成,分别是:content loss、semantic loss、decoder loss。
- 方法
本文方法的整体架构如下图所示。
上图中,TCB(temporal convolutional blocks)是本文提出的一个模块,其结构如下图所示。
- 实验
在MSVD上的实验结果:
在MSR-VTT上的实验结果:
消融实验:
与其他模型的参数量对比:
一些实验结果展示:
WACV2020:DSD
- 题目
Domain-Specific Semantics Guided Approach to Video Captioning
下载链接 - 动机
这篇文章的出发点有些类似于Tracking中的MDNet,基于video features进行domain分类,对于每个domain都有一个语义特定的decoder。
- 贡献
- 提出领域特定(domain-specific)方法,使用领域特定的语义tags进行video captioning。
- 提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
- 提出一种视频共享的方法生成不同domain的decoder。
- 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。
- 方法
本文方法的整体框架如下图所示。关于domain,本文使用tags进行聚类,得到多个domain。
- 实验
消融实验:
在MSVD数据集上的实验结果:
在MSR-VTT数据集上的实验结果:
实验结果展示:
WACV2020:STaTS
- 题目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下载链接 - 动机
本文从空间和时间的角度出发,提出在模型中同时添加两种不同的attention,并分两条线、两种顺序添加。第一条线是先S后T,另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。 - 贡献
- 提出s-t和t-s模型,两条线可以实现互补。
- 提出ranked attention,使用LSTM对rank-SVM进行仿真。
- 实验表明达到了sota。
- 方法
本文方法的整体架构如下图所示。
其中,ST模块的结构如下图所示。其中,Ranked Attention即为ST中的T。
其中,TS模块的结构如下图所示。
- 实验
使用不同特征,在MSVD和MSR-VTT上的实验结果:
在MSVD上与SOTA相比:
在MSR-VTT上与SOTA相比: