Hierarchical Modular Network for Video Captioning
- 发表:CVPR 2022
- 代码:HMN
- idea:现有方法在有监督学习的框架下比较生成句子与标注,没有对语义有详尽的探索。基于此,作者考虑从三个层面来连接视频特征和语义:(1实体级别,主要是caption中的objects;(2谓词级别,由caption中的谓词监督;(3句子级别,由整个caption监督
Method
1. Entity Module
- 用途:输入Faster R-CNN得到的L个object feature O O O,经过TransEncoder加强得到 O ′ O' O′,紧接着输入TransDecoder得到N个强化的object feature ε \varepsilon ε(目标是在caption中出现的object)。
Q Q Q是随机初始化的query,v是2D feature( C C C)和3D feature( M M M) concatenate经过BiLSTM得到的hidden states最大池化后的结果。
- 映射到linguistic semantic space
- entity Loss:caption中的名词与上述预测之间的距离
2. Predicate Module
- 这里是一个词组,通过对motion feature M M M 进行object注意,得到motion-related object feature M e M^e Me ,再将二者concatenate输入BiLSTM得到action feature A A A;
投影到linguistic semantic space
- Predicate Loss
3. Sentence Module
与action类似,只不过在BiLSTM的输入上有两个:context-related action feature C a C^a Ca 和 context-related object feature C e C^e Ce
4. Description Generation
输入是上述三种level特征的visual和linguistic feature的concatenation;
预测较为常规就是hidden state+linear
- 对于语料库的长尾分布问题,这里直接使用了ELM方法基于KL散度,有一个soft损失,最终的objective loss为:
从左至右分别为entity loss,predicate loss,sentence loss,caption loss,soft loss。
Experiments
- 小结:所以优雅的模型其实胜于复杂和详细设计的模型,简单实用更能吸引人。