2020年, video captioning论文汇总

目录

  • CVPR2020:ORG-TRL
  • CVPR2020:STG-KD
  • TIP2020:OSTG
  • TPAMI2020:SibNet(MM2018)
  • WACV2020:DSD
  • WACV2020:STaTS

CVPR2020:ORG-TRL

  • 题目
    Object Relational Graph with Teacher-Recommended Learning for Video Captioning
    下载链接
  • 动机
  • 贡献
  • 方法


  • 实验


CVPR2020:STG-KD

  • 题目
    Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
    下载链接
  • 动机
    已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考虑objects之间的交互,这样生成的captions缺乏可解释性。本文提出在空间和时间两个维度上考虑objects之间的关系。
  • 贡献
  1. 本文提出了新颖的时空图网络( spatio-temporal graph network),用于video captioning。
  2. 本文提出了基于对象感知的知识蒸馏机制(object-aware knowledge distillation mechanism),用于处理时空图网络中的noisy features。
  • 方法
    本文方法的整体框架如下图所示。其中,从Transformer到output之间存在一条线,作者为了图像清晰没有画出来。
  • 实验
    在MSR-VTT上的实验结果:

    在MSVD上的实验结果:

    在MSVD上的消融实验:

    一些实验结果,其中对比的方法出自ICCV 2019。

TIP2020:OSTG

  • 题目
    Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
    下载链接
  • 动机
    本文方法和STG-KD几乎一致,作者认为准确的video captioning需要不仅需要考虑整体内容和显著物体,还要考虑物体间的关系(时间+空间)。
  • 贡献
  1. 双向时间对齐(Bidirectional temporal alignment)。在两个时间方向上对objects进行对齐,可以实现互补。
  2. 基于图的空间关系学习(Graph based spatial relation learning)。使用图卷积捕获每帧中的物体之间的关系,将结果输入到后续的处理中,提高captions的准确性。
  3. 基于对象感知的特征聚合(Object-aware feature aggregation)。本文在物体的双向轨迹(the bidirectional trajectories of objects)上构造trainable VLAD(Vector of Locally Aggregated Descriptors),可以学到每个物体的具有判别力的特征。
  • 方法
    本文方法的整体框架如下图所示。其中,VLAD(vector of locally aggregated descriptors)出自
  • 实验
    在 MSVD数据集上的实验结果:

    在MSR-VTT上的实验结果:

    消融实验:

TPAMI2020:SibNet(MM2018)

  • 题目
    SibNet: Sibling Convolutional Encoder for Video Captioning
    下载链接
  • 动机
    现有的方法中,编码video的信息时,常使用“一条线”(a single flow),本文为了更好的编码video信息,提出了“两条线”(two-branch)方法。其中,第一个分支(内容分支,content branch)使用自编码器编码video的视觉内容。第二个分支(语义分支,semantic branch)使用视觉-语义嵌入编码video的语义信息。然后,使用soft-attention将二者联合,再使用RNN进行解码,得到最终输出。
  • 贡献
  1. 提出Sibling Convolutional Encoder (SibNet),由两个分支组成,内容分支负责捕获视觉信息,语义分支用于生成“特定语义 (semantic-specific)”的表示,这种表示可以捕获某些帧在语义上的重要性,为内容分支提供补充。
  2. 本文设计了新的损失函数,由三项组成,分别是:content loss、semantic loss、decoder loss。
  • 方法
    本文方法的整体架构如下图所示。

    上图中,TCB(temporal convolutional blocks)是本文提出的一个模块,其结构如下图所示。
  • 实验
    在MSVD上的实验结果:

    在MSR-VTT上的实验结果:

    消融实验:

    与其他模型的参数量对比:

    一些实验结果展示:

WACV2020:DSD

  • 题目
    Domain-Specific Semantics Guided Approach to Video Captioning
    下载链接
  • 动机
    这篇文章的出发点有些类似于Tracking中的MDNet,基于video features进行domain分类,对于每个domain都有一个语义特定的decoder。
  • 贡献
  1. 提出领域特定(domain-specific)方法,使用领域特定的语义tags进行video captioning。
  2. 提出一种同时使用视觉特征和语义特征对video进行domain分类的方法。
  3. 提出一种视频共享的方法生成不同domain的decoder。
  4. 提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的视频帧的描述符。
  • 方法
    本文方法的整体框架如下图所示。关于domain,本文使用tags进行聚类,得到多个domain。
  • 实验
    消融实验:

    在MSVD数据集上的实验结果:

    在MSR-VTT数据集上的实验结果:

    实验结果展示:

WACV2020:STaTS

  • 题目
    Spatio-Temporal Ranked-Attention Networks for Video Captioning
    下载链接
  • 动机
    本文从空间和时间的角度出发,提出在模型中同时添加两种不同的attention,并分两条线、两种顺序添加。第一条线是先S后T,另一条线是先T后S。并在第一条线上添加了本文提出的Ranked Attention。
  • 贡献
  1. 提出s-t和t-s模型,两条线可以实现互补。
  2. 提出ranked attention,使用LSTM对rank-SVM进行仿真。
  3. 实验表明达到了sota。
  • 方法
    本文方法的整体架构如下图所示。

    其中,ST模块的结构如下图所示。其中,Ranked Attention即为ST中的T。

    其中,TS模块的结构如下图所示。
  • 实验
    使用不同特征,在MSVD和MSR-VTT上的实验结果:

    在MSVD上与SOTA相比:

    在MSR-VTT上与SOTA相比:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37183.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习顶会论文投稿策略7步走(附资料)

科研论文,不同于毕业论文之处在于——科研论文是根据有价值的生产实践或科研课题写作的,具有原创性和独到性的论文。 在学术界,有人写论文是为了升硕士,升博士或者研究生博士顺利毕业。毕竟在学术界论文是工作和科研水平的直观体现…

最新最全论文合集——AAAI 历年最佳论文汇总

AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上…

论文分享:2020小样本学习综述

目录 题目与文章脉络S1 介绍1.1 FSL1.2 FSL应用场景1.3 FSL术语定义 S2 概述2.1 定义&分类&应用2.2 相关机器学习问题2.3 FSL核心问题2.4 FSL方法分类2.5 FSL方法研究现状 S3 数据3.1 数据扩充方法3.2 数据扩充方法的GAP S4 模型4.1 模型选择方法4.2 模型选择方法的GAP…

MICCAI2019论文分享 PART①

刚刚结束的 MICCAI2019 会议的论文集分为6个部分,这段时间刷了一遍 Part I,在这儿和大家做一个简单的分享交流 由于本人主要专注于分割领域和半监督弱监督等学习策略,下面给出的综述可能多涉及该方向。选出的文章主要突出其中的闪光点&#…

写论文有哪些神网站?

来源:https://www.zhihu.com/question/35931336 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:匿名用户https://www.zhihu.com/question/35931336/answer/66552275 1.学术网站大全推荐理由:包含…

分享几个写英文论文的网页和软件

多个批量修改英语写作语法错误的工具可以修改英文文章里的语法错误,修改效率极高,而且都是免费的。: 1.1Checker,使用地址:1Checker http://www.1checker.com/Home/Index 2.ginger http://www.gingersoftware.com/&…

你写论文时发现了哪些神网站?

周不润 ,神经科学 收录于 编辑推荐 • 18860 人赞同 神网站算不上,都是一些为写作带来便利的网站。而且作为一些最常用网站的替代品,这些网站有的更精确,有的更便捷。 (16.02.27 更新) 以下内容包括&#…

【论文推荐】了解《视频预测》必看的6篇论文(附打包下载地址)

论文推荐 “SFFAI135期来自中国科学院计算技术研究所博士在读的常峥推荐的文章主要关注于计算机视觉的视频预测领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。” 关注文章公众号 回复"SFFAI135"获取本主题精选论文 01 推荐理由…

MICCAI2021论文合集

2021年的MICCAI论文合集来了!!! 在官网下完了以下合集: 百度网盘链接: 如果有人搞Alzheimer disease classification的可以一起交流!!! 链接2022.08.19更新: 链接&am…

我是如何从头写一篇顶级论文的

Datawhale干货 作者:重剑无锋知乎,剑桥大学,编辑:极市平台 原文丨https://zhuanlan.zhihu.com/p/538681254 极市导读 关于一篇顶会论文是如何产生的这件事—且看作者为你娓娓道来,如何从一形成routine的日常科研生活…

分享一个ai写论文的网站

场景: 直接输入需求,输入问题即可 链接 https://chatgpt.sbaliyun.com/

用计算机套路别人,套路计算器隐藏版

套路计算器隐藏版是款非常适合撩妹的神器,各种整蛊玩法,套路你的女朋友,操作简单,不需要root免费使用,轻松的哄女朋友开心。 套路计算器隐藏版特色 1.在这里都可以跟你的好友们设定任何的计算套路。 2.在使用的时候看起…

哈工大未来计算机院士,2017年中国高校新增工程院院士名单出炉,哈工大依然很强!...

原标题:2017年中国高校新增工程院院士名单出炉,哈工大依然很强! 院士是一个国家在科学技术方面的最高称号,不光在我们国家有,其他很多国家也有院士称号。而我国的院士一般都是指中国工程院院士和中国科学院院士&#x…

DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成

论文标题:《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》 论文链接:https://arxiv.org/abs/2301.11305 代码数据:https://ericmitchell.ai/detectgpt/ 作者通过分析超大模型生成文章与人类文章的…

淘宝API,商品详情的测试及使用

为了进行淘宝的API开发,首先我们需要做下面几件事情。 1)开发者注册一个账号, 2)然后为每个淘宝应用注册一个应用程序键(App Key) 。 3)下载淘宝API的SDK并掌握基本的API基础知识和调用,具体…

淘宝原数据商品详情API调用示例

以下是行业内了解到的一些情况,本帖只展示部分代码,需要更多API调试请移步注册API账号登录 - 跨境电商平台接口提供商 数据采集公司 数据接口定制服务 企业级数据服务商 { "item": { "apiStack": [ { …

淘宝API应用调用官方买家信息数据

公共请求参数: API请求工具 名称 类型 必须 描述 method String 是 API接口名称,例如:taobao.user.buyer.get app_key String 是 TOP分配给应用的AppKey,例如:12345678 session String 否 用户登录授权成功后,TOP…

淘宝商品上传API接口

taobao.product.add( 上传一个产品,不包括产品非主图和属性图片 ) 淘宝商品上传API接口用于商品上传,一键铺货等应用(申请链接) 获取类目ID,必需是叶子类目ID;调用taobao.itemcats.get.v2获取 传入关键属性…

淘宝api开放平台SDK调用对接淘宝或天猫

如果在淘宝/天猫上开了网店,用户自己也有一套自己的管理平台,这时可能会考虑和淘宝进行数据对接。这就需要考虑调用阿里提供的开发接口来推送和接收数据。 对接的方式有2种,一种是通过http接口,另外一种是通过阿里提供的sdk&…