2022CVPR云分享 | 清华大学四位讲者带你玩转计算机视觉

点击蓝字

509b86eafe06396d3dc1065cbbb92ab4.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

7月20日晚上7点半,本期我们邀请到清华大学黄高老师实验室的四位讲者,为大家解读2022CVPR的优秀论文!

cdac1b495ce9bdf8debd5ddf6a384c9a.jpeg

哔哩哔哩直播通道

扫码关注AI TIME哔哩哔哩官方账号预约直播

e8db32015baf8ba7009f9d12ddba948f.gif

7月20日 19:30-19:50

bed262216a817412bd756d37586a5e53.gif

b5e45cabd9f49dd02e1d52bfe17b0eb8.png

讲者简介

王语霖:

清华大学自动化系直博三年级,研究方向为机器学习与计算机视觉,主要关注动态深度神经网络的设计与高效训练,以第一作者在国际高水平期刊或会议 TPAMI / NeurIPS / ICLR / ICCV / CVPR / ECCV 上发表8篇学术论文,曾获CCF-CV学术新锐奖、百度奖学金、国家奖学金等。个人主页:https://www.rainforest-wang.cool/

分享内容

AdaFocus:利用空间冗余性实现高效视频识别

报告简介

现有高效视频识别算法往往关注于降低视频的时间冗余性(即将计算集中于视频的部分关键帧)。我们的工作则发现,降低视频的空间冗余性(即寻找和重点处理视频帧中最关键的图像区域),同样是一种效果显著、值得探索的方法;且后者与前者有效互补(即完全可以同时建模时空冗余性,例如关注于关键帧中的关键区域)。在方法上,提出了一个通用于大多数网络的AdaFocus框架,在同等精度的条件下,相较现有方法将计算开销降低了2-3.6倍,将TSM的GPU实测推理速度加快了1.6倍。

7月20日 19:50-20:10

22ef518b2a8e7b24cd26c0f4291d68d0.gif

61bdf13436526e1b180da878e902190f.png

讲者简介

蒋昊峻:

清华大学自动化系直博二年级,以一作或共一身份发表2篇 CVPR 论文,以合作者身份发表过1篇 CVPR, 1篇 ICCV, 1篇 TIP。

分享内容

面向 Visual Grounding 任务的无监督伪语句生成

报告简介

Visual Grounding是视觉语言理解的一个重要课题,该任务需要根据自然语言语句(query)定位图像中的对象。常见的算法通常需要昂贵的手动标记图像与语句对(image-query pair)或图像区域与语句对(image region-query pair)。为了消除对人工注释的严重依赖,我们提出了一种名为 Pseudo-Q 的新方法,可以自动生成用于监督训练的伪语句(pseudo-query)。我们的方法利用现成的对象检测器从未标记的图像中识别视觉对象,然后使用伪语句生成模块以无监督方式获得对这些对象的语言表述。广泛的实验证明我们的方法有两个显着的优势:(1)可以显着降低人工注释成本,例如,在 RefCOCO 上降低 31%的标注成本;(2)在5个通过数据集上均超越最先进的弱监督方法。

7月20日 20:10-20:30

a6bdbc526b7b84210b7cd868fb34b900.gif

43055a9fe95274c64f714713dd1afc5d.png

讲者简介

潘旭冉:

清华大学自动化系直博四年级,研究方向为机器学习与计算机视觉,研究内容主要包括网络结构设计和3D计算机视觉,以第一作者(共同第一作者)在国际高水平会议 NeurIPS / CVPR / ECCV 上发表5篇论文。

分享内容

卷积与自注意力机制的高效结合

报告简介

卷积(Convolution)和自注意力(Self-Attention)模块是面向计算机视觉任务的网络结构设计中极为重要的组成部分。考虑到这两种模块存在较为互补的特点,许多工作尝试将他们进行结合,以此提高网络模型在各类任务上的效果。然而,目前的工作多数通过简单的串并联方式将两种模块进行结合,而忽视了他们之间的内在联系。在本文中,我们对两种模块的计算范式进行分解,发现其中存在相同的计算瓶颈,即1x1卷积。通过共享这些计算瓶颈,我们以最小的计算代价实现了两种模块计算范式的结合(ACmix)。实验表明,ACmix可以应用于多种主流计算机视觉模型中,并在图像分类,语义分割,目标检测等任务中显著提升原有模型的效果。

7月20日 20:30-20:50

90065a717a9089149f7d69993615bd38.gif

b4edc1ce9e4c1781a7c77b4596ed8eea.png

讲者简介

夏卓凡:

清华大学自动化系硕士二年级,以第一作者(共同第一作者)在CVPR上发表 2 篇论文

分享内容

可变形注意力的视觉Transformer

报告简介

Vision Transformer (ViT) 模型在各类视觉任务上都展现出了强大的性能。因其具有较大甚至增大到全局的感受野,ViT相比卷积神经网络(CNN)能更好地建模长距离依赖关系,也拥有更强的表示学习能力。特别是在大量训练数据的情况下,ViT可以更好地scale up到更大的容量的模型,达得SOTA的实验结果。但是,attention机制也是一把双刃剑,大量的key/value增加了不少计算量,使模型难于收敛,也增加了过拟合的风险。现有的工作现有工作采取了很多的稀疏化attention的办法,如Swin Transformer和PVT,但他们它们手工设计的attention模式容易将与任务相关的key和value信息丢弃。本文受卷积网络中Deformable convolution的启发,提出Deformable Attention Transformer (DAT),将可变形机制引入Attention计算,自动关注输入图像中的重要部分。具体地,DAT让所有query都跟同一组key和value交互,而通过对每个输入图像学习一组偏移量,移动key和value到重要的位置实现可变形的attention机制。这样增强了sparse attention的表征能力,同时具有线性空间复杂度。实验表明,DAT在图像分类、目标检测、语义分割等任务中展现了强大的性能。

直播结束后大家可以在群内进行提问,请添加“AI TIME小助手(微信号:AITIME_HY)”,回复“CVPR”,将拉您进“AI TIME CVPR交流群”!

13bfd588189d5fdd074592f3021e9a0c.gif

AI TIME微信小助手

15049b82c8c8a58231aacddb2d53de91.jpeg

主       办:AI TIME 

合作媒体:AI 数据派、学术头条

合作伙伴:智谱·AI、中国工程院知领直播、学堂在线、蔻享学术、AMiner、 Ever链动、科研云

往期精彩文章推荐

6aa6a522c55753106f7e76f2db098caa.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了700多位海内外讲者,举办了逾300场活动,超260万人次观看。

4370739f3e36ac9c9050ba630a48ce69.png

我知道你

在看

~

5259fb3396ce84a38ac50426cf0b9e14.gif

点击 阅读原文 预约直播!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65146.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【线上直播】SFFAI 99 期 数据扩增专题

会议简介 在计算机视觉任务中,数据扩增是一种基于较少数据、产生大量训练样本,进而提升模型性能的有效方法。传统数据扩增方法主要借助于图像域的翻转、平移、旋转等简单变换。而本期讲者王语霖提出了一种隐式语义数据扩增算法,对样本进行更…

【活动报名 | 青源Talk第3期】DenseNet发明者黄高:面向边缘设备的轻量神经网络...

活动议程 日期:12月10日(周四) 时间 主题19:00-19:05开场简介刘知远,清华大学计算机系副教授,智源青年科学家19:05-19:50《面向边缘设备的轻量神经网络》黄高,清华大学自动化系助理教授,智源青年…

不是所有图像都值 16x16 个词,可变序列长度的动态 Transformer 来了!

转自 | AI 科技评论 编辑 | 陈大鑫 最近半年,Transformer在视觉领域大获成功,其中的代表作就是谷歌的工作ViT:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》。 以ViT为代表的视觉Transformer通常将所有输…

国内有哪些不错的计算机视觉团队?

来源:深度学习技术前沿 编辑:Evans 【导读】计算机视觉是当前人工智能领域的超级热门,本文为大家总结了当前国内比较优秀的计算机视觉团队信息,希望能在大家申请硕士或者博士的过程中,提供一些参考信息! 作…

圆形的CNN卷积核?华中科大清华黄高团队康奈尔提出圆形卷积,进一步提升卷积结构性能!

作者丨小马 编辑丨极市平台 写在前面 目前正常卷积的感受野大多都是一个矩形的,因为矩形更有利于储存和计算数据的方便。但是,人类视觉系统的感受野更像是一个圆形的。因此,作者就提出,能不能将CNN卷积核的感受野也变成圆形呢&a…

深入浅出的模型压缩:你一定从未见过如此通俗易懂的Slimming操作

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨科技猛兽 编辑丨极市平台 导读 本文首先介绍了模型压缩领域的指标含义,并通过梳理文献,介绍了模型压缩领域常用的方法。随后对Slimming这一模型压缩方法进行了详细介绍&…

Dropout技术之随机神经元与随机深度

1. 写在前面 在学习复现EfficientNet网络的时候,里面有一个MBConv模块长下面这个样子: 当然,这个结构本身并不是很新奇,从resNet开始,几乎后面很多网络,比如DenseNet, MobileNet系列&#xff0…

如何做高质量研究、写高水平论文?| 黄高、王兴刚等共话科研与论文写作

如何产生好的研究思路?如何撰写一篇高质量论文?如何从浩如烟海的论文中寻找好的科研灵感?如何通过Rebuttal为自己的文章扳回一城?导师跟学生之间怎样才能形成更好的合作关系? 在ECCV 2022中国预会议的Panel环节&#x…

智源青年科学家黄高:面向高效推理的深度网络结构设计

随着深度学习在工业界的广泛应用,人们对模型的关注不仅仅在于其预测精度,同时也对计算和存储效率提出了更高的要求。在提升模型效率的诸多手段中,神经网络结构创新始终是最为有效的方式之一。 2019年12月24日上午,智源青年科学家、…

RANet:MSDNet加强版!清华黄高团队提出分辨率自适应的高效推理网络RANet!

关注公众号,发现CV技术之美 本文分享论文『Resolution Adaptive Networks for Efficient Inference』,由清华黄高团队提出分辨率自适应的高效推理网络RANet!MSDNet加强版! 详细信息如下: 论文链接:https://…

ICLR2021 | 清华大学黄高团队:显存不够?不妨抛弃端到端训练

智源导读:本文主要介绍清华大学黄高团队被ICLR2021接收的一篇文章:Revisiting Locally Supervised Learning: an Alternative to End-to-End Training。 论文链接:https://openreview.net/forum?idfAbkE6ant2 代码链接:https://g…

清华大学黄高——图像数据的语义层扩增方法

⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2020 年 9 月 25 日,在由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上&#xf…

DenseNet发明者黄高:动态模型好在哪里?

智源导读:自2012年至今,计算机视觉领域蓬勃发展,各种模型不断涌现,短短 8 年时间,计算机视觉领域便发生了天翻地覆的变化。那么如何看待过往变化,当下研究又如何? 12月10日晚,在【青…

对话 DenseNet 一作黄高:做有韧劲、能抗压、不断探索未知的科研

点击上方“计算机视觉工坊”,选择“星标” 干货第一时间送达 作者丨刘冰一 来源丨极市平台 清华大学助理教授、密集连接卷积网络 (DenseNet)提出者 、计算机视觉领域一作顶会论文被引次数最高的国内学者、百万青橙奖奖金获得者..... 这些标签…

测试工程师的好日子来啦?Testin发布AI测试产品,提升易用性和自动化效率

2019年10月26日,以"AI未来"为主题的第二届NCTS中国云测试行业峰会在北京国际会议中心正式开幕。在本次大会上,Testin 总裁徐琨正式发布测试业务Testin云测的全新AI产品iTestin。作为 Testin 人工智能战略中的重要一环,iTestin 融合…

【CodingNoBorder - 07】无际软工队 - 求职岛:ALPHA 阶段测试报告

无际软工队 - 求职岛:ALPHA 阶段测试报告 项目内容这个作业属于哪个课程2022年北航敏捷软件工程这个作业的要求在哪里团队项目-Alpha阶段测试报告我们在这个课程的目标是熟悉敏捷开发的方法论,并通过实际开发产品进行实践。这个作业在哪个具体方面帮助我…

pytest测试报告Allure - 动态生成标题生成功能、添加用例失败截图

一、动态生成标题 默认 allure 报告上的测试用例标题不设置就是用例名称,其可读性不高;当结合 pytest.mark.parametrize 参数化完成数据驱动时,如标题写死,其可读性也不高。 那如果希望标题可以动态的生成,采取的方案…

❀YOLOv5学习❀图像标注工具LabelImg的下载,配置和使用。

LabelImg是图形图像注释工具。它是用Python编写的,并将Qt用于其图形界面。批注以PASCAL VOC格式(ImageNet使用的格式)另存为XML文件。此外,它还支持YOLO格式。下载这个,主要是为了YOLOv5中,做自己的数据集&…

brat事件标注平台使用教程

事件图谱首先涉及到的是事件标注,我采用的是brat事件标注平台,该平台使用的是Linux系统,因为我的电脑是windows系统, 将brat安装在了linux虚拟机(Ubuntu)上。 一.下载与安装 1.下载brat 进入brat官网brat…

OpenAI 成近期顶流团队?如何使用 OpenAI 和 Node.js 构建 AI 图像生成器?

摘要: 12月7号,知名人工智能研究机构 Open AI 在Youtub上发布视频介绍使用OpenAI 和 DALL-E 模型创建一个网络应用程序,该应用程序将根据输入的文本从头开始生成图像。https://www.youtube.com/watch?vfU4o_BKaUZE 前言💖 大家好&#xff0…