10年首次登顶!CVPR 2023大奖揭晓:上海AI实验室/武大/商汤破纪录夺魁,西工大斩获最佳学生论文...

954bc55bb7cdaf9fd87df1e5ea1b5d5f.jpeg


  新智元报道  

编辑:编辑部

【新智元导读】CVPR 2023大奖终于来了!上海AI实验室、武大、商汤科技联合提出的自动驾驶通用大模型斩获本届最佳论文,西北工业大学团队夺得最佳学生论文。中国原创AI实力闪耀国际顶会,华人科研团队大放异彩!

CVPR开奖了!

作为AI领域最有学术影响力的顶级会议之一,国际计算机视觉与模式识别会议(CVPR)今年的颁奖依然是万众瞩目。

今年共有5篇论文获奖。2篇最佳论文,1篇最佳学生论文,另外最佳学生论文提名和最佳论文提名也各1篇。

其中,上海AI实验室、武汉大学、商汤联手提出的Planning-oriented Autonomous Driving(以路径规划为导向的自动驾驶)一举夺得CVPR 2023最佳论文头冠。

39f2cf6f218dc4f9908ee6c329703c0d.jpeg

论文首次提出感知决策一体化的自动驾驶通用大模型「UniAD」,开创了以全局任务为目标的自动驾驶大模型架构先河,为自动驾驶技术与产业的发展提出了新的方向。

据悉,这也是近10年来计算机视觉三大顶级会议中(CVPR、ICCV、ECCV),第一篇以中国学术机构作为第一单位的最佳论文。

与此同时,来自西北工业大学的团队也摘取了CVPR 2023的最佳学生论文。

而去年由谷歌推出,并风靡AI圈的扩散模型Dreambooth,则获得了本届最佳学生论文提名。

最佳论文

CVPR 2023共计评选出2篇最佳论文。

第一篇最佳论文颁给上海AI实验室、武汉大学、商汤科技团队的Planning-oriented Autonomous Driving。

获奖理由:

该文章提出一个端到端的感知决策一体框架,融合了多任务联合学习的新范式,使得进行更有效的信息交换,协调感知预测决策,以进一步提升路径规划能力。

b455b000183058586493a48cb28e0f25.png

论文地址:https://arxiv.org/pdf/2212.10156.pdf

这是CVPR历史上第一篇以自动驾驶为主题的最佳论文。

d3cebde317b9cb8d48b8e9c872f10413.png

论文中,研究人员首次将感知、预测和规划等3大类主任务、6小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。

在nuScenes真实场景数据集下,UniAD的所有任务均刷新SOTA,尤其是预测和规划效果远超之前的最佳方案。

其中,多目标跟踪准确率超越SOTA 20%,车道线预测准确率提升30%,预测运动位移和规划的误差则分别降低了38%和28%。

UniAD的价值就在于,能更好地协助进行行车规划,实现「多任务」和「高性能」,确保车辆行驶的可靠和安全。

e3dd23fc472af96589b1d1b62eeb8958.png

另一篇最佳论文颁给AI2的CV研究团队Prior的「Visual Programming: Compositional visual reasoning without training」。

获奖理由:

解决了自然语言教学中的组成视觉推理任务,为视觉推理和神经符号研究提供了新的方向。

24cd90a6f73365baa0ca0252f293d61e.png

论文,研究人员中提出了VISPROG,一种根据自然语言指令解决复杂和组合视觉任务的方法。

只需要给出几个自然语言指令的示例和所需的高级程序,VISPROG使用GPT-3中的上下文学习为任何新指令生成一个程序,然后在输入图像上执行该程序以获得预测结果。

bb7a00718a2a1ef42b709709ce7d25b4.png

论文地址:https://arxiv.org/pdf/2211.11559.pdf

VISPROG还将中间的输出总结为可解释的视觉原理。

研究人员在一些任务上演示了VISPROG,这些任务需要组成一组不同的模块,用于图像理解和操作、知识检索以及算术和逻辑运算。

d969db74954474ba4b0add2621eb9d72.png

最佳学生论文

今年的「最佳学生论文」颁给了西北工业大学的「3D Registration with Maximal Cliques」。

获奖理由:

提出了一种解决点云配准基本问题的方法,该方法利用来自噪声点对应的兼容性图中的最大团约束。

72c99e7cb32203d53c4b3eae6437e4b0.png

3D点云配准(3D point cloud registration)是计算机视觉领域的一个基本问题,目的是寻找最优的点云对齐姿态。

这篇论文提出了一种基于最大团(maximal clique,MAC)的3D配准方法。

1ec34a26467c13fe17d1cc33304d806b.png

论文的核心思想就是放松先前的最大团约束,挖掘图中更多的局部共识信息,以准确地生成姿态假设:

1)构建相容图来呈现初始对应关系之间的亲和关系;

2)在图中搜索最大团,每个团代表一个一致性集合。然后执行节点引导的团选择,其中每个节点对应于具有最大图权重的最大团。

3)通过奇异值分解算法计算所选团的变换假设,并选择最佳假设进行配准。

86878302ed39f5f11ce41a089e974d5e.png

论文地址:https://arxiv.org/pdf/2305.10854.pdf

在U3M、3DMatch、3DLoMatch和KITTI数据集上进行的大量实验表明,MAC能够有效提高配准准确性,优于现有的各种主流方法,并且提升了深度学习方法的性能性能。

MAC与深度学习相结合,在3D Match/3DLoMatch上实现了95.7%/78.9%d SOTA配准召回率。

21dd74762ac517ae189c1912ff4cbbdd.png

最佳论文提名

「最佳论文提名」颁给来自谷歌和康奈尔大学的「DynIBaR: Neural Dynamic Image-Based Rendering」。

获奖理由:

对于具有复杂物体运动和不受控制的摄像机轨迹的长视频,在时空新颖视图合成方面向前迈出了重要一步。

b634069e91c9a7341d5856e314bc4fee.png

现场,只有2位获奖者上台领奖。引台下观众大笑的是,没到现场3位童鞋,他们便拉了一条横幅代替。

90f9f1ff09d57ee54d57635279feaa0e.png

以往,对于具有复杂物体运动和不受控制的摄像机轨迹的长视频,基于动态神经辐射场(即动态NeRF)的方法会产生模糊或不准确的渲染结果。

进而,限制了其在现实中的使用。

谷歌和康奈尔大学提出新的方法DynIBaR,通过采用基于volumetric的图像渲染框架,在场景运动感知的方式下,通过聚合附近视角的特征来合成新视角。

8b0ac9429f3c8eeb12c8c591adaa0fcb.png

论文地址:https://arxiv.org/pdf/2211.11082.pdf

该系统保留了之前方法的优点,能够模拟复杂场景和视角相关效果,同时能够从具有复杂场景动态和自由摄像机轨迹的长视频中合成逼真的新视角。

在动态场景数据集上,DynIBaR在比现有方法上取得了显著的改进。

791a0db0b73c5d32c5de77b345d9a395.gif

最佳学生论文提名

今年的「最佳学生论文提名」颁给了谷歌和波士顿大学的Dreambooth。

获奖理由:

显示了如何在文本条件下的图像生成扩散模型进行微调,以在新的背景、视角和艺术风格下仅使用少数图像样本生成目标对象,具有令人印象深刻的生成能力。

dca7ea1a687f4239eb2974e7cdb45661.png

Dreambooth强大之处在于,只需要你上传3-5张指定的物体照片,再描述下想要生成的背景、动作或者表情,便能让指定物体「闪现」你想要的场景。

5250312c811e365d4517a16429943835.png

具体来讲,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。

为此,研究人员提出了一种用稀有token标识符表示给定主题的方法,并微调了一个预训练、基于扩散的T2I框架,该框架分两步运行:

从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。

83bf13b51165b53d88b1c2b8e9c753e6.png

论文地址:https://arxiv.org/pdf/2208.12242.pdf

虽然Dreambooth是在Imagen基础上做的调整,但这一全新方法也适用其他的扩散模型。

32654bacaac2fa892c3e0fae9b5d8da2.png

Longuet-Higgins奖

Longuet-Higgins奖会颁发给经受了时间考验的一篇10年前的CVPR论文。

该奖以理论化学家和认知科学家H. Christopher Longuet-Higgins命名。

这届Longuet-Higgins奖颁发给了「Online Object Tracking: A Benchmark」。

998a34d30de24f081682a6d666cb59d9.png

fa147c3ef60a9447da7c213402641b41.png

青年研究员奖

青年研究员奖奖会颁发给在获得博士学位后7年内,对计算机视觉做出杰出研究贡献的一位或两位研究人员。

本届的青年研究员奖颁发给了Christoph Feichtenhofer和Judy Hoffman。

3625c0b282b4b60ad0526bcb01f01c97.png

d824b71c428c4b282f1aa86b67a60543.png

黄煦涛(Thomas S. Huang )纪念奖

黄煦涛(Thomas S. Huang )纪念奖会颁发给在研究、教学领域被公认为楷模的研究者。

最后的黄煦涛(Thomas S. Huang )纪念奖,颁给了Alyosha Efros。

c12b5677471e2ca1e851d57fc41f7bc4.png

这个奖项从2020年开始设立,是为了纪念已故的黄煦涛教授,一位在CV和图像处理领域做出大量贡献的先驱学者。

该奖项每年颁发给博士毕业后至少7年、最好是处于职业生涯中期的研究人员(博士毕业不能超过25年)。

4d0c2ff09e4cfaadd92e106e2123e58b.png

谷歌90+论文霸榜,CVPR 2023接收率新高

2月份,CVPR 2023曾公布了放榜率。

29de9b127af65599b60a7d74bb1d74ba.png

今年,CVPR论文接受和录用通通创下历史新高。

CVPR收到了创纪录的9155份论文(比CVPR2022增加了12%),并录用了2360篇论文,接收率为25.78%。

08e9d1be77829ac3195a28b98c9ff4ec.jpeg

另外,今年参会人数也创自疫情以来历史最高。大约8300多人参会,其中线下人数近7000。

2b6e3fd7d105b97082e8382c93dafb51.jpeg

前段时间,CVPR曾公布12篇入围本届最佳论文候选名单(Award Candidate),包括谷歌、上海AI实验室、斯坦福大学、康奈尔大学等在内的世界顶尖企业及机构的研究。

最佳论文等奖项如何脱颖而出,大会介绍了其中的流程:

区域主席提名31篇最佳论文

高级区域主席选出12篇候选论文

程序主席组成委员会,并进行最终讨论

58cb4382066aeceef859846683cf83d2.png

CVPR至尊地位,已经成为业界万众瞩目的一颗星。

根据Google Scholar,过去5年被引用最多的出版物中,CVPR位列第4。

d8c8cc236a20e06eac395d56eb349ccf.png

值得一提的是,今年谷歌在众多机构被接收的论文拔得头筹,大约有90篇论文。

就国内来看,中国机构获奖论文许久未见如此盛况。

在本届CVPR上,上海AI实验室以一篇最佳论文、一篇最佳论文候选、12篇入选「Highlight」名单的成绩,颇受瞩目。

另外,商汤、武汉大学、西北工业大学同样在本届CV顶会大放异彩。

CVPR 2050长什么样?

在获奖论文颁奖结束后,来自华盛顿大学的Yejin Choi教授畅想了一下,CVPR 2050可能是什么盛况?

(当然,前提是AGI还未实现,智械危机还未成真)

62e636af3b363289f52369a43f685c13.png

在那时,或许CVPR 2050的颁奖大会是在元宇宙中举行的。

d991936bb101c99705345f35e7e8cb07.png

又或者,我们那时已经成功移民火星,所以举办了第一届CVPR火星大会。

1698c093d318a49e60c630932609b50d.png

那时,或许整个CVPR都会在AI的掌握之中,由ChatGPT写论文,ChatGPT审论文,最后再由ChatGPT rebuttal。

扩散模型会生成演讲幻灯片,NeRF来负责演讲,最后由ChatGPT完成总结。

a90f9ffd50109870e0098dea697a8981.png

那时,最流行的学术话题还是few-shot prompting、指令微调、NeRF、Diffusion、Transformers吗?亦或是自动驾驶/清洁/通水管/带娃?

那时,大语言模型还会是时代的先锋吗?Scaling laws或许已经失效了。

而到2050年,我们很可能还没有实现LeCun所言的「狗级」人工智能,AGI依然远在5到10年之外,组合性原则依然未被解决。

a0a96e96ef7fb58abd3c69ea1a78567c.png

GPT 5/6/7或许已经达到了全知全能。

61f324399ca009bf7b05dee0c27ffa13.png

AGI可能在没有具身的情况下实现吗?RLHF真的能让LLM和真实对齐吗?Transformers真的能掌握组合性原则吗?

4b85a3f9df9e0aa34ccb48c547f3151c.png

这些问题,都得留给未来解答了。

参考资料:

https://twitter.com/CVPR/status/1671545306838626306

810e3f60c7a927a1d569febc9a48b6fe.jpeg

c04ee05d3a80edfd44e9e8023ca108f8.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30131.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软又向OpenAI狂砸100亿美元!巨头AI大棋下4年,谁是最大赢家?

视学算法报道 编辑:编辑部 【导读】AI领域群雄激战,到了2023年,微软逐渐显出了「赢家」的势头。 2023年刚开始,微软就显示出了AI领域「大赢家」的派头。 最近,大火的ChatGPT和微软之间,不断擦出火花。 微…

关于QTcreator总是卡死无响应解决办法

网上找了很多原因,但是最终定位到的是显卡不兼容,只需要以下设置一下就行。 方法1: 删除~\AppData\Roaming\QtProject文件夹,然后再打开Qt Creator即可。 Linux下,~是/home/YourUserName Windows下,~是C:\…

本地PostMan双击无响应解决方法

本地PostMan双击无响应解决方法 解决步骤 解决步骤 本地安装postman后,一直使用正常,现突然双击无响应,网上查了一些解决方法,可能是我本地自动更新导致此问题,以下是我解决的过程。猜想可能是高版本不稳定&#xff0…

程序员是最好的结婚对象选择?

更多内容关注公众号:matinal 大部分程序员都比较辛苦,比如你晚上加班到快通宵了,困得快睁不开眼了,女上司很关心,问你要不要吃宵夜。结果你没好气地说:宵夜就算了,能让我睡一觉就行了。女上司红…

女程序员被瞧不起?92年程序媛发帖晒薪资,网友:老妹你可以了

当下,是一个“向钱看,向厚赚”的社会。快节奏的生活下,家庭、工作各方面压力很容易使年轻人陷入迷茫和焦虑。 与其他行业相比,程序员的高薪让人羡慕。但是是女程序员大多数会被瞧不起,觉得没有那种头脑,我…

两个程序员在一起谈恋爱......?

在一起的第一天: 女程序员:亲爱的,加需求了,要不今晚视频聊天下次吧 男程序员:好的,好的我也是 在一起的第二天: 女程序员:宝贝,今天加班改BUG,可能不能陪你…

TUSHARE绘制股票分时图

1.注册网站https://tushare.pro/,获取积分 2. 点右上角的登陆,点击个人头像,复制token 3.调取模块,并加载你的token import tushare as ts pro ts.pro_api(你的token) 4.调取分钟数据 df ts.pro_bar(…

Twitter 能否预测股市?

http://www.guokr.com/article/62535/ Lithium锂 2011-09-06 20:30 今年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注 Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀(Paul Hawtin&#…

chatgpt给的代码时有bug的

今天时2023-4-19,我想获取上个季度的起始日期,就再chatgpt上问了下 from datetime import date, timedeltadef get_last_quarter_dates():today date.today()month (today.month - 1) % 3last_quarter_end date(today.year, month 1, 1) - timedelta…

解决 error: failed to push some refs to ‘https://github.com/mxp520/test-spring-cloud-base.git‘

在使用git对源代码进行push的到github时,可能会出现错误,如下图所示 出现错误的主要原因是github中的README.md文件不在本地代码目录中 可以通过如下命令进行代码合并【注:pullfetchmerge] 执行上面代码后可以看到本地代码库中多了README.md文…

如何搭建一个自己的 cli 脚手架

搭建脚手架的目的:快速搭建项目的基本结构并提供项目规范和约定。 搭建 cli 脚手架 1.npm init -y // 快速初始化一个项目 2.新建命令行的入口文件 /bin/cli.js #! /usr/bin/env node //用于解释程序的脚本console.log(Hello World!) //为了测试是否正常3…

GPT系列:GPT1 -> 2 -> 3 -> InstructGPT ->ChatGPT

2018年6月 GPT-1:【无监督预训练有监督微调】 大量数据(约5GB文本)上无监督训练,然后针对具体任务在小的有监督数据集上做微调; 关键词:“scalable, task-agnostic system”;8个GPU上训练一个月…

【通览一百个大模型】Anthropic LLM(Anthropic)

【通览一百个大模型】Anthropic LLM(Anthropic) 作者:王嘉宁,本文章内容为原创,仓库链接:https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型&NLP&算法】可获得博主多年积累的全部NLP、大…

chatgpt写小代码的能力很可以

最近做财务报销单时遇到了一点小问题:有11项比较零散的报销单,费用分别是 180 ,160 ,235,260,320,520,375 ,155,255,1050,135元&#…

TTS算法笔记:MusicLM- Generating Music From Text(AI生成音乐)

1. 介绍 摘要: 介绍了一个以文本作为条件,生成高保真、长时间片的音乐音频。比如文本为“由扭曲的吉他重复段伴奏的平静的小提琴旋律”,MusicLM可以可以根据文本条件,生成24kHz采样率,分钟级别的连续音乐音频。 从摘…

神经网络训练中的Tricks之高效BP(反向传播算法)

神经网络训练中的Tricks之高效BP(反向传播算法) zouxy09qq.com http://blog.csdn.net/zouxy09 Tricks!这是一个让人听了充满神秘和好奇的词。对于我们这些所谓的尝试应用机器学习技术解决某些问题的人,更是如此。曾记得&#xf…

Chainlink 预言机的原理解析

本文来自于 8 月19 日 Chainlink 开发者社区中国负责人 Frank ,在 DApp Learning 分享会上对于 Chainlink 预言机的原理的讲解,以下是这节分享会的总结内容。有兴趣的小伙伴可以结合视频一起学习: 为什么区块链无法主动获取外界数据 区块链…

预言机(Oracle)

文章目录 一、概述1.1、为什么需要1.2、应用场景1.3、现有的预言机产品1.4、基本原理 二、蚂蚁区块链 BaaS 平台–外部数据源服务三、主流预言机:Oraclize3.1 使用举例3.2 数据源3.3 收费3.4 真实性:3.5 解析助手3.6 加密查询3.7 原理 四、参考 一、概述…

第147篇 笔记-预言机(Oracle)

定义:区块链预言机是将区块链连接到外部系统的实体,从而使智能合约能够基于现实世界的输入和输出执行。 预言机为分散的 Web3 生态系统提供了一种访问现有数据源、遗留系统和高级计算的方式。去中心化预言机网络(DON)支持创建混合…

语音识别-TDNN

近来在了解卷积神经网络(CNN),后来查到CNN是受语音信号处理中时延神经网络(TDNN)影响而发明的。本篇的大部分内容都来自关于TDNN原始文献【1】的理解和整理。该文写与1989年,在识别"B", "D&…