CVPR 2023最佳论文候选出炉!武大、港中文、商汤等国内机构多篇入选

25fdf4d6c135e2d921229078dc3fcffd.gif

©作者 | 编辑部

来源 | 新智元

刚刚,CVPR 2023放榜12篇获奖论文候选,武大、港中文、港科大、上海人工智能实验室、商汤、华为等国内机构赫然在列。

今天,官方公布了12篇获奖论文候选。(占接受论文的0.51%,占提交论文的0.13%)

dc4ac7d18c069a38ca7cd4ce0de596d0.png

根据官网上统计数据,本次CVPR一共接受论文9155篇,录用2359篇,接受率为25.8%。

其中,235篇被评为Highlights。(占接受论文的10%,占提交论文的2.6%)

1. Ego-Body Pose Estimation via Ego-Head Pose Estimation

作者:Jiaman Li,Karen Liu,Jiajun Wu

机构:斯坦福大学

2f7f7e313b26e9eadd371d267cc67a0c.png

论文地址:https://arxiv.org/pdf/2212.04636.pdf

本文中,研究人员提出了一种新的方法,即通过自我-头部姿势估计的自我身体姿势估计(EgoEgo),它将问题分解为两个阶段,由头部运动作为中间表征来连接。EgoEgo首先整合了SLAM和一种学习方法,以估计准确的头部运动。

随后,利用估计的头部姿势作为输入,EgoEgo利用条件扩散,以产生多个可信的全身运动。这种头部和身体姿势的分离消除了对配对自我中心视频和三维人体运动的训练数据集的需要,使研究人员能够分别利用大规模自我中心视频数据集和运动捕捉数据集。

此外,为了进行系统的基准测试,研究人员开发了一个合成数据集AMASS-Replica-Ego-Syn(ARES),其中包括成对的自我中心视频和人类运动。在ARES和真实数据上,研究人员的EgoEgo模型的表现明显优于目前最先进的方法。

6f44b2eeb973d5469dca44408ab6800e.png


2. 3D Registration with Maximal Cliques

作者:Xiyu Zhang,Jiaqi Yang,Shikun Zhang,Yanning Zhang

3. OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

作者:Tong Wu,Jiarui Zhang,Xiao Fu,Yuxin WANG,Jiawei Ren,Liang Pan,Wenyan Wu,Lei Yang,Jiaqi Wang,Chen Qian,Dahua Lin,Ziwei Liu

机构:上海人工智能实验室,香港中文大学,商汤,香港科技大学,南洋理工大学

eda51006d55ad25493c86f7f6435f597.png

论文地址:https://arxiv.org/pdf/2301.07525.pdf

由于缺乏大规模的真实扫描三维数据库,最近在三维物体建模方面的进展大多依赖于合成数据集。

为了促进现实世界中3D感知、重建和生成的发展,研究人员提出了OmniObject3D,一个具有大规模高质量真实扫描3D物体的大型词汇3D物体数据集。

OmniObject3D有几个吸引人的特性:1)超大数据量:它包括190个日常类别的6000个扫描物体,与流行的二维数据集(如ImageNet和LVIS)共享共同的类别,有利于追求可通用的三维表征。2)丰富的注释:每个三维物体都由二维和三维传感器捕获,提供纹理网格、点云、多视角渲染图像和多个真实捕获的视频。3) 真实的扫描:专业扫描仪支持高质量的物体扫描,具有精确的形状和逼真的外观。

利用OmniObject3D提供的广阔探索空间,研究人员精心设置了四个评估基准:a)强大的3D感知,b)新视角合成,c)神经表面重建,以及d)3D物体生成。

afc54ec8cfe5f73a2624aca92df8e8de.png

4. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures

作者:Zhiqin Chen,Thomas Funkhouser,Peter Hedman,Andrea Tagliasacchi

机构:谷歌,西蒙菲莎大学,多伦多大学

e53469f8aaa49ea8ee5f940436ee9036.png

论文地址:https://arxiv.org/pdf/2208.00277.pdf

神经辐射场(NeRFs)在从新的视角合成三维场景的图像方面表现出惊人的能力。然而,它们依赖的专有体积渲染算法,与广泛部署的图形硬件的能力并不匹配。

本文介绍了一种新的基于纹理多边形的NeRF表征方法,它可以用标准渲染管道有效地合成新的图像。NeRF被表征为一组多边形,其纹理代表二进制不透明度和特征矢量。用Z型缓冲器对多边形进行传统的渲染,得到的图像在每个像素上都有特征,这些特征被运行在片段着色器中的一个小型的、依赖于视图的MLP解释,以产生最终的像素颜色。

这种方法使NeRF能够用传统的多边形光栅化管道进行渲染,它提供了大规模的像素级并行性,在包括手机在内的各种计算平台上实现了足以进行交互的帧率。

92c71d953384a567f6c9144c8ecbced0.png

5. DynIBaR: Neural Dynamic Image-Based Rendering

作者:Zhengqi Li,Qianqian Wang,Forrester Cole,Richard Tucker,Noah Snavely

机构:谷歌,康奈尔科技校区

89853e6b1d9dcce1dd6953342b26d1cf.png

论文地址:https://arxiv.org/pdf/2211.11082.pdf

本文中,研究人员提出了一种基于体积图像的渲染框架,该框架通过以场景运动感知的方式,来聚合附近的视点特征,从而合成新的视点。

研究人员的系统保留了先前方法的优点,即能够对复杂的场景和视点相关的效果进行建模,而且还能够从具有复杂场景动态和无约束相机轨迹的长视频中合成照片般真实的新视点。

结果证明,在动态场景数据集上,新方法比SOTA有明显改进。并且,还能应用于颇具挑战性的运动视频当中,此前的方法在这里都无法产生高质量的渲染。

edb36f30280dad68a7089c8ebf8b3c06.png

6. Planning-oriented Autonomous Driving

作者:Yihan Hu,Jiazhi Yang,Li Chen,Keyu Li,Chonghao Sima,Xizhou Zhu,Siqi Chai,Senyao Du,Tianwei Lin,Wenhai Wang,Lewei Lu,Xiaosong Jia,Qiang Liu,Jifeng Dai,Yu Qiao,Hongyang Li

机构:上海人工智能实验室,武汉大学,商汤

09b9851ce93f743fcc8740590700fa88.png

论文地址:https://arxiv.org/pdf/2212.10156.pdf

本文中,研究人员提出了一种全新的综合框架——统一自动驾驶(UniAD)。通过将全栈式的驾驶任务纳入一个网络,该框架可以利用每个模块的优势,并从全局角度为智能体交互提供互补的特征抽象。任务通过统一的查询接口进行通信,从而促进彼此的规划。

研究人员在具有挑战性的nuScenes基准上对UniAD进行了实例化。消融实验显示,新方法在各个方面的性能都大大优于此前的SOTA。

34215e2ccabdcfa5bcf928e89099a58c.png

7. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

作者:Nataniel Ruiz,Yuanzhen Li,Varun Jampani,Yael Pritch,Michael Rubinstein,Kfir Aberman

机构:谷歌,波士顿大学

55caa9be60ece7b2fe10aead6cf6b96b.png

论文地址:https://arxiv.org/pdf/2208.12242.pdf

在这项工作中,研究人员提出了一种新的「个性化」文本到图像扩散模型的方法。

只需输入少数几张主体的图片,就可以微调预训练的文本到图像模型,使其学会将独特的标识符与特定主体绑定。一旦将主体嵌入模型的输出域,就可以使用独特的标识符在不同场景中合成该主体的新的真实感图像。

通过利用模型中嵌入的语义先验以及新的自生类特定先验保留损失,新的方法使得在各种场景、姿态、视角和光照条件下合成主体成为可能,而这些条件在参考图像中并未出现。

3087b585c1573fc17d379fdefb0d0f75.png

8. On Distillation of Guided Diffusion Models

作者:Chenlin Meng,Robin Rombach,Ruiqi Gao,Diederik Kingma,Stefano Ermon,Jonathan Ho,Tim Salimans

机构:斯坦福大学,Stability AI,慕尼黑大学,谷歌

b0249a211ad77f9e0d94d6b21af50426.png

论文地址:https://arxiv.org/pdf/2210.03142.pdf

无分类器指导的扩散模型的一个缺点是,它们在推理时的计算成本很高,因为它们需要评估两个扩散模型,一个类别条件模型和一个无条件模型,需要数十到数百次。

为了解决这一局限性,研究人员提出了一种将无分类器指导的扩散模型提炼成快速采样的模型的方法。

给定一个预先训练好的无分类器指导的模型,首先学习一个单一的模型来匹配合并的条件和无条件模型的输出,然后逐步将该模型提炼成一个需要更少采样步骤的扩散模型。

a36f9dd3ee00da0d06bf8ac76b9027e6.png

9. Visual Programming: Compositional visual reasoning without training

作者:Tanmay Gupta,Aniruddha Kembhavi

机构:艾伦人工智能研究所

04e435c39944be41e508650215538bc5.png

论文地址:https://arxiv.org/pdf/2211.11559.pdf

研究人员提出了一种神经符号方法VISPROG,用于解决给定自然语言指令的复杂和组合性的视觉任务。

VISPROG使用大型语言模型的非文本学习能力来生成类似于python的模块化程序,然后执行这些程序以获得解决方案和一个全面的、可解释的理由。

生成的程序的每一行都可以调用几个现成的CV模型、图像处理子程序或python函数中的一个,以产生中间输出。

研究人员在4个不同的任务上展示了VISPROG的灵活性:组合式视觉问题回答、图像对的零点推理、事实知识对象标签和语言引导的图像编辑。

研究人员表示,像VISPROG这样的神经符号方法是一条令人兴奋的途径,可以轻松有效地扩大人工智能系统的范围,为人们可能希望执行的长尾复杂任务提供服务。

c3c4a303fe49ec14a9de98550e559fa5.png

10. What Can Human Sketches Do for Object Detection?

作者:Pinaki Nath Chowdhury,Ayan Kumar Bhunia,Aneeshan Sain,Subhadeep Koley,Tao Xiang,Yi-Zhe Song

机构:萨里大学

25db0c027d1baeceff6e2e14deae4b2a.png

论文地址:https://arxiv.org/pdf/2303.15149.pdf

草图,具有很强的表现力,本身就能捕捉到主观和细粒度的视觉线索。然而,当前对草图这种先天属性的探索仅限于图像检索领域。

论文中,研究人员尝试开发草图的表现力,而不是目标检测这一基本视觉任务。

研究人员首先对SBIR模型的草图和照片分支进行独立提示,在CLIP的泛化能力的基础上建立高度可泛化的Sketches和照片编码器。

然后,研究人员设计了一个训练范式,使编码器适用于物体检测,这样,检测到的边界款区域的嵌入,与SBIR的草图和照片嵌入对齐。

通过在标准目标检测数据集(如PASCAL-VOC和MS-COCO)上评估最新框架,可见在零样本设置上优于受监督(SOD)和弱监督目标检测器(WSOD)。

1865daa1e37092a6c3ab4386057ad7db.png

11. Data-driven Feature Tracking for Event Cameras

作者:Nico Messikommer,Carter Fang,Mathias Gehrig,Davide Scaramuzza

机构:苏黎世大学

97ec865f997f119eae557ac5af74ca18.png

论文地址:https://arxiv.org/pdf/2211.12826.pdf

现有的事件相机特征跟踪方法要么是人工制作的,要么是从第一性原理中推导出来的,但需要大量的参数调整,且对噪声敏感,由于未建模的效应,无法泛化到不同的场景。

为了解决这些不足,研究人员引入了第一个数据驱动的事件相机特征跟踪器,该跟踪器利用低延迟的事件来跟踪在灰度帧中检测到的特征。

通过直接从合成数据无缝转移到真实数据,新的数据驱动跟踪器在相对特征年龄上超过了现有方法高达120%,同时也实现了最低的延迟。通过使用一种新的自监督策略让跟踪器适应真实数据,这个性能差距进一步增加到130%。

710f401cb706f04751e993ff378ddb83.png

12. Integral Neural Networks

作者:Kirill Solodskikh,Azim Kurbanov,Ruslan Aydarkhanov,Irina Zhelavskaya,Yury Parfenov,Dehua Song,Stamatios Lefkimmiatis

机构:华为诺亚方舟实验室

97a76bdbf87a914c22c7ae6e9fef5fd6.png

论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Solodskikh_Integral_Neural_Networks_CVPR_2023_paper.pdf

研究人员介绍了一个新的深度神经网络系列。研究人员使用了沿过滤器和通道维度的连续层表征,而不是传统的网络层作为N维权重张量的表示。研究人员称这种网络为积分神经网络(INNs)。

特别是,INNs的权重被表示为定义在N维超立方体上的连续函数,而输入到各层的离散转换也相应地被连续的集成操作所取代。

在推理阶段,连续层可以通过数值积分求积法转换为传统的张量表示。这种表示允许网络以任意大小和各种离散化间隔对积分核进行离散化。

这种方法可用于直接在边缘设备上对模型进行剪枝,而在没有任何微调的情况下,即使在高剪枝率下也只会有小的性能损失。

为了评估提出方法的实际效益,研究人员在多个任务上使用各种神经网络架构进行了实验。

报告结果显示,所提出的INNs实现了与传统的离散对应物相同的性能,同时能够在不进行微调的高剪枝率(高达30%)下保持大致相同的性能(对于Imagenet上的ResNet18,精度损失为2%),而传统剪枝方法在相同条件下的准确性损失65%。

d408c5eba9d92dd41e884a37ae251cdc.png

参考资料:

https://cvpr2023.thecvf.com/Conferences/2023/AcceptedPapers

更多阅读

12ca4848e7eac4990e57fbb3b8bf73cd.png

fcba8a05b3819fe694163188cc73a137.png

fa5a790a9cef099caf9a75e2f7c4afea.png

b6981c96ee688dbcb26e55a7a92b66ea.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

70cfc424ba728df8e81917f9d3815344.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

·

·

62d280f2b73453f4063b0c85cbd79239.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57626.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

722上海隐语开源一周年Meetup!

凭借大数据、大算力的「大力出奇迹」,各类大模型「智能涌现」,再一次诠释了「数据是新时代的石油」。然而随着 ChatGPT 等各类大模型的应用,暴露出的隐私安全与数据要素流通问题引发广泛关注。数据流通与隐私安全的关键技术路径 —— 隐私计算…

开源不是商业模式

前几天,一篇名为《开源商业模式是个伪命题》的文章横空出世,看似犀利的观点却没有引起激烈的反驳。无论是开发专有软件的企业,还是重度投入到开源软件开发的企业,都认同开源本身并不是企业作为软件及服务提供商的商业模式。 行业当…

2023年十大新兴技术发布

在夏季达沃斯论坛(世界经济论坛第十四届新领军者年会)上,《2023年十大新兴技术报告》正式公布。 据介绍,《2023年前沿技术十大报告》旨在帮助各行业的专业人士预测可能出现指数级发展的技术,解读其影响、推动塑造产业和…

巴比特 | 元宇宙每日必读:美媒称,微软已解散仅成立四个月的工业元宇宙团队,约 100 名员工被解雇...

摘要:据美国科技媒体 The Information 2 月 9 日报道,一位直接了解此事的人士透露,微软仅成立四个月的工业元宇宙团队已经宣告解散,该团队的约 100 名员工已全部被解雇。微软在去年 10 月成立了工业元宇宙核心团队,从事…

精彩回顾 | Dev.Together 2022 开发者生态峰会圆满落幕

3 月 25 日,由SegmentFault 思否和开源社联合主办的 Dev.Together 2022 开发者生态峰会圆满落幕。来自国际科技巨头、云计算领军企业、高成长企业、开源基金会、技术社区的 44 位专家讲师,围绕开发者业务价值、开发者社区运营与增长、技术活动与技术布道…

被比尔盖茨选中的GPT技术,是如何演进,又革谁的命?

作者 | 智商掉了一地、Python 如果机器能够以类似于人类的方式进行理解和沟通,那会是怎样的情况?这一直是学界中备受关注的话题,而由于近些年来在自然语言处理的一系列突破,我们可能比以往任何时候都更接近实现这个目标。在这个突…

【汇正财经】大盘震荡收涨

盘面回顾: 今日沪指早上高开回落,午后再次向上翻红,深成指、创业板指盘中曾跌幅近1%,之后也有向上收窄跌幅动作,截止收盘沪指涨0.28%,深成指跌0.15%,创业板指跌0.31%。今日主力资金净流入氯碱工…

房屋建筑与装饰工程工程量计算新旧规范对比(二)

五、附录部分主要变化附录A 土石方工程1.项目划分  1)土方工程:挖基础土方拆分为:挖沟槽土方、挖基坑土方。   2)石方工程:石方开挖拆分为:挖一般石方、挖沟槽石方、挖基坑石方。   3)回填…

安装算量软件_跨工程复制工程量项、工程量数据

鹏业安装算量软件跨工程复制工程量项与工程量数据,用于不同工程之间数据借用 操作步骤 1.同时打开多个工程 2.选中需要复制项、图上计算图元 3.鼠标右键-复制 (带基点复制) 4.在对应位置-鼠标右键-粘贴 注意点: 可以同时打开多次软件 软件中的操作 1.打开多…

工程量计算稿1.54安装教程 v1.54pjb

对于工程预算的人员来说,有一款好的预算软件绝对是一个不可多得的事情,因此小编今天为大家带来了工程量计算稿软件破解版,这是这个软件系列中的1.54版本,附带的注册机能够完美的激活软件,亲测有效,可以免费使用所有功能,详细的安装教程,参考下文。这款软件主要还是用于…

土方量计算的准确作法

​现在说到土方量结算,绝大多数土木行业的人都说某某软件很方便,但是我要问到手算会吗,大多数人都会支支吾吾,虽然手算确实不现实,但是我们做为专业人员,总不能沦为软件使用者吧?其中的原理大家…

工程量计算稿1.55安装步骤 v1.55pjb

你是在还在用纸笔记录工程数字量?那你有没有计算错误的时候呢?中途修改肯定会很麻烦吧,那不如试试这款工程量计算稿,通过它用户可以随时随地修改其中一个数字,最终结果也会随之改变,非常方便快捷,计算速度比手工计算快2/3,避免了手工计算容易漏算的弊端,并在在核对后修…

怎么计算机械连接的工程量,结合GTJ2018,正确计算工程量

原标题:结合GTJ2018,正确计算工程量 柱/暗柱主要影响 1、为何我的柱/墙柱在基础插筋锚固区内的箍筋数量为 2、与首层计算的量不同,箍筋计算少了? 其实遇到这个问题不是软件计算的不对,是我们对平法理解的不够到位,平法16G101-3第66,有确定的说明柱基础插筋锚固区的箍筋计…

安装算量软件快速计算管道管件功能

鹏业安装算量软件管件功能,用于快速计算管道管件。 操作步骤 1.选中需要设置的管 2.点击管件 3.设置相关参数 软件中的操作 1.选中所需要布置的管件,如果所有都需要布置可以直接框选 2.点击管件功能按钮 3.在弹出的提示框中,设置布…

软件项目管理--软件工作量估算

软件项目管理 软件工作量估计 本章要点 估算过程概念估算方法成本预算案例分析课程实践 关于估算 估算不是很正确,有误差项目经验数据非常重要不要太迷信某些数学模型 软件项目规模 软件项目规模即工作量软件规划,软件管理,需求&#xff0…

如何快速将算量软件中的工程量提取到计价软件?

在全国地区广大鹏业软件用户中,有的用户既有鹏业算量软件、也有计价软件,那么如何快速将算量软件中的工程量提取到计价软件呢? 工程图纸变更、工程量变更、如何快速与计价软件同步呢? 鹏业云计价i20软件,一招教你搞定…

谈恋爱就是创业?程序员必看的恋爱秘籍,赶紧get起来吧

谈恋爱就是创业?程序员必看的恋爱秘籍,赶紧get起来吧 我注意到你的时候,你没注意到我 我爱上你的时候,你注意到我 我准备离开的时候,你爱上了我 好险,你喜欢我的时候我还喜欢着你 高中、大学、毕业、工作&a…

独立开发变现周刊(第94期):一个23岁小伙靠卖相框推文赚30万美元

分享独立开发、产品变现相关内容,每周五发布 (ezindie.com/weekly)。 目录 1、Zing by Trainn: 在几分钟内完成屏幕录制,编辑和发布产品视频2、v2exscrapy: v2ex爬取数据分析3、geektime_dl: 把极客时间装进 Kindle4、public-apis: 1400免费公开APIs集合…

“一晃 20 年,原来我所做的一切都是技术债务,你也一样……”

编译 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 身为一名程序员,相信大家或多或少都遇到过“技术债务”。 具体来说,这是开发团队为追求短期效益,选择了一个短时间内容易实现的方案——但从长远来看,未…

周大福珠宝熠彩,聚焦人生最佳女主角

掌控生活的每一个镜头,探索生命的大女主剧本。珠宝熠彩点缀成长之路,做自己人生电影的最佳女主角。 自信演绎 路过不同风景,沉淀时光的生命色彩。自信演绎岁月的张力,于荏苒时光热烈盛放。(周大福青春88系列18K金红玛瑙…