视觉与多模态大模型前沿进展 | 2023智源大会精彩回顾

导读

6 月 9 日下午,智源大会「视觉与多模态大模型」专题论坛如期举行。随着 stable diffusion、midjourney、SAM 等爆火应用相继问世,AIGC 和计算机视觉与大模型的结合成为了新的「风口」。本次研讨会由智源研究院访问首席科学家颜水成和马尔奖获得者曹越共同担任论坛主席,由北京交通大学教授魏云超主持。本论坛邀请了来自南洋理工大学、NVIDIA、智源研究院等国内外知名研究机构的顶尖学者共聚一堂,报告的内容涵盖生成模型、3D 视觉、通用视觉模型设计。以下是核心内容整理:

Drag Your GAN: Interactive Point-based Manipulation 

on the Generative Image Manifold

潘新钢 | 南洋理工大学计算机科学与工程系助理教授

图像编辑(Image Manipulation)一直以来火热的研究方向,而且具有很广泛的应用场景。现有的图像编辑主要有以下四类:

(1)基于全监督学习的模型,如InterfaceGAN;

(2)基于语义分割图的模型,如SPADE;

(3)基于人体关键点的模型,如HumanGAN;

(4)基于文本引导的模型,如Imagic。然而现有的这些模型缺乏对空间属性编辑的灵活性,准确性,通用性。以皮影戏为例,通过控制皮影人物的关键点,可以做出各种各样的动作。

6686ee8e152d584060d81299f906015a.png

为了让模型在具有利用关键点能力的同时,并可以在编辑图像时推理出被遮挡的区域,潘新钢教授团队提出了一种基于生成对抗网络(Generative Adversarial Networks,GAN)的实时交互式图像编辑模型Drag Your GAN。用户在图像上确定抓取点(Handle Point)和目标点(Target Point),将图像与点信息一起输入到生成器中获取隐向量(Latent Code),该模型通过使用多步式迭代并在每一步迭代过程中使用动态监督损失函数,逐步优化隐向量,直至抓取点逐步移动到目标点。此外,用户可以选择修改区域,只编辑区域内的部分。通过在多个数据集上验证,展现了Drag Your GAN模型强大的图像编辑能力。

4d6502b7c3f05d3570de10b6e944c9d0.jpeg

该报告介绍了通过交互式关键点拖拽的方式来编辑图像的生成式模型Drag Your GAN,改模型的核心为关键点动态监督和关键点跟踪。最后,潘新钢教授表示,通过文本引导和拖拽关键点相结合的方式将会引领图像编辑领域的未来。

将机器学习用于 3D 内容生成

高俊 | NVIDIA 研究科学家

7e13d72a4d88cba7dc63661d93ee9ead.png

人类生活在三维世界中,创作三维的虚拟数字世界,有助于人类更好地理解世界、解决现实生活中无法解决的问题。

生成的三维虚拟场景需要满足以下要求:

(1)物体数量足够多

(2)物体类型多样

(3)质量高,包含几何信息、纹理信息

工业界现有的依赖人工的三维世界创建方案要消耗大量人力物力,对操作者的能力要求较高,难以大规模扩展。Dreamfusion 等基于深度学习的三位视觉生成方法在几何和纹理细节生成方面仍有很大提升空间。 

三维生成模型主要面临两点挑战:

(1)构建适用于机器学习的三维表征,易在下游任务中使用,具有灵活多样的拓扑结构、纹理、材质

(2)构建高效、高质量、可控的三维生成模型,能够广泛利用二维数据

554523b1ce803b379366d7d91f3b7f06.png

「DMTet」提出了一种将神经场等隐函数与 mesh 网格表征相对应的方法,构建了可微的 iso surface,在利用 mesh 高精度、拓扑灵活、适合实时渲染等特性的同时,可以进行形状编辑,避免了离散化操作,利用深度学习生成方法得到了高质量 mesh 表征。 

在 3D 生成模型方面,为了借鉴 2D GAN 的成功,「Get3D」实现了基于光栅化的可微渲染,构建了强大的判别器;通过 Tri-Plane 技术构建了高质量的 3D 表征;将 DMTet 与 Nvdiffrast 结合,实现了高效的训练。

「Magic3D」将文本 prompt 作为输入,构建了一个由粗到精的生成框架。粗生成阶段使用低分辨率扩散模型,通过 InstantNGP 生成初始化几何特征;精细生成阶段使用高分辨率扩散模型通过 DMTet 实现 Mesh 渲染。该模型利用预训练好的 2D 图像扩散模型的知识,将其评分函数用于引导图像生成,使用可微渲染构建了 3D 和 2D 之间的桥梁,实现了高效、高精度、局部可控的 3D 图像生成。

高俊博士指出,未来研究者们可以探究如何将单个类别的物体生成扩展到多类别、通用物体生成;从物体生成扩展到场景生成;从静态内容生成扩展到动态内容生成。

通用视觉模型初探

王鑫龙 | 智源研究院研究员

对通用视觉智能的探索可以分为两个部分:

(1)视觉表征。抽象出视觉信号,并学习通用表征。

(2)视觉通才模型。训练可以解决开放场景下各类任务(例如,分类、检测、分割)的视觉通才模型。

「EVA」 模型是目前具有 billion 级别参数的最好的预训练模型,它将 CLIP 与 MIM 方法相结合,遮盖输入图像的一部分,并重建被遮盖部分的 CLIP 特征,通过 CLIP 特征提供高级别语义,通过掩码建模提供结构空间信息。

3e4ed8b7bc627f30899aeb2ee961396d.png

王鑫龙博士指出,扩展模型规模的目的在于使其具有以下三种能力:在经典任务(例如,ImageNet、ADE20k、COCO)上取得新的性能突破;解决以往难以解决的任务(例如,LVIS长尾识别);带来新的能力(例如,帮助 CLIP 更好地训练)。 

「EVA-CLIP」使用 EVA 预训练模型初始化图像编码器,通过 LAMB 优化器使模型训练收敛更快,并通过 FLIP 提升了训练效率。EVA-CLIP 5B 在 ImageNet-1K 上取得了 82% 的零样本分类精度,是当前最强的开源CLIP模型。

「Painter」旨在将分类、检测、分割、关键点检测、底层视觉等任务统一为输入图像输出图像的任务,在无需模型微调的情况下自动完成任务,并展现出新的能力,探索了一种通用的视觉任务借口,具备上下文视觉学习能力。该模型的架构为 ViT,通过回归损失监督训练。

「SegGPT」基于 Painter 实现了「分割一切」的能力,是对通用分割模型的探索。王鑫龙博士团队将语义分割、实例分割等各种分割数据汇聚起来,统一成小样本提示的上下文视觉训练样例。

32a7639c592bb4d5f33dd3534d7b44d2.png

王鑫龙博士指出,上述工作背后的思想是「统一的学习方法+可扩展的数据+大模型」。其中,最困难的是构建可扩展的数据。

「Emu」是一个能接收多模态输入、产生多模态输出的大模型,进行统一的多模态上下文学习。王鑫龙博士团队将图像、文本、交错图文、交错视频文本等数据统一成相同形式,进行多模态上下文学习,完成感知、推理、生成等任务。

Image, Video, and 3D Content Creation with Diffusion Models

Karsten Kreis | NVIDIA 高级研究科学家

Huan Ling | NVIDIA 研究科学家

扩散模型是一类基于评分的生成模型,近年来取得了令人瞩目的效果。目前,已有研究人员将扩散模型用于「文-图」、「文-3D」、「文-视频」生成,「3D 形状合成」、「3D 场景生成」等任务。

c34947d3667f037da134c0fc1c354798.png

「eDiff-I」使用集成的专家去噪器实现「文-图」生成扩散模型,它利用 T5 和 CLIP 作为文本编码器、利用 CLIP 作为图像编码器,并且在基础扩散模型之上添加了 2 个超分辨率模型,包含 9.1B 的参数。该模型在不同的合成阶段使用专家去噪器。

5a0609d6303eeb5c5bdba6cfe0ea02ec.png

「Magic3D」实现了高分辨率的「文-3D」内容生成。该模型使用Instant NGP 根据 2D 扩散模型实现了由粗到精的 3D 形状蒸馏。在第一个阶段,模型首先低分辨率先验优化神经场表征,从而得到粗模型。在第二阶段,模型进一步可微地根据强度和颜色场提取纹理 3D mesh,使用高分辨率潜扩散模型进行微调。

a9b5a5bc276813c739b99767c5a848a5.png

「LION」是一种层次化的基于点云的 3D 形状生成隐式点扩散模型。它首先通过扩散模型生成形状隐变量,再使用另一个以形状为条件的扩散模型生成隐式的点,进而将隐式点解码为点云,还可以通过将点构成形状重建平滑 mesh。

885d50ade8a5849beeeee60853a93645.png

「NeuralDield-LDM」使用层次化的隐扩散模型生成场景,它训练了一个场景的自编码器,通过使用强度和特征 voxel 在神经场中考虑相机姿态、深度编码场景的 RGB 图像。该模型训练了一个层次化的隐自编器,可以将神经场的 voxel 表征压缩到更小的隐空间,在隐自编码器的隐空间中拟合了一个层次化的隐扩散模型。

cec9f0cb181543ae17dbf15d1cb36940.png

「Align Your Latents」介绍了使用隐扩散模型生成高分辨率视频。在扩散模型中,去噪是一个随机过程。该工作通过视频微调在时序上对齐了图像 LDM,并降低了计算开销。在模型方面,该工作在空间层后加入了时序层。

 圆桌论坛

bbbb8798631e9e3975af26d38105c478.jpeg

魏云超 | 北京交通大学教授

王鑫龙 | 智源研究院研究员

潘新钢 | 南洋理工大学计算机科学与工程系助理教授

夏威 | 摩尔线程AI副总裁

高俊 | NVIDIA 研究科学家(连线)

  • 魏云超:针对当前的生成模型,Diffusion Model和GAN哪个模型表现更好?

潘新钢教授认为,两个模型各有优劣,但是Diffusion Model的上限更高,随着算力,硬件性能的提高,Diffusion Model的重要性会越来越大。

两个模型主要有以下三点不同:

1. 在计算需求方面,Diffusion Model需要很大的计算量,GAN虽然在生成质量上可能不比Diffusion Model,但是不要特别大的计算量,可以在硬件部署上达到实时生成。

2. 在图像分布连续性方面,由于Diffusion Model的迭代式计算带来的高度非线性,所以在一些任务上,如视频编辑,会出现跳变和抖动。但是GAN是通过单步计算,生成的图像会表现得更加连续。

3. 在可编辑性方面,基于GAN所得到的隐空间表现出更具有上下文语义的特征。通过对该空间进行编辑,使得图像具有很强的可编辑性。但是Diffusion Model是从耦合了空间信息的随机噪声图生成图像, 因此在可编辑性上相对不易控制。

高俊博士认为,GAN目前最大的局限是难以扩展到大数据训练,相比之下,Diffusion Model对大数据训练更加友好。另外,相比于Diffusion Model这种去噪的训练过程,GAN通过对抗学习的训练方式,可以更好地捕获单视角(2D)图像生成多视角(3D)图像中的空间关系。

夏威博士认为,GAN由于可以在特征隐空间进行操作,具有更好地可编辑性,但是限制了其更加通用的生成能力。是否能将GAN的对抗学习方式和特征空间的对齐特性用到Diffusion Model的训练过程中,提高其训练速度和可编辑性。

  • 目前像ChatGPT等大语言模型已呈现出百花齐放的状态,在绘图方面Stable Diffusion也表现惊人。但是目前在计算机视觉任务,还没有看到类似ChatGPT这样现象级应用,视觉模型在未来有没有可预见的破圈的应用方式?

目前在视觉模型没有出现现象级应用,与会专家认为主要在以下几个原因:

(1)目前的视觉任务(如分割、检测、分类等)往往是一些实际应用(如机器人、自动驾驶等)的中间任务,普通人不太在意在这些视觉任务上模型性能的提升。

(2)从算法到应用落地还有很长的过程,要用应用层面去思考如何让视觉模型出圈。

(3)移动互联网火起来归功于智能手机的发展,而目前视觉模型缺乏像智能手机这样的硬件接入模式。

对于基于视觉模型破圈的应用,与会专家认为未来可能会在以下几个方向:

(1)修图软件,利用类似“Drag Your GAN”模型编辑照片;

(2)元宇宙,在元宇宙中人、场景、内容等几个要素之间的交互;

(3)3D内容的生成,如动画、电影、游戏等;

(4)与大语言模型结合,视觉语言交互。

  • 我们目前似乎没有看到通用大模型的大量的涌现,大家觉得通用视觉模型现在发展的瓶颈在哪里?以及未来的突破方向可能在哪? 

针对目前通用视觉模型的发展瓶颈,与会专家认为主要有以下几点:

(1)如何获取更有价值的数据,十分重要;

(2)现有的视觉模型评价指标需要更新,仅仅靠在基准数据集上刷点已不足以让模型获取新的能力;

(3)相较于语言数据,视觉数据的信息密度很低。在相同的训练数据量下,语言模型可能回更快地看到涌现的效果。

针对通用视觉模型未来的突破方向,与会专家认为会在以下几个方面:

(1)跟大语言模型进行结合,构建多模态大模型;

(2)探究不同的视觉任务(如分割、检测、分类等)之间的联系,构建任务间统一的范式;

(3)将视觉模型拓展到一个开放世界(Open World),构建起一个世界模型(World Model),每个个体小模型通过蒸馏的方式与世界模型进行交互学习;

(4)探究视觉模型在长尾分布问题上的解决方案。

7376fd6bb0dbbf9ab234ccc9010cb782.jpeg

  • 模型在学习过程中不可避免地会遇到灾难性遗忘的问题,面向模型演化连续学习传统的连续学习任务一般会让模型0开始不断积累知识,但是在有了视觉或多模态大模型之后,模型本身已经囊括了互联网上非常非常多的知识,在这个背景下,以大模型为基础的模型演化有哪些值得研究的方向?

针对以大模型为基础的模型演化,与会专家认为有以下几个值得研究的方向:

(1)在模型参数量(模型容量)固定的情况下,如何让模型容纳更多的信息;

(2)探究使用较少的数据达到与使用全部数据训练相当的性能,即数据集蒸馏;

(3)在模型数据足够大的前提下,设计更好的路径选取方式已适用于特定任务。

(4)大模型的稀疏优化。

  • 在当今计算资源消耗越来越大,未来几年在学术界,特别是针对大部分高校的老师和学生缺乏计算资源,他们研究重心应该是什么?

潘新钢教授认为,(1)方法在大部分情况下是通用的,可以在负担得起的计算资源上验证方法的有效性;(2)有些任务并不依赖大模型,而且并不是所有的问题都要从头开始训练模型;(3)在未来,校企合作可能会成为更广泛的研究方式。

夏威博士认为,(1)把一些优化算法(如分布式训练、节约显存操作等)集成到研究当中;(2)在模型设计中减少冗余计算。

高俊博士除了赞同目前还有很多任务不依赖大模型这一观点外,还认为可以把一个大的研究问题分解成多个易于解决的小问题,这些小问题可以用有限的计算资源去解决。另外一个方面要提升代码的高效性。

- 点击“查看原文” ,观看完整大会视频回放 -

bb4efcd59709ffc1a410b21e927d0c7d.jpeg

具身智能与强化学习前沿进展丨2023智源大会精彩回顾

5310bc038e1a6ac669a0797706265e28.jpeg

大模型与人类的未来丨基于认知神经科学的大模型论坛精彩回顾

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41161.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【通览一百个大模型】GLM(THU)

【通览一百个大模型】GLM(THU) 作者:王嘉宁,本文章内容为原创,仓库链接:https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型&NLP&算法】可获得博主多年积累的全部NLP、大模型和算法干货资…

【论文写作】《ChatGPT六步提问法:你若诚心发问,它会给你一篇惊艳论文!》- 知识点目录

《ChatGPT六步提问法:你若诚心发问,它会给你一篇惊艳论文!》

chatgpt赋能python:10年Python编程经验带你畅玩Python编程游戏APP

10年Python编程经验带你畅玩Python编程游戏APP Python是一种高级编程语言,具有易懂、易学、易用等特点,被广泛应用于科学计算、数据处理、Web开发和人工智能等领域。而Python编程游戏APP则是近年来Python社区中新兴的一类应用,它以游戏化的方…

chatgpt赋能python:Python搜题app:提高学习效率的利器

Python搜题app:提高学习效率的利器 在学习过程中,遇到难题是不可避免的。而如何高效地解决这些问题呢?Python搜题app应运而生,它是一款基于Python编写的提高学习效率的利器。在这篇文章中,我们将介绍这款神奇的搜题ap…

chatgpt赋能python:有没有可以搜Python题目的软件?

有没有可以搜Python题目的软件? 如果您是一名Python程序员,您可能会发现在项目中遇到过各种各样的编码问题。与此同时,您也可能希望在不同的练习和考试中提高您的编程能力。在这些情况下,您需要一个便捷的方式来寻找Python编程问…

chatgpt赋能python:使用Python进行题目搜索:提高效率,精确切中目标

使用Python 进行题目搜索:提高效率,精确切中目标 在当今数字时代,互联网上充斥着大量的资料和文献,其中包括数以百万计的题目。对于学生和研究人员来说,题目是学习和研究的重要组成部分。然而,由于海量题目…

chatgpt赋能python:在哪里搜Python题

在哪里搜Python题 介绍 Python已经成为了最受欢迎的编程语言之一。Python的简洁性和易于学习使得它非常适合初学者和专业程序员。如果你正在寻找有趣的python题,有很多网站提供了丰富的题目和挑战。 这篇文章将会介绍一些最受欢迎的Python问题网站和有用的工具&a…

chatgpt赋能python:Python刷题:大有可为

Python刷题:大有可为 当谈到编程语言的多功能性时,Python是绝对的佼佼者。而且,还有机会用它来提高技术能力和找到新的工作机会。最佳的方法是通过关键词搜索寻找Python刷题网站,这些网站包含了各种不同难度和类型的问题。 为什…

chatgpt赋能Python-python123变成一二三

Python123变成一二三:Python编程入门推荐网站 介绍 Python是一种高级编程语言,由于其简单易学、代码清晰简洁、生态丰富等特点,在全球范围内被广泛应用于各个领域。如果你是一名编程初学者,那么Python绝对是一个非常不错的选择。…

chatgpt赋能Python-python_noj

Python NOJ - 一款适合Python学习者的在线编程环境 Python NOJ是一款在线的Python编程环境,其全称为Python Online Judge,是一款适合Python学习者使用的编程工具。接下来,我们将介绍其主要特点和优势,并探讨其与其他在线编程环境…

chatgpt赋能python:Python题库搜索:你必须知道的关键点和实用技巧

Python 题库搜索:你必须知道的关键点和实用技巧 作为一名拥有 10 年 Python 编程经验的工程师,我曾经多次遇到需要寻找 Python 题库的情况。在本文中,我将与大家分享一些有帮助的技巧和工具,以便更轻松地寻找 Python 题库。通过本…

这些IT行业趋势,将改变2023

上一周,你被"AI"刷屏了吗? 打开任何一家科技媒体,人工智能都是不变的热门话题。周初大家还在用ChatGPT写论文、查资料、写代码,到周末的时候大家已经开始用GPT-4图像识别来做饭、Microsoft 365 Copilot 来写PPT了。 GP…

在文档内容搜索这件事情上,它能比 ChatGPT 做的更好

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 自 OpenAI 开放 GPT3.5/4 的 API 接口以来,不少人开始基于它来搭建本地知识库,并尝试用 AI 训练自己的客服系统、智能助理、法律或金融顾问等等。 但是,…

chatgpt赋能python:如何快速复制粘贴Python代码?

如何快速复制粘贴Python代码? 如果你是一名有10年Python编程经验的工程师,那么你一定知道Python的优点之一是它所拥有的简洁而优美的语法。然而,当你需要复制大量的Python代码时,手动复制粘贴会浪费很多时间和精力。 在本文中&a…

两年网罗13位扫地僧,阿里达摩院最新架构完整曝光

谁在驱动达摩院? 阿里达摩院,这是马云一手发起创办、并且是退休前最看重的人才聚集地。 号称要 3 年投入超1000 亿人民币,重点进行基础科学和颠覆式技术创新研究。 如今,2年已过,达摩院驱动下,阿里也有了新…

Github账户开启双重验证(two-factor authentication)

GitHub官方教程是这个:https://docs.github.com/en/github/authenticating-to-github/configuring-two-factor-authentication 但是过程没那么简单,先说一下大概: 大概是鼠标点头像旁边的小箭头,出现下图,然后点击Se…

IOS学习之——mac 图片无法在windows 显示(黑图的问题)

很多想要把mac png图片传给window 电脑上无法正常显示,有的显示白图,有的显示黑图,其实很简单,http://bbs.feng.com/read-htm-tid-3598951.html 打开这个网址 下载其中的内容, 转换一下就可以显示了。 显示效果如图

mac修改用户头像时显示照片图库未找到图片

上次重装系统后,导入时间机器的备份后,会有两个照片图库。或者不小心把原来的照片图库删了,之后再重新创建照片图库。这两种情况在修改用户头像的时候(包括修改苹果ID账号的头像)都会发现找不到默认的照片图库路径了&a…

Github 图床无法正常显示图片-解决

Github 图床无法正常显示图片-解决 前 言:此篇为上次搭建的 Typora PicGo Github 笔记系统续篇,解决 Github 图床无法正常显示图片问题。 方案一:补充本地的hosts文件 (此前已设置过的请看方案二) 1、打开文件&am…

Mac上浏览器无法联网的解决方法

最近更新了macOS Monterey 12.6.2,更新完之后发现自带的Safari浏览器与Google浏览器连不了网了,而其他应用程序依旧可以正常使用。排查一些原因后发现是DNS故障。下面提供解决方法。 步骤一: 桌面点击前往,选择前往文件夹 步骤二&…