华人一作DragGAN爆火!拖动你的GAN:交互式图像编辑新高度

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【GAN和扩散模型】微信技术交流群

转载自:机器之心 | 编辑:蛋酱、小舟

如果甲方想把大象 P 转身,你只需要拖动 GAN 就好了。

在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比 GAN 方法更易于控制,这是 GAN 式微的原因之一。

当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。

最近,来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN,能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。

a01e62632ac286543e0390f392eb0352.png

代码:https://github.com/XingangPan/DragGAN

  • 论文链接:https://arxiv.org/abs/2305.10973

  • 项目主页:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

这种全新的控制方法非常灵活、强大且简单,有手就行,只需在图像上「拖动」想改变的位置点(操纵点),就能合成你想要的图像。

例如,让狮子「转头」并「开口」:

09eba7e1eb5b13bfe3636effc5a153bb.gif

还能轻松让小猫 wink:

2602f2d40c58f3542fbd28ad7ee209e9.gif

再比如,你可以通过拖动操纵点,让单手插兜的模特把手拿出来、改变站立姿势、短袖改长袖。看上去就像是同一个模特重新拍摄了新照片:

如果你也接到了「把大象转个身」的 P 图需求,不妨试试:

19ccc0a7b6e531a6dd8bf71d269de8cb.gif

0fa537c462dcf5755a58341a95f52304.png

1dba1d79f264efa96530a0d2d3d23590.png

整个图像变换的过程就主打一个「简单灵活」,图像想怎么变就怎么变,因此有网友预言:「PS 似乎要过时了」。

34eada9fc56518ac0293635378cb4d31.png

也有人觉得,这个方法也可能会成为未来 PS 的一部分。

0ea3529d66e5baf695c14f1908b41549.png

总之,观感就是一句话:「看到这个,我脑袋都炸了。」

b0e3670538de53da355ecd9a620bc278.png

当大家都以为 GAN 这个方向从此消沉的时候,总会出现让我们眼前一亮的作品:

3fad208519d34770f850e85712f76f1a.png

这篇神奇的论文,已经入选了 SIGGRAPH 2023。研究者表示,代码将于六月开源。

684473f5e122d2c78c61ee731a0729f7.png

那么,DragGAN 是如何做到强大又灵活的?我们来看一下该研究的技术方法。

方法概述

该研究提出的 DragGAN 主要由两个部分组成,包括:

  • 基于特征的运动监督,驱动图像中的操纵点向目标位置移动;

  • 一种借助判别型 GAN 特征的操纵点跟踪方法,以控制点的位置。

DragGAN 能够通过精确控制像素的位置对图像进行改变,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。

GAN 有一个很大的优势是特征空间具有足够的判别力,可以实现运动监督(motion supervision)和精确的点跟踪。具体来说,运动监督是通过优化潜在代码的移位特征 patch 损失来实现的。每个优化步骤都会导致操纵点更接近目标,然后通过特征空间中的最近邻搜索来执行点跟踪。重复此优化过程,直到操纵点达到目标。

DragGAN 还允许用户有选择地绘制感兴趣的区域以执行特定于区域的编辑。由于 DragGAN 不依赖任何额外的网络,因此它实现了高效的操作,大多数情况下在单个 RTX 3090 GPU 上只需要几秒钟就可以完成图像处理。这让 DragGAN 能够进行实时的交互式编辑,用户可以对图像进行多次变换更改,直到获得所需输出。

97ff41cedf7c8004a8bb0f6d5b617d9d.png

如下图所示,DragGAN 可以有效地将用户定义的操纵点移动到目标点,在许多目标类别中实现不同的操纵效果。与传统的形变方法不同的是,本文的变形是在 GAN 学习的图像流形上进行的,它倾向于遵从底层的目标结构,而不是简单地应用扭曲。例如,该方法可以生成原本看不见的内容,如狮子嘴里的牙齿,并且可以按照物体的刚性进行变形,如马腿的弯曲。

13ddd83516f6afa244d5baaeea603aa0.png

研究者还开发了一个 GUI,供用户通过简单地点击图像来交互地进行操作。

此外,通过与 GAN 反转技术相结合,本文方法还可以作为一个用于真实图像编辑的工具。

一个非常实用的用途是,即使合影中某些同学的表情管理不过关,你也可以为 Ta 换上自信的笑容:

39b6ff3aaafb863bee2ca9213c884df7.png

顺便提一句,这张照片正是本篇论文的一作潘新钢,2021 年在香港中文大学多媒体实验室获得博士学位,师从汤晓鸥教授。目前是马克斯普朗克信息学研究所博士后,并将从 2023 年 6 月开始担任南洋理工大学计算机科学与工程学院 MMLab 的任助理教授。

这项工作旨在为 GAN 开发一种交互式的图像操作方法,用户只需要点击图像来定义一些对(操纵点,目标点),并驱动操纵点到达其对应的目标点。

这项研究基于 StyleGAN2,基本架构如下:

799061c416dc3b8d839b3bbdd9ec4cea.png

在 StyleGAN2 架构中,一个 512 维的潜在代码∈N(0,)通过一个映射网络被映射到一个中间潜在代码∈R 512 中。的空间通常被称为 W。然后,被送到生成器,产生输出图像 I = ()。在这个过程中,被复制了几次,并被送到发生器的不同层,以控制不同的属性水平。另外,也可以对不同层使用不同的,在这种情况下,输入将是79163b966f600038fe8fa5a2b8908b40.png,其中是层数。这种不太受约束的 W^+ 空间被证明是更有表现力的。由于生成器学习了从低维潜在空间到高维图像空间的映射,它可以被看作是对图像流形的建模。

实验

为了展示 DragGAN 在图像处理方面的强大能力,该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。

定性评估

图 4 是本文方法和 UserControllableLT 之间的定性比较,展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点,实现了多样化和自然的操纵效果,如改变动物的姿势、汽车形状和景观布局。相比之下,UserControllableLT 不能忠实地将操纵点移动到目标点上,往往会导致图像中出现不想要的变化。

008fe63ffc7cd2b8e93e09f1c2fd375c.png

如图 10 所示,它也不能像本文方法那样保持未遮盖区域固定不变。

4b2722399751edbde2e1437b446c2d6f.png

图 6 提供了与 PIPs 和 RAFT 之间的比较,本文方法准确地跟踪了狮子鼻子上方的操纵点,从而成功地将它拖到了目标位置。

dab615c61180d8fffbe15eeba41dbd09.png

真实图像编辑。使用 GAN inversion 技术,将真实图像嵌入 StyleGAN 的潜空间,本文方法也可以用来操作真实图像。

图 5 显示了一个例子,将 PTI inversion 应用于真实图像,然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情:

6c37bd79f12890b3302c56efa6ae27c9.png

图 13 展示了更多的真实图像编辑案例:

2272cd3f179db59884c0c42ee092df50.png

定量评估

研究者在两种设置中下对该方法进行了定量评估,包括人脸标记点操作和成对图像重建。

人脸标记点操作。如表 1 所示,在不同的点数下,本文方法明显优于 UserControllableLT。特别是,本文方法保留了更好的图像质量,正如表中的 FID 得分所示。

3bba88575621db165f5c603bc12611b6.png

这种对比在图 7 中可以明显看出来,本文方法打开了嘴巴并调整下巴的形状以匹配目标脸,而 UserControllableLT 未能做到这一点。

2738eaa45ca42ac040c9fb764edbc4b1.png

成对图像重建。如表 2 所示,本文方法在不同的目标类别中优于所有基线。

8498ebd14dc75072fb0fdd702460be55.png

消融实验

研究者研究了在运动监督和点跟踪中使用某种特征的效果,并报告了使用不同特征的人脸标记点操作的性能(MD)。如表 3 所示,在运动监督和点跟踪中,StyleGAN 的第 6 个 block 之后的特征图表现最好,显示了分辨率和辨别力之间的最佳平衡。

47691ba2af637f675470567b960d07f1.png

表 4 中提供了_1 的效果。可以看出,性能对_1 的选择不是很敏感,而_1=3 的性能略好。

e872571448ee1488fc906bc6de3ae987.png

讨论

掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码,图 8 展示了它的效果:

e0735a64eb544f12b1d240bdf3aeb7bd.png

Out-of-distribution 操作。从图 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以创造出训练图像分布之外的图像,例如一个极度张开的嘴和一个大的车轮。

670cafe8d9b67f78d5c708e6235af23e.png

研究者同样指出了本文方法现存的局限性:尽管有一些推断能力,其编辑质量仍然受到训练数据多样性的影响。如图 14(a)所示,创建一个偏离训练分布的人体姿势会导致伪影。此外,如图 14(b)和(c)所示,无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此,研究者建议尽可能挑选纹理丰富的操纵点。

fb518c67ae5484cc3a4400eff284b163.png

点击进入—>【GAN和扩散模型】微信技术交流群

最新CVPR 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

GAN和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-GAN或者扩散模型 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如GAN或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看bd294fa200a829aa82ae1edab8d07260.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13151.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

魔戒啊魔戒,请帮我解开CDM的“数据魔法”

关注我们牛年牛气冲天 4月16日,被誉为魔幻电影鼻祖的《指环王》三部曲,将陆续以4K版登上国内IMAX银幕。那令人震撼而又陶醉的魔幻世界重新归来了。 在现实世界中,在看似枯燥乏味的数据中,是否也存在魔法呢?下面&#x…

医疗ChatGPT、金融GPT都来啦!“潘多拉的魔盒”已经打开?

源|学术头条 AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 DallE 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内…

强强联合!谷歌大模型团队并入DeepMind!誓要赶上ChatGPT进度

文|明敏 发自 凹非寺源|量子位 为应对ChatGPT,谷歌在大模型方面的动作还在继续。 最新消息,其旗下专注语言大模型领域的“蓝移团队” (Blueshift Team)宣布,正式加入DeepMind,旨在共…

史上最完整的《指环王》魔戒战争大事记(编年体长文)

以下内容转载自 https://www.toutiao.com/i6872919198092231179/ 原创跃马酒馆小招待2020-09-16 13:33:12 大家好,本文承接上一篇文章对《指环王》历史的梳理,这次从更加激动人心的第二纪元开始将整个魔戒故事以编年体的方式进行叙述。 (如…

GEMMA 全基因组关联分析+CMplot多性状曼哈顿+QQ图脚本

这里写自定义目录标题 GEMMA 全基因组关联分析CMplot多性状曼哈顿QQ图脚本 GEMMA 全基因组关联分析CMplot多性状曼哈顿QQ图脚本 ###GEMMA 全基因组关联分析CMplot多性状曼哈顿QQ图脚本 #作者:刘济铭 ########################## GWAS理论和基本结果理解已经有很多…

新鲜事儿!只有AI作品的电影节;酷~AI纹身设计师;ChatGPT的接生婆RLHF;Wayve自动驾驶模型MILE… | ShowMeAI资讯日报

👀日报合辑 | 🎡AI应用与工具大全 | 🔔公众号资料下载 | 🍩韩信子 📢 『AI Film Festival』只接受AI作品的电影节,一万美元奖金花落谁家? https://aiff.runwayml.com/ Runway ML公司12月7日推…

ChatGPT神奇应用:无需美术功底快速生成高清艺术插图

正文共 1410字,阅读大约需要 8 分钟 创意人群的最佳助手,您将在8分钟后获得以下超能力: 1.高清艺术类插图【非人物】 2.多风格高效出图 Beezy评级:A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自…

让 ChatGPT 扮演一个艺术家,协助我们生成绘图 prompt

stable-diffusion Prompt 生成 直接生成 按照惯用的扮演思路,我们可以让 ChatGPT 扮演一个艺术家,协助我们生成绘图 prompt。考虑到 ChatGPT 和 DallE 同为 openai 公司产品,且 stable-diffusion 开源模型出现较晚,ChatGPT 训练…

翻译: 面向开发人员的GPT提示工程 GPT Prompt Engineering for Developers

1. 提示指南Guidelines for Prompting 在本课中,您将练习两个提示原则及其相关策略,以便为大型语言模型编写有效的提示。 In this lesson, you’ll practice two prompting principles and their related tactics in order to write effective prompts …

14个在你的WordPress网站上使用OpenAI的最好方法(2003)

您是否想知道如何在您的WordPress网站上使用OpenAI和ChatGPT? OpenAI可以提供一切帮助,从为您的帖子生成元描述到撰写电子邮件销售文案。您可以在您的WordPress网站上使用OpenAI来节省时间、降低成本、改善您的搜索引擎优化和工作流程,并发展…

吴恩达OpenAI最新课程:prompt-engineering-for-developers读书笔记

文章目录 一、前言二、Prompt编写原则2.1 环境配置2.2 编写清晰、具体的指令2.2.1 使用分隔符2.2.2 结构化输出(JSON、HTML等)2.2.3 要求模型检查条件是否满足2.2.4 提供少量示例(Few-shot Prompting) 2.3 指导模型思考2.3.1 指定…

chatgpt赋能python:Python打折简单程序:节省金钱和时间的利器

Python打折简单程序:节省金钱和时间的利器 作为程序员,我们总是在寻找更好的,更高效的解决方案。在购物时,这也是如此。现在,我们可以通过编写一个简单的Python程序来实现节省金钱和时间的目的。 什么是Python打折简…

《花雕学AI》29:5秒钟就能为你的想法想出新点子?ChatGPT新点子指令模型告诉你怎么做

引言 你有没有遇到过这样的情况,你想出了一个想法,但是不知道怎么扩展或改进它?你有没有想过有一个工具,可以帮你在短时间内为你的想法生成各种新的点子?如果你有这样的需求,那么你一定要了解ChatGPT。 C…

AI大模型应用时代,如何通过数据“造好品,卖好品”?

在数字化时代的浪潮中,品牌营销正面临着前所未有的挑战和机遇。随着技术的迅猛发展,消费者的行为和期望也在不断演变。 新的市场环境下,消费者的需求和购买行为发生了哪些变化? 数码家电转战社媒平台,竞争白热化如…

使用chatGPT编写的支付宝沙箱支付

支付宝沙箱支付指的是在支付宝开放平台的沙箱环境中进行的模拟支付操作。开发者可通过支付宝开放平台的沙箱环境模拟真实的支付流程,包括创建订单、模拟用户付款、模拟用户退款等操作,从而测试自己的支付功能是否正常。沙箱环境中的交易数据和资金均为虚…

ChatGPT提示词工程(一):Guidelines准则

目录 一、说明二、安装环境三、Guidelines准则一:写出明确而具体的说明方法1:使用分隔符清楚地表示输入的不同部分方法2:用结构化输出:如直接要求它以HTML或者JSON格式输出方法3:请模型检查是否满足条件方法4&#xff…

ChatGPT - 使用故事和隐喻来帮助记忆

文章目录 Prompt Prompt 我目前正在学习[主题]。将该主题的关键教训转化为引人入胜的故事和隐喻,以帮助我记忆。

Redisson分布式限流RRateLimiter的实现原理

我们目前在工作中遇到一个性能问题,我们有个定时任务需要处理大量的数据,为了提升吞吐量,所以部署了很多台机器,但这个任务在运行前需要从别的服务那拉取大量的数据,随着数据量的增大,如果同时多台机器并发…

详解Redisson分布式限流的实现原理

我们目前在工作中遇到一个性能问题,我们有个定时任务需要处理大量的数据,为了提升吞吐量,所以部署了很多台机器,但这个任务在运行前需要从别的服务那拉取大量的数据,随着数据量的增大,如果同时多台机器并发…

聊聊Sentinel集群限流探索

最近看了下关于分布式限流的部分,看到Sentinel的分布式限流,也就是集群限流的部分,想搭个环境看看,结果发现网上关于这方面的内容基本可以说没有,你甚至很难跑起来他的demo,就算能跑起来,估计也…