英伟达EditGAN:为高精度百变而生

点击上方“机器学习与生成对抗网络”,关注星标

获取有趣、好玩的前沿干货!

来源 机器之心报道 编辑 杜伟

在实现复杂且高精度图像编辑效果的同时,EditGAN 还能保持较高的图像质量和对象身份,英伟达在图像处理领域果然「出手不凡」。

当前,AI 驱动的照片和图像编辑技术有助于简化摄影师和内容创作者的工作流程,并赋能更高水平的创意和数字艺术。基于 AI 的图像编辑工具也已经以神经照片编辑过滤器(filter)的形式应用在消费级软件上,并且深度学习研究社区积极地开发新的技术。其中,各式各样基于生成对抗网络(GAN)的模型和技术层出不穷,在实现原理上,领域研究人员要么将图像嵌入到 GAN 的隐空间,要么直接使用 GAN 生成图像。

大多数基于 GAN 的图像编辑方法分为以下几类。一些工作依赖于 GAN 在类标签或像素级语义分割注释上发挥作用,不同的条件会使输出结果出现变动;另一些工作使用辅助的属性分类器来指导图像的合成和编辑。然而,训练这种条件式 GAN 或外部分类器需要大规模的标注数据集。因此,这些方法目前仅适用于拥有大规模标注数据集的图像类型,如肖像等。即使拥有足够注释的数据集,大多数方法也仅能提供有限的编辑控制,这是因为这些注释通常仅包含高级的全局属性或者比较粗糙的像素级分割。

另一些方法专注于对不同图像的特征进行混合和插值,因此需要参照图像作为编辑目标,通常也无法提供微调控制。还有一些方法仔细剖析 GAN 的隐空间,找出适合编辑的解耦隐变量或者控制 GAN 的网络参数。但遗憾的是,这些方法无法实现精细的编辑,速度也通常较慢。

近日,英伟达、多伦多大学等机构在论文《EditGAN: High-Precision Semantic Image Editing》中克服了这些局限,并提出了一个全新的基于 GAN 的图像编辑框架 EditGAN——通过允许用户修改对象部件(object part)分割实现高精度的语义图像编辑。

相关研究已被 NeurIPS 2021 会议接收,代码和交互式编辑工具之后也会开源。

4edc922a760aef7a090359fc53a94cb0.png

论文地址:https://arxiv.org/pdf/2111.03186.pdf

项目主页:https://nv-tlabs.github.io/editGAN/

具体而言,EditGAN 在最近提出的 GAN 模型基础上构建,不仅基于相同的潜在隐编码来共同地建模图像及其语义分割,而且仅需要 16 个标注示例,从而可以扩展至很多目标类和部件标签。研究者根据预期编辑结果来修改分割掩码,并优化隐编码以与新的分割保持一致,这样就可以高效地改变 RGB 图像。

此外,为了实现效率,他们通过学习隐空间中的编辑向量(editing vector)来实现编辑,并在无需或仅需少量额外优化步骤的情况下直接在其他图像上应用。因此,研究者预训练了一个感兴趣编辑的库以使得用户可以在交互工具中直接使用。

研究者表示,EditGAN 是首个同时实现以下目标的 GAN 驱动的图像编辑框架:

  • 提供非常高精度的编辑;

  • 仅需极少量的标注训练数据,并且不依赖额外的分类器;

  • 实时交互运行;

  • 多个编辑的直接语义合成;

  • 在真实的嵌入式、GAN 生成的甚至域外(out-of-domain)图像上运行。

研究者在包括汽车、猫、鸟和人脸等在内的广泛图像上应用了 EditGAN,最终都展现出了前所未有的高精度编辑。他们还将 EditGAN 与多个基准方法进行定量比较,并在身份和质量保持、目标属性准确性等指标上胜过它们,同时需要的标注训练数据少了数个量级。

在项目主页中,研究者展示了多个 EditGAN 相关的 Demo 视频,如下动图(左)为编辑向量插值效果,图(右)为在域外图像上应用 EditGAN 编辑向量的效果。

6a41d19a47f60ff03aab4516d7a8ef40.gif

下图(左)为交互 demo 工具中使用 EditGAN 的效果,图(右)为使用 EditGAN 时可以实现多个编辑和预定义编辑向量。

1240f2a1e34d8df9e0beee8f25d34177.gif

使用 EditGAN 如何完成高精度语义图像编辑?

下图 2(1)为训练 EditGAN 的流程;图 2(2&3)分别为编辑分割掩码和利用编辑向量的实时编辑,其中用户可以修改分割掩码,并由此在 GAN 的隐空间中进行优化以实现编辑;图 2(4)为在隐空间中学习编辑向量,用户通过应用以往学习到的编辑向量进行编辑,并可以交互式地操纵图像。

0068143855bcdc058c49a3aa4ac9606d.png

通过分割编辑在隐空间中找出语义

EditGAN 的核心思想是在实现高精度图像编辑中利用图像和语义分割的联合分布 p(x, y)。给定一张待编辑的新图像 x,我们可以将它嵌入到 EditGAN 的 W^+ 隐空间中。然后,分割部分将生成相应的分割 y,这是因为分割和 RGB 图像共享相同的隐编码 w^+。使用简单的交互式数字绘画或标注工具,即可根据预期的编辑手动修改分割。研究者将编辑的分割掩码表示为了 y_edited。

例如,当修改右侧汽车照片中的车轮时,Q_edit 将包含轮胎、辐条和轮毂等所有与车轮相关的零件的标签:

148cfedeec71816a5c0a46c0468b7528.png

推理过程中不同的编辑方法

总的来说,我们可以通过以下三种不同的模式使用 EditGAN 进行图像编辑:

  • 使用编辑向量进行实时编辑。对于局部解耦良好的编辑,仅通过应用先前学习的具有不同尺度的编辑向量即可进行编辑,并以交互式速率(interactive rate)操纵图像;

  • 利用自监督细化的向量编辑。对于未与图像其他部分完美解耦的局部编辑,可以通过测试过程中的额外优化去除编辑伪影,同时使用学习到的向量初始化编辑;

  • 基于优化的编辑。特定图像和大规模的编辑不能通过编辑向量迁移到其他图像。对于此类操作,则可以从零开始进行优化。

实验结果

在实验部分,研究者在四种不同类别的图像上对 EditGAN 进行了广泛的评估,它们分别是:

  • 汽车(空间分辨率 384×512)

  • 鸟(512×512)

  • 猫(256×256)

  • 人脸(1024×1024)

其中,人脸示例的注释细节如下图 7 所示:

ee6f8be66527510efcfcbcc86cafba36.png

当仅基于优化或通过学习编辑向量完成编辑时,研究者通常使用 Adam 执行 100 steps 的优化。对于汽车、猫和人脸,他们使用 DatasetGAN 测试集中的真实图像,使用这些非 GAN 训练数据的图像是为了验证编辑功能;对于鸟,他们在 GAN 生成的图像上展示编辑功能。

定性结果

首先来看域内(in-domain)结果。在下图 4 中,研究者展示了当在新图像上应用以往学习到的编辑向量48aee4a08a94fc5a6be5f91f0b7ab952.png并执行 30 steps 的优化细化时,EditGAN 框架的图像编辑效果。结果显示,使用 EditGAN 的编辑操作保持了高图像质量并对所有类别的图像实现了良好的解耦。

研究者表示,以往没有任何一种方法可以做到像 EditGAN 那样复杂且高精度的编辑,同时还能保持较高的图像质量和对象身份。

f1dd29a4291490b0ec89e5bad0327e25.png

如下图 8 所示,使用 EditGAN,研究者甚至可以实现极高精度的编辑,例如旋转汽车的轮辐(左)或者扩大人的瞳孔(右)。EditGAN 可以对那些像素极少对象的语义部分进行编辑,同时还能实现大规模的修改。

2c120c2be60576678558c609d9a281c4.png

在下图 9 中,研究者展示了仅通过修改分割掩码和优化即可以去除汽车的车顶或将其改装成旅行车。值得注意的是,通过一些编辑操作生成的图像与 GAN 训练数据中出现的图像不同。

9d1e68c6f18f9d07b6bb21efd05833cb.png

其次是域外结果。研究者在 MetFaces 数据集上展示 EditGAN 对域外数据的泛化能力。他们使用在 FFHQ 上训练的 EditGAN 模型,并使用域内真实人脸数据创建编辑向量fb04bb33447d1af6637de0fe2ae8e0bc.png。接着嵌入域外 MetFaces 肖像(使用 100 steps 的优化),再通过 30 steps 的优化应用编辑向量。结果如下图 6 所示,该研究的编辑操作无缝地迁移至相差甚远的域外图像示例。

2713091eddd68dad0aeb8ce3b1c41c25.png

定量结果

为了展示 EditGAN 的图像编辑能力的定量评估结果,研究者使用了 MaskGAN 引入的笑脸编辑(smile edit)基准。中性表情的人脸被转换为笑脸,并使用以下三项指标对性能进行度量,它们分别是:

  • 语义正确性(Semantic Correctness)

  • 分布级图像质量(Distribution-level Image Quality)

  • 身份保持(Identity Preservation)

研究者将 EditGAN 与三个强基准方法进行比较,分别是 MaskGAN2、LocalEditing 和 InterFaceGAN,最后还与 StyleGAN2 蒸馏做了比较。结果如下表 2 所示,EditGAN 在三项指标上均优于其他方法。此外,EditGAN 在身份保持和属性分类准确率方面也优于 InterFaceGAN。在与 StyleGAN2 蒸馏的比较中,EditGAN 也表现出了强大的性能。

8d8d36c3cf11f124b4adfd2477d25118.png

在下图 11 中,研究者展示了与 InterFaceGAN 比较的更多细节,其中应用了具有从 0 到 2 不同尺度系数的笑脸编辑向量。当编辑向量尺度较小时,身份分数高但笑脸属性分数低,这是对原始图像修改最小化导致的。他们发现,使用编辑向量的实时编辑效果可以媲美 InterFaceGAN。

096dc87440168505ba77247d45cbd880.png

最后说下运行时间。研究者仔细记录了 EditGAN 在 NVIDIA Tesla V100 GPU 上的运行时间。给定一个编辑好的分割掩码的情况下,走完 30 (60) 个优化 steps 的条件式优化耗时 11.4 (18.9) 秒。这一操作为他们提供了编辑向量。此外,编辑向量的应用几乎是瞬间完成的,仅耗时 0.4 秒,因此得以实现复杂的实时交互编辑。走完 10 (30) steps 的自监督细化将额外耗时 4.2 (9.5) 秒。

猜您喜欢:

等你着陆!【GAN生成对抗网络】知识星球!

CVPR 2021专题1:GAN的改进

CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总

CVPR 2021 | 图像转换 今如何?几篇GAN论文

【CVPR 2021】通过GAN提升人脸识别的遗留难题

CVPR 2021生成对抗网络GAN部分论文汇总

经典GAN不得不读:StyleGAN

最新最全20篇!基于 StyleGAN 改进或应用相关论文

超100篇!CVPR 2020最全GAN论文梳理汇总!

附下载 | 《Python进阶》中文版

附下载 | 经典《Think Python》中文版

附下载 | 《Pytorch模型训练实用教程》

附下载 | 最新2020李沐《动手学深度学习》

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 | 超100篇!CVPR 2020最全GAN论文梳理汇总!

附下载 |《计算机视觉中的数学方法》分享

eb9eeb2e7ff1971b06aa34745af430b7.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31322.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英伟达把P图软件GAN了

晓查 发自 凹非寺量子位 报道 | 公众号 QbitAI 英伟达的最新AI工具又让网友用户们激动了。 “我已经等不及了!” 一位网友在看完演示视频后表示。 对于“手残党”来说,英伟达的EditGAN简直就是零基础P图神器。 能够高质量、高精细度地对图像进行修改&…

英伟达NVIDIA GPU 架构介绍

一、NVIDIA GPU的架构演变历史和基本概念 截止2021年,发布时间离我们最近的8种NVIDIA GPU微架构是: Tesla (特斯拉) Fermi(费米) Kepler(开普勒) Maxwell(麦克斯韦) Pascal&#x…

英伟达 GPU 架构简史

英伟达 GPU 架构简史 尽管近年来 Nvidia GPU 确实更频繁地成为新闻,但它们绝不是新事物。事实上,多年来,Nvidia GPU 已经进行了多次迭代,GPU 架构也取得了进步。因此,让我们回顾一下最近的历史,以了解 GPU…

英伟达创始人CEO黄仁勋:一个事实是,拥有一个可以完美执行的简单想法,有时候比拥有一个你的公司无法执行的宏伟想法更好 | 英伟达:地球上最重要的公司之一

英伟达创始人&CEO黄仁勋:一个事实是,拥有一个可以完美执行的简单想法,有时候比拥有一个你的公司无法执行的宏伟想法更好 文章目录 英伟达创始人&CEO黄仁勋:一个事实是,拥有一个可以完美执行的简单想法,有时候比拥有一个你的公司无法执行的宏伟想法更好英伟达公司…

英伟达突破万亿美元市值,创始人黄仁勋分享创业心得

你知道全球第一家市值突破万亿美元的芯片公司是哪一家吗?它的创始人又是怎样的一个人呢?今天我们就来聊聊英伟达和黄仁勋的故事。 —————————————————————————————— 英伟达(NVIDIA Corporation)&a…

不愁失业!英伟达 CEO 黄仁勋:“AI 让每个人都能成为程序员”

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 你是否想过,AI 可以帮你圆梦程序员? 早些年,大家或许对此存在疑惑,但近来 AI 编程工具的涌现和升级,这题的答案或许是——“y…

关于英伟达数字人文章的致歉和说明

大家好,昨天我们发布的一篇英伟达数字人新进展的文章,引发了较大范围的关注和讨论。经过我们的复核及英伟达官方最新确认,这篇文章存在不严谨和失当之处,特此进行说明和致歉。 一、说明一下我们的错误。 今日英伟达官方确认&#…

元宇宙大比拼:英伟达Nvidia,Facebook,iwemeta

还是那个熟悉的黄色厨房,还是那身立领的黑皮衣,在11月9日下午4点,黄仁勋带着他的元宇宙概念开启了英伟达GTC 2021大会。 在长达1小时30分钟的新品发布会中,黄仁勋重磅发布了英伟达最先进的Omniverse Avatar平台,这是一…

英伟达首席科学家:深度学习硬件的过去、现在和未来

作者|Bill Dally 翻译|胡燕君、沈佳丽、贾川 过去十年是深度学习的“黄金十年”,它彻底改变了人类的工作和娱乐方式,并且广泛应用到医疗、教育、产品设计等各行各业,而这一切离不开计算硬件的进步,特别是GP…

英伟达的这款GPU太强了!

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 今年 3 月 21 日 - 24 日举办的 NVIDIA GTC 2022 大会可谓是亮点十足。NVIDIA 不仅一口气更新了 60 多个 SDK 应用程序,继续加大在 Omniverse、机器人平台、自动驾驶和量子计算等…

英伟达创始人出生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 17 日,在 1996 年的今天,IBM 的超级计算机“深蓝”首次挑战卡斯帕罗夫落败。“深蓝”首次挑战虽然最终败北,但却赢得了…

作为超级自动化的重要先驱,流程挖掘正在成为组织运营标配

正在成为组织运营标配的流程挖掘,到底有哪些商业价值? 作为超级自动化的重要先驱,流程挖掘正在成为组织运营标配 文/王吉伟 AIGC正在影响越来越多的行业,流程挖掘领域亦不例外。 Mindzie首先宣布集成生成式AI,使用户…

如何利用ChatGPT构建高效的思维导图

如何利用ChatGPT构建高效的思维导图 文章目录 如何利用ChatGPT构建高效的思维导图第一步输入指令,生成大纲指令内容GPT回答 第二步把得到的markdown格式保存为md文件第三步,导入到XMind生成思维导图思维图成品展示 第一步输入指令,生成大纲 …

2021年中国健康体检现状与格局分析,老龄化趋势推动产业发展,民营占比持续提升「图」

一、健康体检产业链概述 健康体检产业上游主要包括相关仪器设备和医用耗材,下游为个人客户或单位团体客户。医疗器械的市场分散程度较高,如果体检中心对医疗器械的采购量大,对上游的议价能力就强;体检中心对下游的团体客户议价能…

【报告分享】2021中国人健康大数据报告-光华博思特(附下载)

摘要:生老病死是我们每个人的坎,如今现代社会,文明程度较高,人们不再追求虚无缥缈的“长生不死”。如何能在有限的生命中,过得更好、更健康,才是打开生命的正确姿势。从这份报告中那些触目惊心的数字里不难看出我国国民…

中国健康体检行业行情动态及未来发展趋向分析报告2022年版

中国健康体检行业行情动态及未来发展趋向分析报告2022年版 【报告目录】: 正文目录 2 图表目录 19 第1章:中国健康体检行业发展环境分析 21 1.1 健康体检行业概念及产业链分析 21 1.1.1 健康体检行业定义 21 1.1.2 健康体检行业产业链简介 21 1.1.3 健…

关于GPT-4,14个容易被忽略的惊人细节!

来源:华尔街见闻 OpenAI推发布了GPT-4之后,向科技界再次扔下了一枚“核弹”。 根据OpenAI的演示,我们知道了GPT-4拥有着比GPT-3.5更强大的力量:总结文章、写代码、报税、写诗等等。 但如果我们深入OpenAI所发布的技术报告&…

科研人的利器:利用New Bing五分钟读完一篇论文

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加我,拉你进群。 New Bing『新必应』是微软一款集成了ChatGPT的搜索引擎,它以聊天的方式来进行信息搜索,这不同过去几十年通过对话框搜索信…

两位阿里 P10 的成长经历,让我学到这几点...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 作者:shixin。 最近看完了专栏《超级访谈:对话毕玄》,和年初看的《超级访谈:对话汤峥嵘》类似,它们都是对阿里 P10(程序员金字塔顶…

独立产品灵感周刊 DecoHack #052 - 100个AI 工具导航网站

本周刊记录有趣好玩的独立产品设计开发相关内容,每周发布,往期内容同样精彩,感兴趣的伙伴可以 点击订阅我的周刊。为保证每期都能收到,建议邮件订阅。欢迎通过 Twitter 私信推荐或投稿。 ❤️ 刚换工作再加上个人原因有些自己的事…