人人皆可二次元!小姐姐生成不同风格动漫形象,肤色、发型皆可变

点击 机器学习算法与Python学习选择加星标

精彩内容不迷路

机器之心报道

一张输入人脸图像,竟能生成多样化风格的动漫形象。伊利诺伊大学香槟分校的研究者做到了,他们提出的全新 GAN 迁移方法实现了「一对多」的生成效果。

在 GAN 迁移领域,研究人员可以构建一个以人脸图像为输入并输出人脸动漫形象的映射。相关的研究方法已经出现了很多,如腾讯微视此前推出的迪士尼童话脸特效等等。

在迁移过程中,图像的内容(content)部分可能会被保留,但风格(style)部分必须改变,这是因为同一张脸在动画中能以多种不同的方式表示。这意味着:迁移过程是一个一对多的映射,该映射可以表示为一个函数,用于接受内容代码(即从人脸图像中恢复)和风格代码(这是一种潜变量)并生成动漫脸。但是,一些重要的限制条件必须遵守。

  • 首先是控制(control):通过改变输入人脸来改变动漫人脸的内容(如动漫人脸应该随着输入人脸的转头而转头);

  • 其次是一致性(consistency):使用相同潜变量渲染成动漫的真实人脸应在风格上高度匹配(如不改变潜变量的前提下,动漫人脸不会随输入人脸的转头而改变风格);

  • 最后是覆盖范围(coverage):每个动漫人脸都可以使用内容和风格的组合来获取,这样就可以利用所有可能的动漫形象。

在近日的一项研究中,来自伊利诺伊大学香槟分校的研究者提出了一种新的 GAN 迁移方法 GANs N’ Roses(简写为 GNR),这一多模态框架使用风格和内容对映射进行直接的形式化(formalization)。简单来讲,研究者展示了一种以人脸图像的内容代码为输入并输出具有多种随机选择风格代码的动漫形象。

  • 论文地址:https://arxiv.org/pdf/2106.06561.pdf

  • GitHub 项目地址:https://github.com/mchong6/GANsNRoses

从技术上来讲,研究者基于对内容与风格的简单和有效定义中得出了对抗性损失,它保证了映射的多样性,即可以从单一内容代码中生成多样化风格的动漫形象。在合理的假设下,这种映射不仅多样化,还能以输入人脸为条件正确地表示动漫形象的概率。相比之下,当前的多模态生成方法无法捕捉动漫中的风格。大量的定量实验表明,与 SOTA 方法相比,GNR 方法可以生成更多样风格的动漫形象。

GNR 的生成效果怎么样呢?我们可以先来看下 demo 图像戴珍珠耳环的少女的动漫形象:

目前,用户也可以试玩,只需上传自己的图像即可一键生成自己的动漫形象。机器之心用葡萄牙球星 C 罗的图片试了试生成效果,em……:

试玩地址:https://gradio.app/hub/AK391/GANsNRoses

与此同时,在没有对视频进行任何训练的情况下,GNR 方法还可以实现视频到视频的迁移。

技术实现

给定两个域 、,目标是在域中生成一组不同的,使其具有与 x 相似的语义内容。该研究详细阐述了从域 到的转换细节。如图 2 所示,GANs N’ Roses 由一个编码器 E 和一个解码器 F 组成,这两个编码器可用于这两个方向。编码器 E 将图像 x 分解为内容编码 c(x) 和风格编码 s(x)。解码器 F 接收内容编码和风格编码,并从 生成合适的图像。

编码器和解码器共同形成了一个生成器。在运行时,通过向编码器传递图像来使用这个生成器,以保留生成的内容编码 c(x),获得一些其他相关的风格编码 s_z,然后将这对编码传递给解码器。该研究希望最终动漫内容由内容代编码控制,风格由风格编码控制。

图 2 GANs N’ Roses

但什么是内容,什么是风格?GANs N'Rose 的核心思想是将内容定义为事物所在的位置,将风格定义为事物的外观。这可以通过使用数据增强的思想来实现。选择一组相关的数据增强,在所有条件下:风格是不变的,内容是可变的。注意,这个定义是以数据增强为条件的——不同的数据增强集将导致不同的风格定义。

确保风格的多样性

为了确保用户可以得到不同风格的动漫,当前有三种策略:首先,可以简单地从随机选择的风格代码 s_z 中生成;其次,解码器具有可以从解码器中恢复 s_z 的属性;第三,可以编写一个确定的惩罚函数,强制不同风格代码的解码不同;但这些策略都不是令人满意的。

该研究对风格和内容的定义提供了一种新的方法。即必须学习一个映射 F(c, s; θ),该映射采用内容编码 c 和风格编码 s 来生成动漫面孔。 表示从数据中随机选择的单个图像,T(·) 表示对该图像应用随机选择的增强的函数,P(C) 表示内容编码的分布,P(Y) 表示真实动漫(等)的真实分布,为生成的动漫图像。这里必须有 c(xi) ∼ P(C)。因为风格定义为在增强下不会改变的内容,合理选择的增强应该意味着 c(T(x_i)) ∼ P(C) , 即对图像应用随机增强会导致内容编码是先前内容编码的示例。这个假设是合理的,如果它被严重违反,那么图像增强训练分类器将不起作用。

损失函数为:

实验结果

在实验部分,该研究使用 batch 为 7,λ_scon = 10, λ_cyc = 20, λ_adv = 1 进行实验。网络架构基于 StyleGAN2[9],该架构风格编码的维度为 8。使用 Adam 优化器 [12] 对所有网络进行 300k 批次迭代,学习率为 0.002。在输入图像上使用的随机增强包括随机水平翻转、(−20,20)之间的旋转、缩放(0.9,1.1)、平移(0.1,0.1)、剪切(0.15)。图像被放大到 286 × 286,并随机裁剪为 256 × 256。数据集主要采用 selfie2anime 数据集 [10] 以及 AFHQ [1] 的附加实验。

定性比较

一般来说,当给定相同的源图像和不同的随机风格编码时,GNR 会产生不同的图像。风格编码驱动头发、眼睛、鼻子、嘴巴、颜色等的外观,而内容驱动姿势、面部大小、面部部位的位置等。图 4 显示,GNR 在质量和多样性方面优于其他 SOTA 多模态框架。

GNR 生成的图像具有不同的颜色、发型、眼睛形状、面部结构等,而其他框架则只能生成不同的颜色。

将多模态结果与 SOTA 迁移框架进行了比较。

该研究还在图 5 中与 AniGAN [14] 进行了比较。请注意,即使 AniGAN 是在更大、更多样化的数据集上进行训练的,但是,该研究也能够生成具有更好的、更多样性的、更高质量的图像。此外,AniGAN 以 128 × 128 的分辨率生成,而该研究以 256 × 256 的分辨率生成。

下图展示的消融实验显示了多样性鉴别器(Diversity Discriminator)在确保多样性输出方面起着重要作用(图 6),实验可得多样性鉴别器明显促进了 GNR 输出更具多样性、更真实的图像。

定量比较

表 1 中使用多样性 FID、FID 和 LPIPS 对 GNR 进行了定量评估。在表 1 的所有实验中,研究发现 GNR 在所有指标上都明显优于其他 SOTA 框架。DFID 和 LPIPS 都关注图像的多样性,这些指标的得分从数量上证实了该研究生成图像的多样性优于其他框架。

视频到视频迁移

该研究对风格和内容的定义是,当一张脸在一个框架中移动时,风格不应该改变,但内容会改变。特别是,内容对特征所在的位置进行编码,而风格对特征的外观进行编码。反过来,内容编码应该捕获所有帧到帧的运动,合成动漫视频,而不必训练时间序列。

该研究将 GNR 逐帧应用于人脸视频,然后将生成的帧组装成视频。图 3 第 2 行中的结果显示,GNR 产生根据源移动的图像,同时在时间上保持一致的外观。


如果对你有帮助。
请不吝点赞,点在看,谢谢

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69923.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟人直播-元宇宙离我们有多远?

目标 利用 Live Link Face unrealEngine quixel bridge 方案,实现虚拟形象的建模和控制。为后面的直播等应用搭建基础流程。 安装和配置 unrealEngine (虚幻引擎) 需要从下面的链接先下载 Epic Games launcher 安装好后,再下载并…

虚拟发布会直播有何优势?虚拟直播技术让线上活动变得简单高效

随着数字经济和产业数字化的快速发展,以及直播应用场景愈发深入,企业直播的内容形态和体验方式面临全面升级,利用虚拟技术打造多元化的直播间和线上虚拟发布会已经成为新趋势。 融入了“AR/VR/MR”、“虚实融合”、“虚拟数字人”等概念的虚…

直播有什么新的互动玩法?

其实有很多主播会选择打pk、聊天这种方式互动吸引观众,但是用多了观众也会觉得索然无味。我们不妨转换一下思路,在直播的时候加入一些互动的游戏,既能避免只有主播聊天的“冷场”局面,又能增加观众的兴趣。 现在很多直播间都会选择…

Android面试题汇总(中高级)及答案解析,2023年企业面试题精选

前言 首先要声明的是:面试题的目的不是为了让大家背题,而是从不同维度帮助大家复习,取长补短。让我们正式进入正题: 现在网上的面试题资料实在太多了,而且人人肯定都说自己的最好,那么就导致大家不知道怎…

安卓系统最新面试题(面试题整理,含答案)

最近自己再找安卓系统方面的工作,所以安卓系统整体的知识点进行了整理,内容点涉及的比较多。可以选择自己不熟的层来看跟学习,如果小伙伴还有补充或者自己遇到的题,欢迎留言。 系统应用层: 四大组件: 一.…

2020年Android面试题(BAT最新面试题)包含详细答案

2020年Android面试题汇总,面试必看,轻松拿BAT大厂Offer。完全免费。 基础问题相关(答案在文末) 1、接口的意义-百度 2、抽象类的意义-百度 3、内部类的作用-乐视 4、Java 虚拟机的特性-百度-乐视 5、哪些情况下的对象会被垃圾回…

面试题-史上最全人事面试宝典

与人事相关面试题 人事面试宝典 1、 请你自我介绍一下你自己? 回答提示:一般人回答这个问题过于平常,只说姓名、年龄、爱好、工作经验,这些在简历上都有,其实,企业最希望知道的是求职者能否胜任工作&…

安卓十大必问面试题(附答案和解析)

面试,无非都是问下面这些问题(挺多的 - -!),聘请中高级的安卓开发会往深的去问,并且会问一延伸二。以下我先提出几点重点,是面试官基本必问的问题,请一定要去了解! 基础知识 – 四大…

五年后计算机专业还会吃香吗,未来5年的紧缺职业 五年后最吃香的专业有哪些?...

人们常言“360行,行行出状元”,但是在现实生活中,人们想要找到一份适合自己的工作却并非易事,此前根据人社部的数据显示,2019届高校的毕业生人数达到了834万,就业的压力也是相当大了。那么,未来…

2023年最热门的网络安全行业岗位分析

前言 大数据、人工智能、云计算、物联网、5G等新兴技术的高速发展,蒸蒸日上。但是随之也出现了许多问题,比如:政府单位、企业、个人信息泄露,网络安全问题日益严峻,网络空间安全建设刻不容缓。 网络安全人才需求量巨…

注意!2023年你必须要了解的IT各行业趋势

人工智能蝉联了将近一个月的热门话题,用户最开始只是用来写论文、查资料、写代码,如今GPT-4已经能为人类安排菜谱了。科技的发展总是超乎我们想象边界,如果想快速跟上科技潮流,那么我们就一定得从了解IT行业趋势入手,了…

IT行业的5个热门岗位,你了解吗?

随着互联网发展和IT技术的普及,IT行业作为发展前途最大的几大行业之一,获得了前所未有的广泛关注,并且随着科技的发展,这一趋势将更加明显。 但对于IT行业新人来说,想要在IT行业有所建树,首先应该选择适合…

2023年IT行业就业前景分析,准职场人必看!

随着疫情的放开,2022已接近尾声。新的一年即将来临,作为打工人最关心的肯定是2023年的就业市场以及行业未来发展前景。 如何最直观地看待这个行业是否还有前景,最好的方式就是看市场需求。作为准职场人的你,速速关注起来&#xff…

未来中国最热门的十大职业排行榜

未来中国最热门的十大职业排行榜_联展新闻 2014年的大学毕业生已经毕业个把月了,接下来就是投身到各种工作岗位中。下面笔者根据行业前景、承受压力、进入门槛、福利待遇、供求、上升空间、收入评选出未来中国热门职业前十,供大家参考。 1、销售   提…

验证 哥德巴赫猜想

验证 哥德巴赫猜想 2.写一个函数验证哥德巴赫猜想,一个不小于6的偶数可以表示为两个素数之和,如633,835,1037……在主函数中输入一个不小于6的偶数n,然后调用函数goldbach,在goldbach函数中再调用prime函数,prime函数…

验证哥德巴赫猜想

使用函数验证哥德巴赫猜想:任何一个不小于 6 的偶数均可表示为两个奇素数之和。 如 633,835,…,18513。 将 6~100 之间的偶数都表示成两个素数之和,打印时一行打印 5 组。试编写相应程序。 分析&#xff1a…

chatgpt赋能python:Python源代码的隐藏方法

Python源代码的隐藏方法 Python是一种高级编程语言,由于其易学易用的特点,已成为应用最广泛的编程语言之一。然而在某些情况下,我们可能需要隐藏Python代码的源代码,例如保护知识产权、防止竞争等。在本文中,我们将介…

最近爆火的一款 PDF 神器!

这是「进击的Coder」的第 808 篇技术分享 作者:小 G 来源:GitHubDaily “ 阅读本文大概需要 5 分钟。 ” 为了解决文档交流和打印的问题,1993 年,Adobe 推出了第一版 PDF。 当时,为了寻找一种能够在各个计算机平台上保…

谷歌大脑科学家 Caffe缔造者 贾扬清 微信讲座完整版

转载:http://suanfazu.com/t/caffe/9479 大家好!我是贾扬清,目前在Google Brain,今天有幸受雷鸣师兄邀请来和大家聊聊Caffe。 没有太多准备,所以讲的不好的地方还请大家谅解。 我用的ppt基本上和我们在CVPR上要做的tut…

向论文作者要代码的邮件怎么写

【Reference】 找人要代码的邮件怎么写