一张图生成定制版二次元人脸头像,还能“模仿”你的表情

作者 | Pramook Khungurn

整理 | Jane、刘畅

出品 | AI科技大本营(ID:rgznai100)

 

【导读】最近,日本一位酷爱 Vtubers的粉丝结合了此前发表的多项 GAN 工作制作了两个动漫人物生成器的工具,这两个工具一个可以帮助广大动漫迷们快速、轻松的生成带有不同姿态的动漫人物形象,另一个可以帮助大家把真人脸表情移植到动漫人物上,以后你也可以定制你的“动漫Twins姐妹 / 兄弟”了。

 

作者不仅是一个资深 Vtubers 迷,对深度学习技术也很关注,也是在这两个兴趣共同激发下,促使了这两个工具:一个是基于单图就能生成动态动漫人物形象;第二个工具基于第一个工具,输入的单图改造,通过摄像头获取实时人脸图像的姿态特征赋予给动漫人物形象中。

 

人工智能技术是动漫创作的重要工具之一,作为一名深度学习调参师的自觉性,要了解这项工作的效果和方法,自然要赶紧学起来。

效果展示

 

copy 你的一颦一笑,不再话下。这两个工具是怎么做到的?我们先来看看最终成果的展示视频:

首先是第一个工具:基于GUI的单图动漫人脸表情生成器。

基于这一个工作的成功方法,作者还在这个系统中加入了人脸表情检测功能。这个动漫角色就可以实时模仿人脸的表情了。通过改变输入,用摄像头获取的人脸姿态表情特征,输入后让动漫人物 Get 到人脸表情同款:

 

有了第二个工作,作者也尝试把输入换成一段视频,当然方法同样奏效。

              

这么有意思,卡哇伊的工作是怎么做到的?下面我们会介绍一下模型、数据这两大方面的方法,但是在整个工作中,还涉及如何标注数据、图像数据处理规范、采样与渲染等诸多细节工作的处理,我们无法一一讲到,但是作者本人进行了详细的说明与介绍,大家可以仔细阅读项目。

 

项目地址:

https://pkhungurn.github.io/talking-head-anime/

 

方法介绍

 

(1)输入和输出

 

大家在上面的视频中可以看到,界面左侧表示的是输入的单幅动漫人物图像,中间罗列了 6 种姿态调节栏,每种姿态有一定的设置范围,可以多种姿态叠加使用,而右侧图像中则直接输出生成的效果图像。即整个工作只需要输入一张动漫脸和一个姿态(如一种表情),系统就可以在另一张背景中输出给定姿态的动漫脸。

              (输入与输出)

 

(2)实现的主要两个环节

 

如何生成效果?这就是模型解决的问题,通过改变面部表情和控制表情幅度(眼睛或嘴巴的张开程度)来设计「面部表情」(Face morpher)与「面部旋转器」(Face rotator)两个独立模型。

               (“两步走”系统)

 

(3)具体模型和方法

               (模型总图)

 

近年来,GAN 在面部表情合成的诸多任务中都取得令人惊喜和和印象深刻的工作。2017 年,StarGAN 提出后,我们可以轻松调整图像中的发色、肌理、肤色、合成有趣的表情,随后,一种基于动作单元(AU)的新 GAN 模型——GANimation 被提出,在无监督训练后,只需要控制 AU 的激活程度,并选取几个 AU 进行组合,模型就可以生成表情转换,效果也很生动形象。

              

而这个系统中的「面部表情」模型就是基于 GANimation 模型设计的。那「面部旋转器」是如何做的呢?作者将  GANimation 模型与发表于 ECCV 2016 上一篇关于光流法的工作《View Synthesis by Appearance Flow》方法进行融合,第一步网络的输出是第二步网络的输入。

             

什么是光流法?光流是对物理世界中物体上各点实际运动速度的估计,解决这一光流估计问题的计算方法称为光流法。在《View Synthesis by Appearance Flow》工作中,主要解决的任务是根据输入图片中物体或场景的视角生成另一个视角的物体或场景,就好比当我们看到一个物体时,我们的大脑中也能想象出这个物体旋转后的样子。

             《View Synthesis by Appearance Flow》

 

如果想了解更多这两篇论文,下面的地址用得上:

(1)关于 GANimation 模型,可阅读论文:

https://www.albertpumarola.com/research/GANimation/index.html 

(2)《View Synthesis by Appearance Flow》

https://arxiv.org/pdf/1605.03557.pdf

 

貌似有了上面的介绍,如果我们想做这个项目,似乎还少了点什么?对,数据集。

 

(4)数据集

 

虽然现在有很多卡通、动漫人物,但是想要实现一些“动起来”的效果,如果只是我们下载的 2D 平面图像,肯定会影响效果,如果是 3D 的数据,肯定是最好不过了。

 

对角色进行 3D 建模,无论是人力还是物力成本都非常昂贵。如果能基于 2D 即时动态生成动漫图

 

为此,作者专门创建了一个新的数据集。作者从 MikuMikuDance 上下载了约 8000 个 3D 动画模型。并将数据集分成了三部分:训练集、验证集与测试集。

 

MikuMikuDance,简称 MMD,是一个免费的动画程序,可让用户制作动画并创建3D动画模型,

              

作者详细介绍了如何一步一步生成数据,如何训练Face Morpher的网络,如何融合两种算法造出了Face Rotator网络,并在最后给出了主观和客观的结果对比,为这位日本小哥严谨的学术态度点赞。

 

总结

 

该系统仅输入一张2D图像,便可以旋转、改变该图像的面部表情。不需要创建3D模型就可以实现会说话的动态动漫人物,大大降低了动画制作的成本,而且该系统易于使用。不过,未来还有可以继续 working on 的方向,如:

 

1、操纵自然场景下的动漫图像

2、修复现有模型带来的模糊、伪影等视觉效果

3、支持多种嘴、眼睛、眉毛的变化,使效果更逼真

4、从绘画图里面推断2.5D层模型或3D模型

 

项目地址:

https://pkhungurn.github.io/talking-head-anime/

(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)

精彩推荐

开幕倒计时4天,6.6 折票限时特惠(立减1400元)倒计时 1 天,学生票仅 599 元!| 2019 中国大数据技术大会(BDTC)即将震撼来袭!豪华主席阵容及百位技术专家齐聚,十余场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读。

推荐阅读

  • IEEE分享 | 机器学习在领英的规模化应用

  • 从YARN迁移到k8s,滴滴机器学习平台二次开发是这样做的

  • 阿里正式开源通用算法平台Alink,“双11”将天猫推荐点击率提升4%

  • 最新单步目标检测框架,引入双向网络,精度和速度均达到不错效果

  • 拒绝成为比尔·盖茨的“万维网之父”,又要干大事!

  • 测试小白必读!从0基础做到「大厂测试」,要掌握什么技能?

  • 科技公司最爱的50款开源工具,你都用过吗?

  • OceanBase 的前世今生

  • 骚操作!程序员将简历做成游戏,边看边玩还能通关!HR……

  • 如何判断一家互联网公司要倒闭了?

  • 把700元的单片机改造成以太坊节点, 9步get起新技能!

  • 你点的每个“在看”,我都认真当成了AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37112.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

个人头像人工智能生成工具,上线一天就已赚了1万美金

文章目录 仅上线一天就已赚1万美金是什么怎么赚钱启示附录 仅上线一天就已赚1万美金 作者刚刚在社交媒体上分享到: 是什么 个人自己头像人工智能生成工具。让在他的网站上传自己20张个人照片,脸部要清晰的更好(方便机器学习训练&#xff…

人类面部表情数据集(12万张表情照片)

人类面部表情数据集(12万张表情照片) 一共有7类人类面积表情,分别是:悲伤、高兴、害怕、惊讶、平静、生气、厌恶。一个文件夹一类。表情识别模型训练的很好数据。一共有7类人类表情数据集,文件夹如下图所示&#xff1…

聊天界面的制作(三)——表情列表发送功能

基本功能 1. 自定义标题栏。(标题栏不做任何功能) 2. 有左右发送按钮。(这个只能自己和自己聊天哦,所以有左右发送按钮) (1)点击左边按钮发送按钮,在ListView的左侧显示。   &…

FindMeChat(盲盒社交)-匿名聊天-好玩有趣的社交平台

FindmeChat(盲盒社交)APP 重磅来袭! 全新玩法,遨游陌生社交元宇宙。 无聊急救包!Findmechat(盲盒社交)! 官网: http://www.findmechat.comhttp://www.findmechat.com 聊天网址(用手机浏览器打开哦): http://www.findmechat.nethttp://www…

虚拟人,数字人,虚拟数字人的定义区别

虚拟人 虚拟人(Virtual Human),指通过数字技术模拟真实的人体器官而合成的三维模型。这种模型不仅具有人体外形以及肝脏、心脏、肾脏等各个器官的外貌,而且具备各器官的新陈代谢机能,能较为真实地显示出人体的正常生理…

AI 智能头像生成神器|PhotoShot

​ 题图:通过 PhotoShot 将普通图片生成智能头像 酱酱来为大家推荐好玩的开源软件啦 🥳!! 大家日常工作、生活中,经常会需要在一些网站、软件中自己的头像,但总会碰到一些问题,比如觉得照的不好…

借助免费AI艺术平台生成头像

随着 AI 的兴起,看到越来越多的实例通过 OpenAI 的举措变得轻松,使得 AI 艺术在今天早已不是什么新鲜事物,而且在游戏领域也开始有所应用。人工智能(AI,artificial intelligence)艺术,更准确地说…

【不存在的人】用Python获取生成随机头像,还不侵权

文章目录 ⛳️ 实战场景⛳️ 站点 1 实战编码⛳️ 站点 2 实战编码 ⛳️ 实战场景 在编写网站账号系统时,有时需要替新注册用户随机生成一个头像,有的站点使用色块拼接,有的网站使用随机汉字,今天我们使用一些随机头像站点&#…

征稿|IJCAI‘23大模型论坛,DeepMind EleutherAI Oxford主题报告

第一届LLMIJCAI’23 Symposium征稿中,优秀投稿论文推荐《AI Open》(EI检索)和 《JCST》(CCF-B)发表。 大规模语言模型(LLMs),如ChatGPT和GPT-4,以其在自然语言理解和生成方面的卓越能力&#xf…

计算机毕设Python+Vue学生社团管理(程序+LW+部署)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

如何做一个基于微信评选投票小程序系统毕业设计毕设作品

分析架构 我们开发系统,常规有两个架构,一个BS架构(浏览器/服务器模式),一个CS(客户端/服务器端模式);我们微信小程序项目属于CS架构,C客户端是我们要开发的小程序&…

计算机毕设Python+Vue学生实验报告管理系统(程序+LW+部署)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

大数据毕设 - 校园卡数据分析与可视化(python 大数据)

文章目录 0 前言1 课题介绍2 数据预处理2.1 数据清洗2.2 数据规约 3 模型建立和分析3.1 不同专业、性别的学生与消费能力的关系3.2 消费时间的特征分析 4 Web系统效果展示5 最后 0 前言 🔥 Hi,大家好,这里是丹成学长的毕设系列文章&#xff…

大学生毕设小demo(后台管理系统)

大学生毕设小demo 介绍 使用java和react和mongoDBmySQLredis搭建的一个大学生模板管理系统,功能丰富 可查看线上部署地址点击链接体验功能 一、相关功能(都是同步数据库的) 1.数据的基本增删查改 2.用户的登录判断(含token60s有效验证码)&#xff0…

文件名、目录名或卷标语法不正确;AttributeError: module ‘numpy‘ has no attribute ‘long‘;shell脚本:Syntax error: Bad for

1、文件名、目录名或卷标语法不正确; 根据您提供的代码片段,错误出现在makedirs()函数的调用中。这个函数用于创建多层次的目录。 根据代码片段,makedirs()函数的调用是在以下条件满足时发生的: head和tail都不为空。head所代表的路径不存…

大模型-DeltaTuning:①增量式(原模型参数不变,插入可微调参数层)、②指定式(原模型参数冻结一部分参数,微调一部分参数)、③重参数化式(将原模型参数层改造,比如插入低秩)

【随着模型增大,各方案区别不大】 统一框架: 《Towards a Unified View of Parameter-Efficient Transfer Learning》 GitHub - thunlp/PromptPapers: Must-read papers on prompt-based tuning for pre-trained language models. GitHub - thunlp/DeltaPapers: M

大模型微调技术(Adapter-Tuning、Prefix-Tuning、Prompt-Tuning(P-Tuning)、P-Tuning v2、LoRA)

2022年11月30日,ChatGPT发布至今,国内外不断涌现出了不少大模型,呈现“百模大战”的景象,比如ChatGLM-6B、LLAMA、Alpaca等模型及在此模型基础上进一步开发的特定领域的大模型。今年3月15日,GPT-4发布后,也…

FP独立站卖家怎么解决收款问题?挑选支付公司有何关注点?

2023年是充满希望又充满挑战的一年。这一年,新冠肺炎疫情恢复,经济慢慢复苏,对做跨境电商的卖家来说是个不错的机遇;但由于chatgpt人工智能的出现,F牌网站被检测出来的几率大大提高……让F牌独立站卖家最头疼的是&…

2023年8大公司数据泄露事件

数据安全一直是社会关注的热点问题,数据泄露事件的披露始终占据媒体的头条榜首。随着大数据、互联网、5G的迅速发展,为人类带来无限发展机遇的同时,也催生了大量的信息泄露事件。 当发生数据泄露事件时,他们攻破企业网络防线&…

AI浪潮下,企业如何保障数据安全,不泄露

随着数字经济蓬勃发展,数据对于企业的价值与重要性不断攀升,随之而来的数据安全风险也不断涌现。再加上ChatGPT诞生,推动ai算力技术大步跃进,而算力提升的背后是史诗量级规模的数据投入,数据量越大,用户数据…