实时高保真人脸编辑方法PersonaMagic,可根据肖像无缝生成新角色、风格或场景图像。

今天给大家介绍的是一个高保真实时人脸编辑方法PersonaMagic,通过分阶段的文本条件调节和动态嵌入学习来优化人脸定制。该技术利用时序动态的交叉注意力机制,能够在不同阶段有效捕捉人脸特征,从而在生成个性化图像时最大程度地保留身份信息。通过对比实验,PersonaMagic在定量和定性评估中均优于现有的最先进方法,展现出其在多种场景和风格下的灵活性与鲁棒性。

PersonaMagic 可根据用户提供的肖像无缝生成新角色、风格或场景的图像。通过通过串联平衡策略学习阶段调节嵌入,该方法可以准确捕捉和表示看不见的概念,忠实地创建与提供的提示相符的角色,同时最大限度地减少身份扭曲。

相关链接

  • 论文:http://arxiv.org/abs/2412.15674v1

  • 代码:https://github.com/xzhe-Vision/PersonaMagic

论文介绍

PersonaMagic:采用串联平衡的阶段调节高保真面部定制

摘要

个性化图像生成在将内容适应新概念方面取得了重大进展。然而,仍然存在一个持续的挑战:平衡看不见的概念的准确重建与根据提示进行编辑的需求,特别是在处理面部特征的复杂细微差别时。在本研究中,我们深入研究了文本到图像调节过程的时间动态,强调了阶段划分在引入新概念方面的关键作用。我们提出了 PersonaMagic,这是一种专为高保真面部定制而设计的阶段调节生成技术。使用一个简单的 MLP 网络,我们的方法在特定的时间步长间隔内学习一系列嵌入来捕捉面部概念。此外,我们开发了一种串联平衡机制,可以调整文本编码器中的自我注意响应,平衡文本描述和身份保存,从而改善这两个领域。大量实验证实了 PersonaMagic 在定性和定量评估方面都优于最先进的方法。此外,它的稳健性和灵活性在非面部领域得到了验证,并且它还可以作为增强预训练个性化模型性能的有价值的插件。

方法

流程概述。 给定一张图像,我们在动态阶段学习一系列嵌入以有效地捕获身份信息,同时在静态阶段使用固定嵌入。提出的 TE 策略应用于文本编码器,确保个性化结果与文本描述进一步对齐。

被忽视的语义导致注意力图不理想。注意力权重标注在交叉注意力图的左下角。

所提出的串联平衡的图示。

结果

与最先进的方法对名人的定性比较。

与非名人的最先进方法进行定性比较。

训练期间使用和不使用 Lte 的定制结果。注意权重在交叉注意图的左下角标注。

不同模型变体的定性消融研究。

该方法可以应用于各种下游任务。从上到下:本地化定制、 表达修改和组合生成。

PersonaMagic 可以适应非面部领域,展示了其超越面部内容的通用性。

将PersonaMagic集成到预训练的个性化模型中,可以改善结果中的面部细节。

结论

文中介绍的PersonaMagic是一种高保真人脸定制技术,它利用基于综合分析的阶段调节文本调节策略。引入了一个轻量级网络,通过动态词嵌入来实现这种调节机制,有效地捕获身份信息,同时避免过度拟合。此外,文中提出了一个串联平衡损失来解决文本对齐和身份保存之间的权衡。大量实验证明了该方法与最先进的方法相比具有卓越的性能,在保真度和可编辑性方面都表现出色,并展示了其在各种下游定制任务中的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/502572.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我的创作纪念日——《惊变128天》

我的创作纪念日——《惊变128天》 机缘收获日常成就憧憬 机缘 时光飞逝,转眼间,我已在这条创作之路上走过了 128 天。回顾起 2024 年 8 月 29 日,我满怀忐忑与期待,撰写了第一篇技术博客《讲解LeetCode第1题:两数之和…

常见的框架漏洞复现

1.Thinkphp Thinkphp5x远程命令执行及getshell 搭建靶场 cd vulhub/thinkphp/5-rce docker-compose up -d 首页 漏洞根本源于 thinkphp/library/think/Request.php 中method方法可以进行变量覆盖,通过覆盖类的核心属性filter导致rce,其攻击点较为多&…

云备份项目--服务端编写

文章目录 7. 数据管理模块7.1 如何设计7.2 完整的类 8. 热点管理8.1 如何设计8.2 完整的类 9. 业务处理模块9.1 如何设计9.2 完整的类9.3 测试9.3.1 测试展示功能 完整的代码–gitee链接 7. 数据管理模块 TODO: 读写锁?普通锁? 7.1 如何设计 需要管理…

flutter在windows平台中运行报错

PS D:\F\luichun> flutter run当运行flutter项目时,【解决如下报错】 /C:/flutter/packages/flutter/lib/src/painting/star_border.dart:530:27: Error: The getter Matrix4 isnt defined for the class _StarGenerator.- _StarGenerator is from package:flut…

Synthesia技术浅析(二):虚拟人物视频生成

Synthesia 的虚拟人物视频生成模块是其核心技术之一,能够将文本输入转换为带有同步语音和口型的虚拟人物视频。该模块如下所示: 1.文本输入处理 2.语音生成(TTS, Text-to-Speech) 3.口型同步(Lip Syncing&#xff0…

[Linux]进程间通信-共享内存与消息队列

目录 一、共享内存 1.共享内存的原理 2.共享内存的接口 命令行 创建共享内存 共享内存的挂接 去掉挂接 共享内存的控制 3.共享内存的使用代码 Comm.hpp--封装了操作接口 客户端--写入端 服务器--读取端 4.管道实现共享内存的同步机制 二、消息队列 1.底层原理 2…

凸包(convex hull)简述

凸包(convex hull)简述 这里主要介绍二维凸包,二维凸多边形是指所有内角都在 [ 0 , Π ] [0,\Pi ] [0,Π]范围内的简单多边形。 凸包是指在平面上包含所有给定点的最小凸多边形。 数学定义:对于给定集合 X X X,所有…

【ArcGISPro/GeoScenePro】检查多光谱影像的属性并优化其外观

数据 https://arcgis.com/sharing/rest/content/items/535efce0e3a04c8790ed7cc7ea96d02d/data 操作 其他数据 检查影像的属性 熟悉检查您正在使用的栅格属性非常重要。

提升汽车金融租赁系统的效率与风险管理策略探讨

内容概要 在汽车金融租赁系统这个复杂的生态中,提升整体效率是每个企业都渴望达成的目标。首先,优化业务流程是实现高效运行的基础。通过分析目前的流程,找出冗余环节并进行简化,能够帮助企业缩短审批时间,提高客户满…

以太网UDP协议栈实现(支持ARP、ICMP、UDP)--FPGA学习笔记26

纯verilog实现,仅使用锁相环IP、FIFO IP,方便跨平台移植。支持ping指令。 以太网系列文章: 以太网ICMP协议(ping指令)——FPGA学习笔记25-CSDN博客 以太网ARP协议——FPGA学习笔记23-CSDN博客 以太网PHY_MDIO通信(基于RTL821…

edeg插件/扩展推荐:助力生活工作

WeTab 此插件在我看来有2个作用 1.改变edeg的主页布局和样式,使其更加精简,无广告 2.提供付费webtab Ai(底层是chatGpt) 沉浸式翻译 此插件可翻译网页的内容 假设我们浏览github 翻译前 翻译后 Better Ruler 可以对网页的距离进行测量 适合写前端的小伙伴 用法示例:

java项目之校园管理系统的设计与实现(源码+文档)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的校园管理系统的设计与实现。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: springboot校园…

设计模式 结构型 适配器模式(Adapter Pattern)与 常见技术框架应用 解析

适配器模式(Adapter Pattern)是一种结构型设计模式,它允许将一个类的接口转换成客户端所期望的另一个接口,从而使原本因接口不兼容而无法一起工作的类能够协同工作。这种设计模式在软件开发中非常有用,尤其是在需要集成…

打造三甲医院人工智能矩阵新引擎(一):文本大模型篇--基于GPT-4o的探索

一、引言 当今时代,人工智能技术正以前所未有的速度蓬勃发展,深刻且广泛地渗透至各个领域,医疗行业更是这场变革的前沿阵地。在人口老龄化加剧、慢性疾病患病率上升以及人们对健康需求日益增长的大背景下,三甲医院作为医疗体系的核心力量,承担着极为繁重且复杂的医疗任务。…

S7-200采集频率信号

S7-200可以借助高速计数器完成频率信号采集,接入流量计、转速等信号。官方给出的程序块无法完成多路同时采集,需要自己进行修改。 首先下载官方的频率采集库 SIOS 下载后导入library,在library中出现Frequency(v1.0) 拖进ladder后&#xf…

专家混合(MoE)大语言模型:免费的嵌入模型新宠

专家混合(MoE)大语言模型:免费的嵌入模型新宠 今天,我们深入探讨一种备受瞩目的架构——专家混合(Mixture-of-Experts,MoE)大语言模型,它在嵌入模型领域展现出了独特的魅力。 一、M…

【Vue】分享一个快速入门的前端框架以及如何搭建

先上效果图: 登录 菜单: 下载地址: 链接:https://pan.baidu.com/s/1m-ZlBARWU6_2n8jZil_RAQ 提取码:ui20 … 主要是可以自定义设置token,更改后端请求地址较为方便。 应用设置: 登录与token设置: 在这里设置不用登录,可以请求的接口: request.js i…

MySQL叶子节点为啥使用双向链表?不使用单向呢?

文章内容收录到个人网站,方便阅读:http://hardyfish.top/ 文章内容收录到个人网站,方便阅读:http://hardyfish.top/ 文章内容收录到个人网站,方便阅读:http://hardyfish.top/ MySQL 中的 B 树索引&#x…

用户界面的UML建模10

非正常的可视反馈可伴随着同步事件发生,而同步事件可由系统动作产生。但是,可以分别对它们进行建模。 在下节中将对这些特殊的事件依次进行论述。 6.1 异常处理建模 异常,由Meyer 定义[16],其作为运行时事件(run-time events&a…

最新版Chrome浏览器加载ActiveX控件之CFCA安全输入控件

背景 CFCA安全输入控件用于保证用户在浏览器、桌面客户端、移动客户端中输入信息的安全性,防止运行在用户系统上的病毒、木马等恶意程序入侵窃取用户输入的敏感信息。确保用户输入、本地缓存、网络传输整个流程中,输入的敏感信息不被窃取。广泛应用于银行…