个性化图像生成新王炸!无需微调,Meta重磅发布Imagine yourself:三大核心全面SOTA!

论文链接:https://arxiv.org/pdf/2409.13346

亮点直击

  • 本文提出了“Imagine Yourself”,这是一种用于个性化图像生成的创新型最先进模型。该模型可以将任意参考图像作为输入进行定制化图像生成,并且不需要针对每个对象进行调整。
  • “Imagine Yourself”结合了新的组件,并在现有模型的基础上显示出显著改进:一种新的合成配对数据生成机制以促进图像多样性;一个具有三个文本编码器的全并行注意力机制和一个完全可训练的视觉编码器架构,以提高文本的准确性;以及一种新颖的粗到细多阶段微调方法,逐步提升视觉质量的界限。
  • 本文提供了与最先进模型相比的全面的定性和定量评估结果。本文在人类注释的数千个测试示例中提供了黄金标准,以证明“Imagine Yourself”在所有方面的卓越性能,包括身份保留、提示对齐和视觉吸引力。

效果展示

总结速览

解决的问题

  • 现有个性化图像生成模型需要针对每个用户进行微调,效率低且不够灵活。

提出的方案

  • 开发“Imagine Yourself”,一个无需特定主题微调的个性化图像生成模型,所有主题共享一个模型。

应用的技术

  • 身份保留:使用可训练的视觉编码器、零卷积初始化和 mask 视觉 embedding。
  • 视觉质量:采用粗到细的多阶段微调方法和人类参与(HITL)。
  • 文本对齐:引入合成配对数据生成机制,结合三个文本编码器的全并行注意力机制。

达到的效果

  • 在身份保留、提示对齐和视觉吸引力方面显著超越现有最先进模型。
  • 在复杂提示的文本对齐上,性能提升了27.8%。
  • 通过数千个测试示例的人类评估,证明了模型的卓越性能。

方法

“Imagine Yourself”模型可以通过一张特定主体的面部图像,生成由文本提示引导的视觉上吸引人的个性化图像。本文的方法能够遵循复杂的提示指导,生成具有多样化头部和身体姿势、表情、风格和布局的图像。

为了突破个性化图像生成的界限,首先识别出三个关键方面,这些方面对于引发令人满意的人类视觉体验至关重要:身份保留、提示对齐和视觉吸引力,本文引入了旨在增强这些方面的新技术。具体来说,提出了一种新颖的合成配对数据生成机制,新的完全并行架构结合了三个文本编码器和一个可训练的视觉编码器,以优化身份保留和文本对齐,以及一种新颖的由粗到细的多阶段微调方法,旨在逐步增强视觉吸引力,从而推动生成图像的视觉吸引力边界。最后,展示了“Imagine Yourself”在多主体个性化上的通用性。

概览

下图 2 展示了所提模型架构。使用扩散模型进行个性化图像生成的关键在于将参考身份作为附加控制信号引入扩散模型。本文提出通过一个可训练的CLIP补丁编码器从参考图像中提取身份信息。然后,通过并行交叉注意力模块将身份视觉信号添加到文本信号中。为了更好地保留基础模型的高视觉质量,本文利用低秩适配器(LoRA)来冻结自注意力和文本交叉注意力模块,仅对适配器进行微调。

合成配对数据 (SynPairs)

在训练过程中,发现一个关键问题是使用未配对数据,即将裁剪后的图像作为输入,原始图像作为目标。这会引入严重的复制粘贴效应,使模型难以学习输入和输出之间的真实身份关系,而不仅仅是复制参考图像。因此,模型无法生成符合复杂提示的图像,例如改变表情或头部方向。

为了解决这个问题,本文提出了一种新的合成数据生成方法,用于创建高质量的配对数据(同一身份但表情、姿势和光照条件不同)进行训练。相比直接获取不易获得的真实配对数据,研究表明,合成配对数据可以保留更高质量的数据,从而进一步增强“Imagine Yourself”模型的多个方面。

为了生成SynPairs数据,本文首先通过多模态LLM获取真实参考图像的密集图像描述。然后,这些描述通过基于Llama3(Meta AI)的重写阶段,以在描述中注入更多的视线和姿势多样性。重写后的描述被输入到例如Emu这样的文本到图像生成工具中,作为提示生成高质量的合成图像。接下来,根据参考图像的身份对生成的图像身份进行优化。在生成大量精心策划的合成对后,它们会通过基于相似性的自动过滤器进行筛选。

模型结构

视觉编码器

本文建议使用可训练的CLIP ViT-H补丁视觉编码器,从参考图像中提取身份控制信号。与之前严重依赖面部 embedding的方法不同,本文发现通用的可训练视觉编码器可以提供足够的信息来保留身份特征。

为了进一步提高身份保留能力,本文对脸部区域进行裁剪,并遮盖参考图像中相应的背景,以避免模型关注非关键区域,例如图像背景和裁剪图像中的非脸部区域。上图2展示了视觉 embedding的工作流程。还建议使用zero_conv进行初始化,以避免在训练开始时添加噪声控制信号。

文本编码器

本文采用了三种不同的文本编码器:CLIP ViT-L文本编码器、UL2和ByT5,作为文本条件机制。这些编码器的选择是基于其各自的优势和对特定任务的适用性。例如,CLIP文本编码器与CLIP视觉编码器共享一个公共空间,有助于增强身份保留。为了利用这种对齐,本文用预训练的CLIP文本编码器初始化视觉编码器的交叉注意力模块。

同时,选择UL2是因为其在理解长而复杂的文本提示方面的能力,这对于处理复杂输入数据非常重要。此外,ByT5模型因其在字符编码方面的卓越能力而被集成。本文利用ByT5来改善图像中的视觉文本生成,例如标牌上的文字。

完全并行的图文融合

本文研究了一种并行注意力架构,以结合视觉和文本条件。具体来说,从参考图像中提取的新视觉条件与空间特征通过一个新的视觉交叉注意力模块进行融合。该视觉交叉注意力模块的输出随后与文本交叉注意力的输出相加。在实验中,这种设计比简单地将文本和视觉控制进行拼接更好地平衡了视觉和文本控制。

LoRA

为了保持基础模型的视觉质量,本文在交叉注意力模块上应用了低秩适配器(LoRA)。基础Unet中的自注意力和文本交叉注意力模块保持冻结。观察到,这种设计不仅更好地保留了基础模型的图像生成能力,还将收敛速度提高了最多5倍。

多阶段微调

本文提出了一种多阶段微调方法,通过交替使用真实和合成数据,在可编辑性和身份保留之间实现最佳平衡。在前两个阶段,利用大规模数据(九百万)对模型进行预训练,使其能够基于参考身份进行调整。在后续阶段,通过人工参与(HITL)收集的高质量、美学图像对预训练的检查点进行微调。经验表明,使用真实图像训练能最好地保留身份,而使用合成图像训练则能更好地对齐提示(可编辑性)。合成图像是从各自的提示生成的,因此图像文本对齐度高,训练过程中噪声信息较少,但身份信息不如真实数据丰富。这就是本文采用交替训练策略的原因,如下图5所示。经过第一阶段的真实数据预训练后,模型能够基于图像进行调整;第二阶段的合成数据预训练后,提示对齐度高但身份不完美;第三阶段的高质量真实数据微调后,身份良好但提示对齐度下降;第四阶段的高质量合成数据微调实现了身份和可编辑性之间的最佳平衡。

扩展到多主题个性化

先前介绍的全并行图像-文本融合流程可以灵活扩展以适应多主体个性化。例如,在两人场景中,本文可以将两个参考图像的视觉 embedding 进行拼接,然后输入到K和V组件中,而不是像下图4左上分支所示的那样仅传递单个参考图像的全局 embedding 和补丁 embedding。在这种设置下,通过训练,网络学习如何在生成提示引导的图像背景时,将参考图像映射到群体照片中的对应主体。下图11展示了一些两人个性化的结果示例。

实验

本节对模型进行了定性和定量评估,并将其与当前最先进的个性化模型进行了比较。结果表明,本文的模型在各个方面都优于现有模型,设立了新的业界标杆。

定量评价

评估数据集

为了对“Imagine Yourself”模型进行定量评估,本文创建了一个由两部分组成的评估集:参考图像和评估提示。为了在所有代表性案例中进行全面比较,收集了51个不同性别、种族和肤色的参考身份。研究者们设计了65个提示来评估模型,这些提示涵盖了广泛的使用场景,包括需要面部表情或姿势变化、相机运动和风格化的复杂提示。这些提示有助于评估模型在复杂交互、多样化姿势生成和协调性方面的能力。每个身份与所有65个提示配对,总共进行51×65=3315次生成,以供一轮人工评估。提示的分布情况如下图12所示。

基准方法

本文对比了当前最先进的适配器个性化模型和控制模型。对于适配器方法,本文选择了在视觉吸引力、身份保留和提示对齐这三个评估模型的维度上达到最佳平衡的模型。对于控制方法,本文注意到姿势图像的选择对最终生成图像的构成起着重要作用,即对于某些提示,精心选择的姿势图像可以使生成的图像更好或更差。为了公平比较,本文使用参考图像本身作为姿势条件。

人工评价

为了评估生成图像的质量,本文进行了大规模的标注过程,评估了图像的各个方面。本文使用人工标注作为评估模型性能(独立评估)和与其他模型比较(对比评估)的黄金标准。

在独立评估中,本文向标注者展示了输入图像、提示和生成图像,并要求他们根据以下三个问题在“强通过/弱通过/不通过”范围内进行评分:

  1. 身份相似度:输出图像中的主体是否与原始图像中的主体具有相同的身份?
  2. 提示对齐:输出图像是否忠实地遵循个性化提示?
  3. 视觉吸引力:输出图像是否具有视觉吸引力?

在对比模型评估中,本文在相同的三个维度上将一个模型与另一个模型进行比较。

如下表1所示,在大多数维度上,Imagine Yourself显著优于两种最先进的方法:adapter-based模型和control-based模型。具体来说,Imagine Yourself在提示对齐方面显著更好,分别比最先进的适配器模型和控制模型提高了45.1%和30.8%。然而,本文观察到控制模型在身份保留方面优于Imagine Yourself,因为它在图像中心硬性粘贴参考图像,尽管身份指标较高,但导致图像不自然。

消融实验

在本文的消融研究中,检验了所提议的“Imagine Yourself”模型中各个组件的有效性。主要的消融结果见下表 2。

多阶段微调的影响

消融结果突出显示了多阶段微调的影响。将多阶段微调减少到单阶段会显著降低所有指标,尤其是在提示对齐上降低了25.5%,在视觉吸引力上降低了42.0%。此外,观察到,合成微调阶段提供了更好的提示对齐,而真实数据微调阶段提高了身份保留能力。

完全并行注意力的影响

本文通过将完整的并行注意力移除,改为标准的标记串联设计,以展示完整并行注意力架构的影响。本文观察到所有指标都有所下降,具体为提示对齐降低5.2%、身份保留降低1.4%、视觉吸引力降低22.0%。这表明将三个文本编码器和视觉编码器通过完整并行注意力结合的重要性。

合成对的影响

SynPairs通过消除复制粘贴效应增加了生成图像的多样性。本文的消融研究验证了这一假设,并展示了相比没有合成配对训练的模型有更好的提示对齐。本文观察到,这对需要对原始图像进行较大改动的复杂提示特别有效,例如表情变化、遮挡面部或转头等。然而,也发现SynPair训练在身份保留上有所退步,因为对应的参考和目标配对中的面部并不完全相同。未来的工作将集中于提高SynPair训练数据中面部的相似性。

未来工作

研究者们希望继续研究并探索以下方向:

  • 将个性化图像生成扩展到视频生成。关键是在视频生成中一致地保持身份和场景。
  • 尽管“Imagine Yourself”在提示对齐方面优于现有模型,但本文观察到在处理描述非常复杂姿势的提示(例如,从山上跳下)时仍然存在局限性。未来的工作将专注于提高生成图像在这些提示上的质量。

结论

本文介绍了“Imagine Yourself”,一种专为个性化图像生成设计的开创性模型。与传统的基于微调的方法不同,“Imagine Yourself”作为一种无需微调的解决方案,提供了一个无需个人调整的共享框架,所有用户均可访问。“Imagine Yourself”通过引入以下创新,克服了以往研究在保持身份、遵循复杂提示和保持视觉质量之间取得平衡的限制:

  • 一种新颖的合成配对数据生成机制,以促进图像多样性;
  • 一个完全并行的注意力架构,具有三个文本编码器和一个完全可训练的视觉编码器,以增强文本的忠实度;
  • 一种新颖的由粗到细的多阶段微调方法,以逐步提高视觉质量。
    本文在数千个示例上进行了大规模的人类评估,展示了“Imagine Yourself”优于最先进的个性化模型,在身份保留、视觉质量和文本对齐方面表现出卓越的能力。

参考文献

[1] Imagine yourself: Tuning-Free Personalized Image Generation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/446574.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot汽车售票系统演-毕业设计源码07891

基于springboot的汽车售票系统 摘 要 汽车售票系统主要功能模块包括系统用户管理、车次车票信息、车票预定、退票信息、改签信息等,采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善了对应的软体架设以及…

【C】C语言常见概念~

C语言常见概念 转义字符 转义字符&#xff0c;顾名思义&#xff0c;转变原来意思的字符 比如 #include <stdio.h> int main() {printf("abcndef");return 0; }输出的结果为&#xff1a; 将代码修改一下&#xff1a; #include <stdio.h> int main(…

萱仔求职复习系列——2 Linux的常用方法(包含基础进阶高级操作)

由于最近接了一个笔试&#xff0c;发现笔试可能涉及到Linux&#xff0c;我准备临时抱佛脚一下赶紧复习一下Linux的用法哈哈。Linux 的基础用法包含文件系统操作、权限管理、网络配置、进程管理等基本命令&#xff1b;进阶操作包括网络调试、包管理、服务管理和用户管理等&#…

UE5学习笔记24-添加武器弹药

一、给角色的武器添加弹药 1.创建界面&#xff0c;根据笔记23的界面中添加 2.绑定界面控件 UPROPERTY(meta (Bindwidget))UTextBlock* WeaponAmmoAmount;UPROPERTY(meta (Bindwidget))UTextBlock* CarriedAmmoAmount; 3.添加武器类型枚举 3.1创建武器类型枚举头文件 3.2创建文…

【论文解读系列】EdgeNAT: 高效边缘检测的 Transformer

代码&#xff1a; https://github.com/jhjie/edgenat 论文&#xff1a; https://arxiv.org/abs/2408.10527v1 论文 EdgeNAT: Transformer for Efficient Edge Detection 介绍了一种名为EdgeNAT的基于Transformer的边缘检测方法。 1. 背景与动机 EdgeNAT预测结果示例。(a, b)…

软考《信息系统运行管理员》- 4.1信息系统软件运维概述

4.1信息系统软件运维概述 文章目录 4.1信息系统软件运维概述信息系统软件运维的概念信息系统软件的可维护性及维护类型对软件可维护性的度量可以从以下几个方面进行&#xff1a;软件维护分类&#xff1a; 信息系统软件运维的体系1.**需求驱动**2.**运维流程**3.**运维过程**4.*…

LabVIEW提高开发效率技巧----事件触发模式

事件触发模式在LabVIEW开发中是一种常见且有效的编程方法&#xff0c;适用于需要动态响应外部或内部信号的场景。通过事件结构&#xff08;Event Structure&#xff09;和用户自定义事件&#xff08;User Events&#xff09;&#xff0c;开发者可以设计出高效的事件驱动程序&am…

WPF 为button动态设置不同的模板

有时候需要动态的设置一些按钮的状态模板。使一个button显示不同的内容&#xff0c;比如Button未点击安装显示&#xff1a; 安装后显示&#xff1a; 可以通过设置button的content&#xff0c;通过content来设置不同的模板来实现功能&#xff0c;以下是代码&#xff1a; MainWi…

opencascade鼠标拖拽框选功能

1.首先在OccView中添加用于显示矩形框的类 //! rubber rectangle for the mouse selection.Handle(AIS_RubberBand) mRectBand; 2.设置框选的属性 mRectBand new AIS_RubberBand(); //设置属性 mRectBand->SetLineType(Aspect_TOL_SOLID); //设置变宽线型为实线 mRe…

day11-SpringMVC

一、SpringMVC 1.SpringMVC流程分析 2.各种注解 3.接收请求参数 3.1 简单类型 3.2 对象类型 3.3 数组类型 3.4 集合类型 3.5 日期类型 3.6 json参数类型 3.7 路径参数 二、统一异常处理 三、Restful

tensorflow入门案例手写数字识别人工智能界的helloworld项目落地1

参考 https://tensorflow.google.cn/?hlzh-cn https://tensorflow.google.cn/tutorials/keras/classification?hlzh-cn 项目资源 https://download.csdn.net/download/AnalogElectronic/89872174 文章目录 一、案例学习1、导入测试和训练数据集&#xff0c;定义模型&#xff…

Unreal5从入门到精通之 如何使用事件分发器EventDispather

文章目录 前言1.创建事件分发器设置属性2.创建Bind、Unbind及Unbind All节点在蓝图类中创建在关卡蓝图中创建3.创建事件分发器事件节点4.调用事件分发器在蓝图类中进行调用在关卡蓝图中进行调用前言 事件分发器是 Unreal Engine(UE)中一个重要的概念,它负责在游戏运行时管理…

超GPT3.5性能,无限长文本,超强RAG三件套,MiniCPM3-4B模型分享

MiniCPM3-4B是由面壁智能与清华大学自然语言处理实验室合作开发的一款高性能端侧AI模型&#xff0c;它是MiniCPM系列的第三代产品&#xff0c;具有4亿参数量。 MiniCPM3-4B模型在性能上超过了Phi-3.5-mini-Instruct和GPT-3.5-Turbo-0125&#xff0c;并且与多款70亿至90亿参数的…

基于socket实现客户端与服务器之间TCP通信

我们在算法部署时&#xff0c;通常需要进行算法端与其他服务端的通信&#xff0c;要么接受指令、要么是需要上传算法结果&#xff1b;除了我们常用的gRPC、HTTP、MQ等方式&#xff0c;还可以利用TCP来实现可靠通信&#xff1b;本次我们利用socket来展示如何进行两端的TCP通信。…

SAP SD学习笔记10 - SD出荷传票1 在库转送Order - 补充出荷 详解

上一章学习了受注传票中的不完全Log和Business Partner&#xff08;取引先机能&#xff09;的知识。 SAP SD学习笔记09 - 受注传票中的不完全Log 和 Business Partner(取引先机能&#xff09;-CSDN博客 本章继续学习SD的内容。 - 在库转送Order - 补充出荷 目录 1&#xff0…

HCIP-HarmonyOS Application Developer 习题(九)

(多选) 1、HarmonyOS多窗口交互能力提供了以下哪几种交互方式&#xff1f; A. 全局消息通知 B.平行视界 C.悬浮窗 D.分屏 答案&#xff1a;BCD 分析&#xff1a;系统提供了悬浮窗、分屏、平行视界三种多窗口交互&#xff0c;为用户在大屏幕设备上的多任务并行、便捷的临时任务…

集合框架07:LinkedList使用

1.视频链接&#xff1a;13.14 LinkedList使用_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1zD4y1Q7Fw?spm_id_from333.788.videopod.episodes&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5&p142.LinkedList集合的增删改查操作 package com.yundait.Demo01;im…

CSS @规则(At-rules)系列详解___@charset规则使用方法

CSS 规则(At-rules)系列详解 ___charset规则使用方法 本篇目录&#xff1a; 零、时光宝盒 一、charset规则定义和用法 二、CSS charset语法 三、charset 使用方法例子 1、正确使用方法 2、无效的&#xff0c;错误的使用方法 零、时光宝盒 &#xff08;https://blog.csd…

Android ViewModel

一问&#xff1a;ViewModel如何保证应用配置变化后能够自动继续存在&#xff0c;其原理是什么&#xff0c;ViewModel的生命周期和谁绑定的? ViewModel 的确能够在应用配置发生变化&#xff08;例如屏幕旋转&#xff09;后继续存在&#xff0c;这得益于 Android 系统的 ViewMod…

快速解决urllib3.exceptions.MaxRetryError: HTTPSConnectionPool

正题 使用pip命令查看urllib3版本 pip list发现版本为 1.26.9 urllib3 v1.26.9此时如下报错&#xff0c;无法正常使用&#xff08;使用了代理&#xff09; urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(hostxxx.xxxxx.com, port443): Max retries exceeded wit…