图像编辑技术的新篇章:基于扩散模型的综述

在人工智能的浪潮中,图像编辑技术正经历着前所未有的变革。随着数字媒体、广告、娱乐和科学研究等领域对高质量图像编辑需求的不断增长,传统的图像编辑方法已逐渐无法满足日益复杂的视觉内容创作需求。尤其是在AI生成内容(AIGC)的背景下,如何利用人工智能技术对图像进行高效、精准的编辑,已成为当前研究的热点问题。尽管基于学习算法的图像编辑技术取得了显著进展,但仍存在诸多挑战,例如模型的泛化能力、编辑的自然性、以及用户意图的准确捕捉等。此外,现有的图像编辑方法往往需要大量的训练数据和计算资源,这在实际应用中可能并不总是可行。为了克服这些问题,本文将重点探讨一种新兴的图像编辑技术——基于扩散模型的图像编辑方法。

基于扩散模型的图像编辑研究出版物的统计概览,分为三个部分:学习策略(Top)、输入条件(Middle)、编辑任务(Bottom)

什么是扩散模型?

扩散模型,作为生成人工智能领域的一项突破性技术,其灵感来源于非平衡热力学的原理。这些模型通过逐步向数据样本中添加噪声,将它们从原始分布转换为预定义的、通常更简单的分布,如高斯分布,然后通过迭代过程逆转这一过程,以生成与原始数据分布相匹配的数据。与传统的生成模型相比,扩散模型的特点是它们在迭代时间步骤中动态执行,涵盖前向和后向的时间运动。

这种模型的前向扩散过程将数据分布转换为高斯分布,而反向扩散过程的目标是学习前向过程的逆过程,以生成与原始未修改数据样本紧密对齐的分布。优化策略涉及最小化前向和后向序列的联合分布之间的Kullback-Leibler散度,这为模型提供了一个变分界限,用于指导学习过程中的参数更新。扩散模型还能够通过特定的反转方案将真实图像反转到相应的噪声潜在空间,为图像编辑提供了强大的基础。

图像编辑的分类

图像编辑任务可以根据编辑的性质被分为语义编辑、风格编辑和结构编辑三大类。图像编辑任务的分类反映了编辑目标的不同层面,指导了模型的设计和应用策略。

语义编辑关注于图像内容和叙述的实质性改变。这类任务包括在图像中添加或移除对象、替换现有元素、更改背景以及调整图像中的情感表达。例如,用户可能希望在风景照片中添加一只飞鸟,或者从集体照片中移除某个人物。这些编辑直接影响到图像所讲述的故事和传达的情境。

风格编辑着重于图像的视觉风格和审美特征的调整。这种编辑不改变图像的基本内容,而是改变其艺术表现形式,如色彩、纹理或整体风格。用户可能想要将一幅风景画转换为梵高风格的画作,或者改变一张照片的色调以匹配特定的情绪氛围。

结构编辑涉及对图像中元素的空间排列、位置、视点和特性的改动。这类编辑强调场景中对象的组织和展示方式,如移动对象位置、改变对象的大小和形状、调整对象的姿态或视角。例如,用户可能希望在室内场景中重新布置家具,或者改变建筑物的视角以展现不同的外观。

这种多维度的分类不仅帮助我们理解图像编辑的不同需求,也为扩散模型的应用提供了一个清晰的框架。通过深入分析这些类别,我们可以更准确地评估和设计扩散模型的性能,确保它们能够满足不同编辑任务的特定需求。

基于扩散模型的图像编辑方法的全面分类,从多个角度(如训练、测试时微调、无需训练和微调)对方法进行了颜色编码,并列出输入条件和任务能力

基于训练的方法

基于训练的方法在扩散模型的图像编辑中占据显著地位,这些方法通过稳定训练扩散模型和有效建模数据分布,为多种编辑任务提供可靠性能。具体可以分为几类:弱监督下的领域特定编辑、自监督的参考和属性引导、全监督的指令性编辑以及弱监督的伪目标检索。

基于训练的图像编辑方法的分类

弱监督下的领域特定编辑策略针对特定领域的小规模数据集进行训练,以解决大规模数据集训练资源消耗大的问题。例如,在处理人脸或特定动物图像的数据集时,研究者们通过弱监督的方式,即不需要精确的标签信息,而是利用数据集中的固有结构,来训练模型识别和编辑图像。这种方法使得模型能够在资源有限的情况下学习到有效的编辑策略。

两种代表性的CLIP引导方法DiffusionCLIP和Asyrp的训练流程的对比

通过自监督的参考和属性引导方法,研究者们开发了一种无需外部标注信息的机制,直接从图像本身提取参考和属性信息作为训练条件。例如,通过使用图像中的某个区域作为参考,模型学习如何根据这个参考合成或编辑图像的其他部分。这种方法充分利用了图像内部的结构信息,提高了模型的自适应性和灵活性。

全监督下的教学式编辑策略采用了一种更接近人类交流方式的指令来引导编辑过程。与传统的基于描述的编辑不同,这种策略使用直接的指令,如“去除帽子”或“改变天空颜色”,来告诉模型需要执行的具体操作。这种方式使得用户可以更自然、直观地与模型交互,提高了编辑过程的准确性和可控性。

指令式图像编辑方法的通用框架,说明了不同组件如何协同工作以根据指令编辑图像

弱监督下的伪目标检索方法面对的挑战是如何在缺乏精确编辑结果的情况下训练模型。这类方法通过检索最符合指令描述的图像作为伪目标,或者使用CLIP模型的评分作为优化目标,来指导模型的学习过程。这种方法允许模型在没有明确编辑结果的情况下,通过学习如何更好地接近目标描述来进行优化。

这些基于训练的方法展示了扩散模型在图像编辑任务上的多样性和适应性,它们通过不同的监督策略,实现了从简单到复杂的各种编辑任务,极大地扩展了图像编辑的可能性和应用范围。随着这些方法的不断发展和完善,未来的图像编辑技术将更加精准、高效,并能更好地满足用户的个性化需求。

测试时微调方法

在图像编辑的领域,测试时微调方法提供了一种在模型部署后进一步提升性能的策略。这些方法在模型的推理阶段对模型进行微调,以适应特定的编辑任务和用户需求。

测试时微调框架及其不同的微调组件,说明了在图像编辑中如何应用这些组件

去噪模型微调是最直接的一种测试时微调方法。通过在特定的图像或图像集合上微调整个去噪网络,可以使模型更好地学习图像的特征,并更准确地响应文本提示或编辑指令。例如,UniTune和Custom-Edit等方法通过在单个基础图像上微调扩散模型,鼓励模型生成与基础图像相似的图像,同时在采样阶段使用修改过的采样过程,以平衡对基础图像的忠实度和对编辑指令的对齐。

嵌入微调则专注于优化文本或空文本嵌入,以更好地整合嵌入与生成过程,实现更精确的编辑结果。空文本嵌入微调的目标是解决DDIM反转中的重建失败问题,通过在采样过程中微调空文本嵌入,减少采样轨迹与反转轨迹之间的距离,从而提高重建性能。而文本嵌入微调则通过优化从输入文本派生的嵌入,使编辑后的图像更符合条件特征。

超网络引导的方法通过引入一个自定义网络,来更好地符合特定的编辑意图。例如,StyleDiffusion和InST等方法使用映射网络或多层交叉注意力机制,将输入图像的特征映射到与文本提示嵌入空间对齐的嵌入空间,从而实现文本-图像交互。

潜在变量优化是另一种微调技术,它直接优化图像的潜在变量,而不是优化生成器的参数或嵌入的条件参数。这种方法通过引入特定的损失函数和中间层的特征,使用预训练的扩散模型执行图像翻译,而无需成对的训练数据。

混合微调结合了上述各种微调方法,可以是顺序的,也可以是同时进行的集成工作流程。这种复合微调方法可以实现针对性和有效的图像编辑。例如,Imagic和LayerDiffusion等方法通过结合文本嵌入优化和去噪模型微调,提高了模型在图像重建和编辑方面的性能。

测试时微调方法的分类

测试时微调方法为扩散模型提供了一种灵活的改进途径,可以根据具体的应用场景和用户需求,快速调整模型的行为,实现更加精细和个性化的图像编辑效果。随着这些技术的不断发展,未来的图像编辑工具将更加智能和适应性强。

无需训练和微调的方法

在图像编辑技术的发展中,无需训练和微调的方法代表了一种快速且成本效益高的范式,因为它们避免了在编辑过程中对模型进行时间和资源密集型的训练或微调。这些方法直接利用预训练模型的潜力,通过不同的策略实现对图像的精确编辑。

无需训练和微调的图像编辑方法的分类

输入文本优化标志着在图像编辑领域中,文本到图像翻译机制的重要进步。这种方法通过改善文本嵌入和简化用户输入,确保图像的修改既准确又符合上下文。它允许概念性的修改和直观的用户指令,消除了对复杂模型修改的需求。例如,通过利用扩散先验模型来执行CLIP图像嵌入空间中的概念编辑,可以实现更细腻和上下文感知的图像编辑。

反转/采样修改是无需训练和微调方法中常用的技术。这些方法通过修改反转和采样公式来改善重建能力。例如,直接反转方法通过改变源提示到目标提示来编辑真实图像,展示了处理多样化任务的能力。尽管如此,它仍然面临重建失败的问题,因此出现了多种方法来改进反转和采样公式,以提高重建性能。

注意力修改方法通过增强注意力层中的操作来增强图像编辑。这些方法通过识别并利用注意力层中的固有原理,然后通过修改注意力操作来进行编辑。例如,P2P方法通过识别交叉注意力层在控制图像布局和提示词空间关系中的关键作用,提供了一个仅依赖于文本输入的直观提示到提示编辑框架。

掩码引导在基于扩散的图像编辑中代表了一种增强图像编辑的技术。这些方法使用掩码来增强去噪效率,通过选择性处理图像区域来有效减少计算需求并提高整体效率。掩码增强的去噪效率方法通过利用掩码在交叉注意力层中引导特定区域的编辑,从而提高编辑的精度和速度。

多噪声重定向是预测不同方向的多个噪声,然后将它们重定向到单个噪声的过程。这种方法的优势在于能够使单个噪声统一多个不同的编辑方向,从而更有效地满足用户的编辑需求。例如,通过语义引导的噪声重定向方法,可以在采样过程中更精细地控制图像内容。

无需训练和微调方法的通用框架,说明了不同修改如何应用于扩散模型以实现图像编辑

这些无需训练和微调的方法,以其灵活性和高效性,在图像编辑领域中展现出巨大的潜力。它们为用户提供了一种快速实现个性化图像编辑的途径,同时为研究人员提供了探索新的可能性和创新应用的空间。

图像修复和扩展

图像修复和扩展是图像编辑中的两个重要子领域,它们专注于填补图像中的缺失部分或扩展图像的边界,以创造出无缝的视觉效果。

视觉上比较了传统的基于上下文的修复(顶部)和多模态条件修复(底部),展示了两种方法的样本

传统基于上下文的修复:基于监督训练的修复方法和零样本学习方法。在监督训练中,模型通过成对的损坏和完整图像进行学习,以掌握如何根据图像的上下文信息填补缺失区域。例如,Palette模型通过条件扩散模型来处理图像到图像的转换任务,它使用低质量参考图像与去噪结果的直接连接作为噪声预测的条件。而在零样本学习中,模型尝试从未损坏的图像部分提取结构和纹理,以补充缺失区域的内容,保持全局内容的一致性。这种方法不需要成对的训练数据,而是依赖于模型对图像内容的内在理解。

多模态条件修复 :即使用随机掩码训练和精确控制条件的方法。这些方法通过引入用户指定的多模态条件,如文本描述、分割图或参考图像,来指导修复过程。例如,GLIDE和Stable Diffusion等模型通过随机生成的掩码以及掩码图像和完整图像的描述进行训练,使模型能够利用未掩码区域的信息。为了提供更精确的控制,一些方法如SmartBrush和Imagen Editor通过引入精度因子或使用对象检测器生成的掩码,来实现对修复内容的精确控制。

多模态条件修复的另一个重要方向是利用预训练的扩散模型,通过整合各种技术来处理特定的修复任务。例如,Blended Diffusion和Inpaint Anything等模型通过结合CLIP计算和预训练的扩散模型,实现了在用户界面友好性和灵活性方面的显著提升。

评估

在任务选择方面,研究者们根据现有方法的能力精心挑选了一系列编辑任务。这些任务覆盖了从简单的对象编辑到复杂的场景变化,旨在全面考察不同图像编辑方法的性能。

在数据集构建上,研究团队精选了一系列高质量的图像。为每张图像配备了详尽的源文本描述、目标描述以及编辑指令,这样做的目的是为了确保评估过程中的多样性和适用性,让评估结果更具有代表性和广泛性。

在度量设计和选择上,研究者们认识到传统的评估方法可能无法充分捕捉编辑结果的质量。为了解决这一问题,他们提出了LMM Score,这是一种创新的量化评估指标。LMM Score利用了大型多模态模型(LMMs)的先进视觉-语言理解能力,以评估不同任务上的编辑性能。这种新指标的引入,旨在更准确地反映图像编辑结果与用户指令之间的一致性,为图像编辑领域的研究提供了一个更为精确的评估工具。

研究者选择了几种不同的基于扩散模型的图像编辑方法,并在EditEval基准上对它们进行了测试。在性能比较环节,研究者们细致地计算了每种方法在七个编辑任务上的平均得分和标准差。结果显示,并没有单一的方法能够在所有任务上都取得最佳性能,这反映出图像编辑方法的多样性以及它们在特定应用场景下的适用性。

为了进一步验证LMM Score这一评估指标的有效性,研究者们将其得分与用户研究的结果进行了细致的比较。通过计算LMM Score与用户评分之间的皮尔逊相关系数,研究者们发现两者之间存在显著的正相关性。这一发现表明,LMM Score不仅能够作为一项客观的评估工具,而且能够很好地反映用户的主观偏好和评价,从而为图像编辑方法的评估提供了一个可靠的量化指标。

LMM分数与用户研究之间的皮尔逊相关系数
7个选定的编辑类型上进行了视觉上的比较

通过这些评估得出结论,基于扩散模型的图像编辑技术虽然取得了显著进展,但仍存在样本依赖性和性能波动等问题。LMM Score作为一种新的评估指标,已被证明是可靠和有效的,能够为图像编辑领域提供更加精确的性能评估。

随着技术的不断发展,未来的基准构建和评估方法需要进一步考虑如何更好地模拟真实世界的应用场景,以及如何更全面地衡量编辑结果的质量和实用性。这将有助于推动图像编辑技术向更高水平发展,并为研究人员和开发者提供宝贵的反馈和指导。

论文链接:https://arxiv.org/abs/2402.17525

GitHub 地址:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/357953.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

富文本编辑器CKEditor

介绍 富文本编辑器不同于文本编辑器,它提供类似于 Microsoft Word 的编辑功能 在Django中,有可以现成的富文本三方模块django-ckeditor,具体安排方式: pip install django-ckeditor==6.5.1官网:Django CKEditor — Django CKEditor 6.7.0 documentation 使用方式 创建项…

pytest测试框架flaky插件重试失败用例

Pytest提供了丰富的插件来扩展其功能,本章介绍下插件flaky ,用于在测试用例失败时自动重新运行这些测试用例。与前面文章介绍的插件pytest-rerunfailures功能有些类似,但是功能上不如pytest-rerunfailures插件丰富。 flaky官方并没有明确pyt…

华为od-C卷200分题目2 - 找城市

华为od-C卷200分题目2 - 找城市 题目描述 一个城市规划问题,一个地图有很多城市,两个城市之间只有一种路径,切断通往一 个城市i的所有路径之后,其他的城市形成了独立的城市群,这些城市群里最大的城 市数量&#xff0…

QML 列表,图片展示(一)

文章目录 1.QML 列表,图片展示效果图2.项目基本说明3.项目详解3.1界面显示部分3.2 网络部分 4.源代码5.flickr图片查询链接,后面我们将调整代码,获取更多图片 1.QML 列表,图片展示效果图 2.项目基本说明 该项目来自Qt示例程序 Ph…

2025秋招NLP算法面试真题(二)-史上最全Transformer面试题:灵魂20问帮你彻底搞定Transformer

简单介绍 之前的20个问题的文章在这里: https://zhuanlan.zhihu.com/p/148656446 其实这20个问题不是让大家背答案,而是为了帮助大家梳理 transformer的相关知识点,所以你注意看会发现我的问题也是有某种顺序的。 本文涉及到的代码可以在…

很冷门但真的有趣的IOS应用

Tuesday Tuesday纪念日小组件是一款功能丰富的倒数日和桌面小组件工具APP。此外,Tuesday软件还具有超萌小清新的风格,界面设计清新可爱,适合各种场景使用。用户可以通过小组件实现各种趣味功能,满足不同心情需求。 SideNotes Si…

3d隐藏模型为什么就不见了?---模大狮模型网

在3D建模和设计过程中,经常会遇到需要隐藏某些模型的情况。然而,有时候隐藏之后再也找不到这些模型了。这种情况可能让人感到困惑和沮丧。本文将探讨3D隐藏模型后“消失”的原因,并提供一些解决方法,帮助您更好地管理和查找隐藏的…

ES 8.14 向量搜索优化

参考:https://blog.csdn.net/UbuntuTouch/article/details/139502650 检索器(standard、kNN 和 RRF) 检索器(retrievers)是搜索 API 中的一种新抽象概念,用于描述如何检索一组顶级文档。检索器被设计为可以…

Java基础学习-数组

目录 数组定义 注意点: 地址值是数组在内存中实际存储的地址。 案例遍历:遍历数组得到每一个元素,求数组里面所有数据和 案例:定义数组,遍历能被3整除的数字 案例:遍历一个数组,奇数将当前…

docker搭建mongo分片集群

1、mongo分片集群 MongoDB分片集群是一种可扩展的数据库架构,用于处理大量数据和高并发访问。它将数据分成多个分片,并将这些分片分布在多个服务器上,从而实现数据的平衡存储和并行处理 。 通过使用MongoDB的分片集,可以实现数据…

艺体培训机构管理系统的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,教师管理,学员管理,活动管理,课程管理,选课信息管理 前台账户功能包括:系统首页,个人中心,论…

Spring Boot+vue社区养老系统(智慧养老平台)

使用技术: springbootvueMySQL 主要功能: 管理员 登录个人资料密码管理, 用户管理:床位类型管理,床位管理,护工管理,老人管理 咨询登记管理,预约登记管理,老人健康信 息管理,费用管理等功能.护工角色包含以下功能: 护工登录,个…

数据库精选题(二)(引言+关系代数)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀数据库 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 前言 常见概念 一、什么是数据库&#xf…

查找和排序

目录 一、查找 1.1查找的基本概念 1.2顺序查找 1.3折半查找(二分查找) 1.4散列表的查找 1.4.1基本概念 1.4.2散列函数的构造方法 1.4.3解决冲突的方法 二、排序 2.1排序的基本概念 2.2插入排序 2.2.1直接插入排序: 2.2.2希尔排序…

C++回溯算法(2)

棋盘问题 #include<bits/stdc.h> using namespace std; void func(int,int); bool tf(int,int); void c(); int n,k; char a[110][110]; int cnt20; int main() {cin>>n>>k;for(int i0;i<n;i){for(int j0;j<n;j){cin>>a[i][j];}}func(0,0);cout…

北京BJ90升级新款迈巴赫大连屏四座头等舱行政四座马鞍

北京BJ90升级奔驰迈巴赫头等舱行政四座大联屏的内饰效果会非常出色&#xff0c;将为车辆带来更豪华、高端的内饰氛围。以下是升级后可能的效果&#xff1a; • 科技感提升&#xff1a;奔驰的中控系统一直以来都以其先进的科技和用户友好的界面而闻名。升级后&#xff0c;北京B…

EndNote 21 for Mac v21.3 文献管理软件安装

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行安装EndNote212、升级 三、运行1、打开软件&#xff0c;测试 安装完成&#xff01;&#xff01;&#xff01;四、注意事项 效果 一、下载软件 下载软件 链接&#xff1a;http://www.macfxb.cn 二、开始安装 1、双击…

深信服科技:2023网络钓鱼趋势分析报告

随着互联网的快速发展和广泛应用&#xff0c;网络钓鱼活动带来的安全隐患愈演愈烈。因应威胁发展&#xff0c;我 们编撰了此份分析报告&#xff0c;旨在全面了解其发展态势&#xff0c;并提醒相关部门、企业和公众加强防范。 在本报告中&#xff0c;我们将详细梳理网络钓鱼的近…

编程精粹—— Microsoft 编写优质无错 C 程序秘诀 07:编码中的假象

这是一本老书&#xff0c;作者 Steve Maguire 在微软工作期间写了这本书&#xff0c;英文版于 1993 年发布。2013 年推出了 20 周年纪念第二版。我们看到的标题是中译版名字&#xff0c;英文版的名字是《Writing Clean Code ─── Microsoft’s Techniques for Developing》&a…

USB - USB在消费领域的应用

Switching in USB Consumer Applications 通用串行总线&#xff08;USB&#xff09;已成为满足终端设备之间日益增长的快速数据传输需求的主流接口--例如&#xff0c;在个人电脑和便携式设备&#xff08;如手机、数码相机和个人媒体播放器&#xff09;之间下载和上传数据。 The…