(2024,初始化原型嵌入,扩散模型微调,类别特征正则化,对象特定损失)使用原型嵌入对文本到图像扩散进行对象驱动的单样本微调

Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with Prototypical Embedding

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1 概述

3.2 LDM

3.3 原型嵌入

3.4 类别特征正则化

3.5 对象特定损失

4. 实验

5. 局限性


0. 摘要

大规模文本到图像生成模型在文本到图像生成领域取得了显著进展,许多微调方法已经被提出。然而,这些模型通常在处理新颖对象时遇到困难,特别是在单样本场景中。我们提出的方法旨在以对象驱动的方式解决泛化和保真度方面的挑战,仅使用单个输入图像和对象特定的感兴趣区域。为了提高泛化能力并减轻过拟合,在我们的范例中,基于对象的外观和其类别初始化了一个原型嵌入,然后对扩散模型进行微调。在微调过程中,我们提出了一种类别特征正则化方法,以保留对对象类别的先验知识。为了进一步提高保真度,我们引入了对象特定的损失,这也可以用于植入多个对象。总体而言,我们提出的用于植入新对象的对象驱动方法可以与现有概念以及高度保真度和泛化性无缝集成。我们的方法优于一些现有的作品。代码将会发布。

 

3. 方法

3.1 概述

我们提出的方法侧重于用户在一张图像中指定的单个或多个对象的对象驱动微调,如图 3 所示。为了克服现有微调方法的局限性,我们使用原型嵌入作为初始化嵌入,并提出了一个正则化损失函数,以增加生成图像的多样性并有效地保留预训练模型的先前知识。此外,我们引入了一个对象特定的掩码损失函数,用于合成高保真度的图像,也可用于多对象植入。在本节中,我们详细解释了提出的方法。

3.2 LDM

3.3 原型嵌入

在微调扩散模型时,通常会训练对象的文本嵌入。然而,当训练数据仅为一张图像时,有时会导致过拟合,使网络仅基于对象的文本嵌入生成输出,而忽略其他文本条件。在实践中,适当初始化文本嵌入可以加速网络的拟合并缓解过拟合,例如文本反演(Textual Inversion,TI)[11] 根据对象类别初始化文本嵌入。在这项工作中,为了实现更有效的初始化,我们基于输入图像的嵌入和类别名称的文本嵌入(例如,狗)找到原型嵌入。在开始扩散模型的训练之前,我们通过以下方式计算原型嵌入:

其中,𝑥 是训练图像,使用 CLIP [24] 的图像编码器 I 和文本编码器 T 来获取整个图像嵌入 I(𝑥),对象掩码图像嵌入 I(𝑥_𝑚),T(𝑐_𝑐) 是对象的类别名称文本嵌入,𝜃_𝑚 是嵌入融合的方式,例如平均。我们的目标是通过这个损失函数获得一个原型文本嵌入 T(𝑐_𝑝) ,它与目标图像嵌入和类别文本嵌入相似,作为初始化。

3.4 类别特征正则化

此外,为了保留预训练模型中对象类别的合成能力,我们在训练过程中使用类别特征正则化调整文本嵌入。类别特征损失的公式如下:

其中,T(𝑐_𝑐) 是对象的类别名称文本嵌入,𝛼_𝑐𝑙 表示余弦损失的权重,𝑝 ∼ 𝑈𝑛𝑖(0, 1),而 𝑝_𝑐𝑙 是可调的阈值。在这个背景下,需要预先确定每个对象的类别名称。进一步的实验表明,引入这个损失函数可以提高合成中的泛化能力。 

3.5 对象特定损失

我们的任务是将选定的对象植入模型的输出领域,并与唯一标识符绑定。注意,所选对象通常是训练图像的部分而不是整个图像,因此我们提出了选定对象植入的对象特定损失,选定对象的保真度被提高。首先,我们使用图像分割算法,例如 SAM [17],来获取对象的掩码图像 𝑚。这些掩码图像被引入潜在空间和训练过程中。单对象植入的训练如下:

其中,𝑐_𝑚 是掩蔽的对象的文本条件,对象目标噪声 ˜𝜖,以及被掩蔽的潜在表示 ˜𝑧。我们的目标是在执行损失计算时专注于掩码区域。

(注:˜𝜖 是参考的对象区域噪声与预测的对象以外区域的噪声的组合)

此外,对于多对象植入,我们进行对象特定损失函数的组合,假设有一组 𝑟 个要植入的对象,并且每次取 𝑘 个不同的对象的子集 𝑆,𝑘 组合的数量是 𝐶^𝑘_𝑛。因此,在一次训练的步骤中,总体对象特定损失为: 

请注意,对于每个掩码,文本条件 𝑐_𝑚,𝑖 是不同的,而全局文本条件 𝑐 基于所有对象的唯一标识符。 

4. 实验

5. 局限性

我们还发现我们的方法存在一些局限性,例如对于具有复杂边缘的对象,掩码区域存在错误,有时会导致生成图像边缘质量的降低。此外,在植入较小对象时,生成图像的保真度稍有降低。为了解决上述问题,未来的工作将致力于改进获取掩码图像的方式,并为对象添加多尺度感知机制。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/248169.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开源操作系统】上海道宁为您带来稳定、安全、开源和易用的操作系统——Ubuntu,为您的数字化生活保驾护航

Ubuntu是 源于非洲的一种传统价值观 意为“人性、关爱和共享” 这种价值观在 开源、稳定、安全、易用的 Ubuntu操作系统中 得到了完美的体现 除此之外,Ubuntu还具有 强大的安全性 它自带了诸多安全功能 如防火墙、加密文件系统等 可以有效地保护用户的隐私…

某马头条——day11+day12

实时计算和定时计算 流式计算 kafkaStream 入门案例 导入依赖 <dependency><groupId>org.apache.kafka</groupId><artifactId>kafka-streams</artifactId><exclusions><exclusion><artifactId>connect-json</artifactId&…

网站地址怎么改成HTTPS?

现在&#xff0c;所有类型的网站都需要通过 HTTPS 协议进行安全连接&#xff0c;而实现这一目标的唯一方法是使用 SSL 证书。如果您不将 HTTP 转换为 HTTPS&#xff0c;浏览器和应用程序会将您网站的连接标记为不安全。 但用户询问如何将我的网站从 HTTP 更改为 HTTPS。在此页…

一些著名的软件都用什么语言编写?

1、操作系统 Microsoft Windows &#xff1a;汇编 -> C -> C 备注&#xff1a;曾经在智能手机的操作系统&#xff08;Windows Mobile&#xff09;考虑掺点C#写的程序&#xff0c;比如软键盘&#xff0c;结果因为写出来的程序太慢&#xff0c;实在无法和别的模块合并&…

从公有云对象存储迁移到回私有化 MinIO需要了解的所有信息

我们上一篇文章《如何从 AWS S3 遣返到 MinIO》的反响非常出色 - 我们已经接到了数十个企业的电话&#xff0c;要求我们提供遣返建议。我们已将这些回复汇总到这篇新文章中&#xff0c;其中我们更深入地研究了与遣返相关的成本和节省&#xff0c;以便您更轻松地进行自己的分析。…

华为配置小型网络WLAN 的基本业务示例

配置小型网络WLAN基本业务示例 组网图形 图1 配置小型网络WLAN基本业务组网图 小型WLAN网络简介配置注意事项组网需求数据规划配置思路操作步骤配置文件 小型WLAN网络简介 本文介绍的WLAN网络是指利用频率为2.4GHz或5GHz的射频信号作为传输介质的无线局域网&#xff0c;相对于有…

运行VUE提示找不到模块validate-engines.js...

原来好好的&#xff0c;突然提示找不到模块validate-engines.js&#xff0c;CMD命令行输入npm -v不是内部或外部命令&#xff0c;node -v可以查看到版本号。 解决&#xff1a; 1. 卸载nodejs&#xff0c;重新下载安装文件&#xff1a;下载nodejs 2. 到目录&#xff1a;C:\Us…

大坑!react+thress.js

2. UI交互界面与Canvas画布叠加 | Three.js中文网 (webgl3d.cn) // canvas画布绝对定位 renderer.domElement.style.position absolute; renderer.domElement.style.top 0px; renderer.domElement.style.left 0px; renderer.domElement.style.zIndex -1; 我按照教程设置了…

Nginx负载均衡下的webshell连接

一、上传AntSword-Labs-master搭建负载均衡实验环境 搭建好docker环境&#xff0c;并且配置好docker-compose 我的Redhat的docker版本&#xff1a; 查看当前环境下的文件是否正确&#xff1a; 接着执行docker compose up -d 拉取环境 访问成功页面&#xff1a; 进入docker容器…

2024 高级前端面试题之 CSS 「精选篇」

该内容主要整理关于 CSS 的相关面试题&#xff0c;其他内容面试题请移步至 「最新最全的前端面试题集锦」 查看。 CSS模块精选篇 1. 盒模型2. BFC3. 层叠上下文4. 居中布局5. 选择器权重计算方式6. 清除浮动7. link 与 import 的区别8. CSS3的新特性9. CSS动画和过渡10. 有哪些…

如何使用Python+Flask搭建本地Web站点并结合内网穿透公网访问?

文章目录 前言1. 安装部署Flask并制作SayHello问答界面2. 安装Cpolar内网穿透3. 配置Flask的问答界面公网访问地址4. 公网远程访问Flask的问答界面 前言 Flask是一个Python编写的Web微框架&#xff0c;让我们可以使用Python语言快速实现一个网站或Web服务&#xff0c;本期教程…

HTML以及CSS相关知识总结(一)

近日就开始回顾html和css相关知识啦&#xff0c;并且会学习html5和css3的新知识&#xff0c;以下是我对记忆不太深刻的地方以及新知识点的总结&#xff1a; Web标准&#xff1a; 结构&#xff1a;用于对网页元素进行整理和分类&#xff0c;即HTML 表现&#xff1a;用于设置网页…

Spring Boot如何统计一个Bean中方法的调用次数

目录 实现思路 前置条件 实现步骤 首先我们先自定义一个注解 接下来定义一个切面 需要统计方法上使用该注解 测试 实现思路 通过AOP即可实现&#xff0c;通过AOP对Bean进行代理&#xff0c;在每次执行方法前或者后进行几次计数统计。这个主要就是考虑好如何避免并发情况…

Spring cloud智慧工地信息平台管理系统源码

目录 报警统计 实时报警列表 工程进度 劳务信息 隐患信息 施工安全管理 人员证书管理 专项安全方案 安全方案审批 隐患排查管理 安全检查统计 危险源Top10 整改超时预警 检查问题数量统计 安全隐患趋势 安全日志管理 视频监控查看 视频回放 AI危险源识别 AI应用总览 AI设备 机械…

海外动态IP代理如何帮助批量注册TikTok账户?

Tik Tok作为全球最火爆的短视频社交平台&#xff0c;无论是商业推广还是个人使用&#xff0c;都有着巨大的吸引力。商业推广中经常需要批量注册Tik Tok账号&#xff0c;以便进行市场营销或者数据分析。那么&#xff0c;如何批量注册Tik Tok账号呢&#xff1f;这篇文章将为大家详…

路由、组件目录存放

文章目录 单页应用程序&#xff1a;SPA- Single Page Application路由的介绍VuePouter的介绍VueRouted 的使用 组件目录存放问题&#xff08;组件分类&#xff09; 单页应用程序&#xff1a;SPA- Single Page Application 单页应用&#xff08;SPA&#xff09;:所有功能在一个…

粒子群算法求解港口泊位调度问题(MATLAB代码)

粒子群算法&#xff08;Particle Swarm Optimization&#xff0c;PSO&#xff09;是一种基于群体智能的优化算法&#xff0c;它通过模拟鸟群或鱼群的行为来寻找最优解。在泊位调度问题中&#xff0c;目标是最小化所有船只在港时间的总和&#xff0c;而PSO算法可以帮助我们找到一…

GitLab 中国发行版如何设置镜像拉取策略?

最近在用极狐GitLab&#xff08;极狐GitLab 可以理解为 GitLab 在中国的发行版&#xff09; CI/CD 的时候遇到一个问题&#xff1a;CI/CD 中有一个 stage 需要拉取 dockerhub 上的镜像&#xff0c;但是由于 dockerhub 在国内的访问不是很顺畅&#xff0c;经常发生 timeout 的情…

Spring Boot + security + jwt 测试安全策略

一、测试概述 主要目的是测试security的用法。因测试搭建mysql和redis比较麻烦&#xff0c;所以我这里将自定义的jwt和用户信息缓存到程序的内存中。 本人测试的项目比较混乱&#xff0c;Spring Boot父类只标出有用的依赖。其子类用的版本为jdk11。后续会继续深入oauth2&#x…

【Linux 基础】常用基础指令(上)

文章目录 一、 创建新用户并设置密码二、ls指令ls指令基本概念ls指令的简写操作 三、pwd指令四、cd指令五、touch指令六、rm指令七、mkdir指令八、rmdir 指令 一、 创建新用户并设置密码 ls /home —— 查看存在多少用户 whoami —— 查看当前用户名 adduser 用户名 —— 创建新…