(2024,双流编码器,文本引导的风格迁移,调制,FFT 和低频滤波)FreeStyle:使用扩散模型进行文本引导风格迁移

FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1 LDM

3.2 FreeStyle 的模型结构

3.3 特征调制模块

4. 实验 


0. 摘要

生成扩散模型的快速发展显著推动了风格迁移领域。然而,基于扩散模型的大多数当前风格迁移方法通常涉及缓慢的迭代优化过程,例如模型微调和风格概念的文本反演。在本文中,我们介绍了FreeStyle,这是一种创新的风格迁移方法,建立在一个预训练的大型扩散模型之上,无需进一步优化。此外,我们的方法通过所需风格的文本描述实现风格迁移,消除了风格图像的必要性。具体而言,我们提出了一个双流编码器单流解码器架构,取代了扩散模型中的传统 U-Net。在双流编码器中,两个独立的分支以内容图像风格文本提示作为输入,实现内容和风格的解耦。在解码器中,我们进一步调制来自双流的特征,基于给定的内容图像和相应的风格文本提示,实现精确的风格迁移。我们的实验结果展示了我们的方法在各种内容图像和风格文本提示中的高质量合成和忠实度。

项目网站:https://freestylefreelunch.github.io/

3. 方法

3.1 LDM

3.2 FreeStyle 的模型结构

在扩散模型中,U-Net 结构通常用作噪声预测网络。它包括一个编码器和一个解码器,以及便于信息在编码器和解码器对应层之间交换的跳跃连接。受到 FreeU [Si等人,2023] 的启发,该论文提出了平衡 U-Net 骨干和跳跃层低频和高频特征的方法,我们引入了一种新颖的调制方法,用于融合应用于风格转移的内容信息和风格信息。图 2(a)展示了 FreeStyle 的整体结构,包括双流编码器和单流解码器。FreeStyle 中的双流编码器由两个共享参数的 U-Net 编码器组成,而单流解码器由 U-Net 解码器结构组成。双流下采样过程可以分别描述如下: 

其中,c 表示风格文本提示的嵌入,而 x_σ 表示经过 σ 步噪声添加后的内容图像。f_s 和 f_c 分别表示携带风格和内容信息的图像特征。给定有噪输入 x_t,去噪过程将扩散过程反转为预测的干净数据 x_(t−1): 

3.3 特征调制模块

FreeU [Si等人,2023] 策略性地重新调整了 U-Net 的跳跃连接和骨干特征图的贡献,有效地利用了 U-Net 架构这两个组成部分的优势,增强了生成图像的质量。我们认为图像由控制图像内容的低频信号和管理图像风格的高频信号组成。因此,我们通过调制风格特征 f_s 和内容特征 f_c 来实现一种有效的无需训练的风格转移。与 FreeU 不同的是,需要调制的两个特征来自两个不同的输入,即风格输入 f_s 和内容输入 f_c。

如图 2(b)所示,内容特征 f_c 是由无噪声的内容图像 x_0 引导生成的,而风格特征 f_s 是由风格文本提示 c 和添加噪声的图像 x_σ 引导生成的。在 U-Net 的上采样过程中,特征 f_c 主要影响生成结果的语义表达,而特征 f_s 对结果的高频详细信息有更大的影响。因此,我们对 f_s 和 f_c 进行特殊的调制,以进一步激活 U-Net 的内在风格重建能力。为了增强特征 f_c 的语义特征,我们增加了它们的方差。具体而言,我们对特征的某些维度应用大于 1 的权重参数 b,以扩大它们的方差。我们可以简洁地表示这个过程如下: 

其中,n 用于截断特征的一部分。另一方面,为了从特征 f_s 中提取风格特征,我们认为有必要抑制低频语义特征,同时保留高频细节和其他风格表达信息。为了实现这一点,我们首先使用傅里叶变换将特征 f_s 转换为频域信息,然后应用一个阈值 r_thresh = 1 来过滤掉特征中的低频语义信息。随后,我们使用一个大于 1 的权重参数 s 来增强风格信息。最后,我们使用逆傅里叶变换将处理过的频域特征转换回空间域特征。我们可以简单地表示这个过程如下: 

FFT 和 IFFT 分别代表傅里叶变换和反傅里叶变换。函数 F 定义为: 

其中 r 为半径。应用以上方法,我们调制 f_c 和 f_s,最后将它们连接起来馈送到 U-Net 解码器的块中。

4. 实验 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/248134.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springBoot配置文件加密

很多项目的配置文件里&#xff0c;包括数据库密码、缓存密码、还有一些第三方服务的Key都是直接配在里面&#xff0c;没有做任何加密处理&#xff01; 本次我用SpringBoot 集成 Jasypt 对数据库加密以及踩坑经验 1.集成依赖&#xff0c;我用的是目前最新的版本3.0.4版本 <…

常用芯片学习——AMS1117芯片

AMS1117 1A 低压差线性稳压器 使用说明 AMS1117 是一款低压差线性稳压电路&#xff0c;该电路输出电流能力为1A。该系列电路包含固定输出电压版本和可调输出电压版本&#xff0c;其输出电压精度为士1.5%。为了保证芯片和电源系统的稳定性&#xff0c;XBLWAMS1117 内置热保护和…

语音生成、写作增强、论文辅助、英文学习,AI原生应用精彩推荐一箩筐!

崭新的2024年已然降临&#xff0c;飞桨星河社区再次涌现出诸多精彩纷呈的AI原生应用&#xff0c;快来一同探索&#xff0c;发现这些应用带来的无限惊喜与可能吧&#xff01; 语音生成&#xff1a;10音色自由选择 应用介绍 本应用基于ERNIE SDK和语音合成工具&#xff0c;可以…

树--二叉树(C语言纯手凹)

目录 目录 1.什么是树&#xff1f;&#xff08;不深入&#xff0c;仅做了解&#xff09; 2.树的表示方式 2.1孩子兄弟表示法&#xff08;左孩子右兄弟&#xff09; 2.2孩子表示法 2.3双亲表示法 3.什么是二叉树 4.二叉树分类 4.1满二叉树 4.2完全二叉树 4.3二叉搜索树…

获取鼠标点击图片时候的坐标,以及利用html 中的useMap 和area 实现图片固定位置的点击事件

一 编写原因 应项目要求&#xff0c;需要对图片的固定几个位置分别做一个点击事件&#xff0c;响应不同的操作&#xff0c;如下图&#xff0c;需要点击红色区域&#xff0c;弹出不同的提示框&#xff1a; 二 获取点击图片时候的坐标 1. 说明 实现这以上功能的前提是需要确定需…

for循坏

签名&#xff1a;但行好事&#xff0c;莫问前程。 文章目录 前言一、循坏的四要素二、for循环的格式三、for循坏的小练习1、打印1-100以内的偶数&#xff0c;并求和2、输出所有的水仙花数3、求两个数的最大公约数和最小公倍数3.1最大公约数3.2最小公倍数 4、双层for循坏打印九九…

linux安装python3.11

yum install gcc-c zlib-devel bzip2-devel openssl* ncurses-devel sqlite* readline-devel tk-devel gdbm-devel libpcap* xz-devel libffi-devel -y 下载地址 https://www.python.org/ftp/python/3.11.7/Python-3.11.7.tar.xz 上传python文件&#xff0c;解压&#xff…

kubernetes-快速部署一套k8s集群

1、前置知识点 1.1 生产环境可部署Kubernetes集群的两种方式 目前生产部署Kubernetes集群主要有两种方式&#xff1a; kubeadm Kubeadm是一个K8s部署工具&#xff0c;提供kubeadm init和kubeadm join&#xff0c;用于快速部署Kubernetes集群。 二进制包 从github下载发行…

进程的执行过程

文章目录 前言一、进程的执行过程二、进程的示例2.1 示例1所有进程必须有限或者与时钟相关2.2 示例2多进程共享变量2.3 示例3仿真在0时刻结束2.4 示例4仿真变量保持不变 总结 前言 本文主要记录一下进程的执行过程&#xff0c;并通过一些例子&#xff0c;帮助进一步理解这个过…

活字格V9获取图片失败bug,报错404,了解存储路径,已改为批量上传和批量获取

项目场景&#xff1a; 问题描述 原因分析&#xff1a; 解决方案&#xff1a; 完成了批量上传功能&#xff0c;这插件真的很方便 于是写了个批量获取附件的js代码&#xff0c;我真厉害 项目场景&#xff1a; 活字格V9版本获取图片链接Upload 【9.0.103.0】图片上传的存储路…

境外投资企业备案结果公开名录列表数据

境外投资企业备案结果公开名录列表数据 1、时间&#xff1a;更新至2023年10月16日 2、指标&#xff1a;境外投资企业_机构、境内投资者名称、投资国别地区 3、来源&#xff1a;商务部 4、指标解释 境外投资企业&#xff08;机构&#xff09;备案结果公开名录列表&#xff…

USB-C显示器:未来显示技术的革新者

随着科技的不断发展&#xff0c;显示技术也在不断进步&#xff0c;而USB-C显示器作为最新的显示技术&#xff0c;正在引领着显示行业的发展潮流。USB-C显示器具有许多优点&#xff0c;如高速传输、便捷连接、节能环保等&#xff0c;使其成为未来显示技术的革新者。 一、USB-C显…

[PHP]严格类型

PHP: 类型声明 - Manual

部署YUM仓库服务

一、yum仓库 1. yum简介 yum是一个基于RPM包&#xff08;是Red-Hat Package Manager红帽软件包管理器的缩写&#xff09;构建的软件更新机制&#xff0c;能够自动解决软件包之间的依赖关系。 为什么会有依赖关系的发生 因为linux本身就是以系统简洁为自身优势&#xff0c;所以…

基于 Docker 搭建 Uptime-Kuma 一个极简风的应用监控

GitHub&#xff1a;https://github.com/louislam/uptime-kuma 一、uptime-kuma 介绍 Demo&#xff1a;https://uptime.wuhanjiayou.cn/ uptime-kuma 是一款开源的监控工具, 支持 TCP / PING / HTTP 等多种监控方式&#xff0c;可监测网站&#xff0c;数据库&#xff0c;Docker…

再学css

盒模型 有两种&#xff0c; IE盒子模型、W3C盒子模型&#xff1b;盒模型&#xff1a; 内容(content)、填充(padding)、边界(margin)、 边框(border)&#xff1b;区 别&#xff1a; IE的content部分把 border 和 padding计算了进去; 标准盒子模型的模型图 从上图可以看到&#x…

mysql注入联合查询

环境搭建 下载复现漏洞的包 下载小皮面板 将下载好的文件解压在小皮面板的phpstudy_pro\WWW路径下 将这个文件phpstudy_pro\WWW\sqli-labs-php7-master\sql-connections\db-creds.inc 中的密码更改为小皮面板中的密码 选择php版本 在小皮中启动nginx和数据库 使用环回地址访…

react中使用useEffcet抛出错误“超出最大更新深度”

目录 【项目中部分代码】&#xff1a; 【说明】&#xff1a; 【抛出错误】&#xff1a;“超出最大更新深度” 【造成原因】&#xff1a; 【例如&#xff1a;】 【解决】&#xff1a; 【项目中部分代码】&#xff1a; // 类组件中&#xff1a;一进页面就拿到要notiveType的…

H2数据库学习总结

H2数据库-简介 H2 是开源的轻量级Java数据库。它可以嵌入Java应用程序中或以客户端-服务器模式运行。 H2 数据库主要可以配置为作为内存数据库运行&#xff0c;这意味着数据将不会持久存储在磁盘上。 由于具有嵌入式数据库&#xff0c;因此它不用于生产开发&#xff0c;而主要…

《HTML 简易速速上手小册》第6章:HTML 语义与结构(2024 最新版)

文章目录 6.1 语义化标签的重要性6.1.1 基础知识6.1.2 案例 1&#xff1a;使用 <article>, <section>, <aside>, <header>, 和 <footer>6.1.3 案例 2&#xff1a;构建带有嵌套语义化标签的新闻网站6.1.4 案例 3&#xff1a;创建一个带有 <mai…