CVPR 2024 | 风格迁移和人像生成汇总!扩散模型diffusion用于经典AIGC方向

风格迁移

1、DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations

12c12c834acef44b718318aac9309200.png

基于文本到图像扩散模型在迁移参考风格方面具有巨大潜力。然而,当前基于编码器的方法在迁移风格时显著损害了文本到图像模型的文本可控性。本文提出DEADiff来解决这个问题,采用以下两种策略:1)一种解耦参考图像的风格和语义的机制。解耦后的特征表示首先由不同文本描述指导的Q-Formers提取。然后,它们被注入到交叉注意力层的相互排除的子集中,以实现更好的分解。2)一种非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练,其中参考图像和真实图像具有相同的风格或语义。

展示DEADiff在视觉风格化结果上取得了最佳效果,并在量化和定性上表现出文本可控性与与参考图像风格相似性之间的最佳平衡。https://tianhao-qi.github.io/DEADiff/

2、Deformable One-shot Face Stylization via DINO Semantic Guidance

b5837340b054cb412ce923908fad1f7f.png

本文针对One-shot人脸风格化问题进行研究,关注外观和结构的同时考虑。探索了与传统的单幅图像风格参考不同的变形感知人脸风格化。方法核心是利用自监督视觉transformer,具体来说是DINO-ViT,建立起强大而一致的人脸结构表示,涵盖真实和风格化领域。风格化过程首先通过将StyleGAN生成器适应到具有变形感知能力的状态,通过集成空间transformer(STN)来实现。然后,在DINO语义的引导下,引入两个创新的约束来指导生成器的微调:i)方向变形损失,调整DINO空间中的方向向量;ii)基于DINO令牌自相似性的相对结构一致性约束,确保多样化生成。此外,采用样式混合来使颜色生成与参考图像一致,减少不一致的对应关系。

方法为One-shot人脸风格化提供了更好的可变形性能,并在大约10分钟的微调时间内实现了显著的效率。广泛的定性和定量比较证明方法人脸风格化方法方面的优越性。https://github.com/zichongc/DoesFS

3、One-Shot Structure-Aware Stylized Image Synthesis

5fe23e402686e9bf4826246bb6247159.png

虽然基于GAN的模型在图像风格化任务上取得成功,但在对各种输入图像进行风格化时往往难以保持结构的完整性。最近,扩散模型已被用于图像风格化,但仍然缺乏保持输入图像原始质量的能力。

本文提出OSASIS:一种新的One-Shot风格化方法,具有结构保持的鲁棒性。展示了OSASIS能够有效地将图像的语义和结构解耦,使其能够控制给定输入中的内容和风格水平。将OSASIS应用于各种实验设置,包括使用域外参考图像进行风格化以及使用文本驱动的操作进行风格化。结果表明,OSASIS在风格化方法方面表现出色,特别是对于训练中很少遇到的输入图像,为扩散模型风格化提供了有希望的解决方案。

人像生成

4、Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis

fe826252513462ab6baaccb0df09c206.png

扩散模型已用于姿势引导的人物图像合成中。而现有方法仅仅将人物外貌与目标姿势对齐,由于在源人物图像上缺乏高层语义理解,容易出现过拟合的问题。

本文提出一种用于姿势引导的人物图像合成的新方法——粗到精的潜在扩散(CFLD)。在缺乏图像-文本配对和文本提示的情况下,开发一种纯粹基于图像的训练范式,用于控制预训练文本到图像扩散模型的生成过程。设计一个感知精化解码器,用于逐渐优化一组可学习的查询并提取人物图像的语义理解作为粗粒度提示。这使得在不同阶段解耦细粒度外貌和姿势信息控制成为可能,从而避免潜在的过拟合问题。

为生成更真实的纹理细节,提出一种混合粒度注意力模块,用于将多尺度的细粒度外貌特征编码为偏差项,以增强粗粒度提示。在DeepFashion基准测试上的定量和定性实验证明方法在PGPIS方面相对于现有技术的优越性。https://github.com/YanzuoLu/CFLD

5、High-fidelity Person-centric Subject-to-Image Synthesis

7e92c4dbe5431559f2ab6afacefc0bcb.png

基于目标主体的图像生成方法,生成以人物为中心的图像面临着重大挑战。原因在于它们通过对共同预训练扩散进行微调来学习语义场景和人物生成,这涉及到无法调和的训练不平衡。为了生成逼真的人物,它们需要对预训练模型进行充分调整,这不可避免地导致模型忘记丰富的语义场景先验,并且使场景生成过度适应训练数据。此外,即使经过充分微调,这些方法仍然无法生成高保真度的人物,因为场景和人物生成的联合学习也会导致质量的折衷。

本文提出Face-diffuser,一种有效的协作生成流水线,以消除上述训练不平衡和质量折衷。具体而言,首先开发两种专门的预训练扩散模型,即文本驱动扩散模型(TDM)和主体增强扩散模型(SDM),用于场景和人物的生成。采样过程分为三个顺序阶段,即语义场景构建、主体-场景融合和主体增强。第一和最后阶段分别由TDM和SDM完成。主体-场景融合阶段通过一种新且高效的机制实现,即基于显著性自适应噪声融合(SNF)。具体来说,它基于本文核心观察结果,即分类器无关指导响应与生成图像的显著性之间存在强大的联系。在每个时间步骤中,SNF利用了每个模型的独特优势,并以一种自适应于显著性的方式自动地进行两个模型预测噪声的空间混合,所有这些都可以无缝地集成到DDIM采样过程中。

实验证实Face-diffuser在生成高保真度人物图像方面的卓越效果。https://github.com/CodeGoat24/Face-diffuser

6、Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation

1ca1c880dd5fa995c8f14d51d63e4467.png

传统的文本到图像扩散模型在生成准确的人物图像方面存在困难,例如不自然的姿势或不成比例的肢体。现有方法大多通过在模型微调阶段添加额外的图像或人体中心先验(例如姿势或深度图)来解决这个问题。本文探讨的是将这些人体中心先验直接集成到模型微调阶段,从而在推理阶段消除额外条件的需求。

通过引入人体中心对齐损失,在交叉注意力图中增强来自文本提示的与人相关的信息,实现了这一想法。为在微调过程中保证语义细节丰富性和人体结构准确性,根据对交叉注意力层的深入分析,引入尺度感知和分步约束。

实验结果表明,方法在基于用户编写的提示语生成高质量人物图像方面取得较大改进。https://hcplayercvpr2024.github.io/

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

不是一杯奶茶喝不起,而是我T M直接用来跟进 AIGC+CV视觉 前沿技术,它不香?!

ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

d2168937d280f1aadb17a12ab730ade0.png 戳我,查看GAN的系列专辑~!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击跟进 AIGC+CV视觉 前沿技术,真香!,加入 AI生成创作与计算机视觉 知识星球!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/292243.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

54 npm run serve 和 npm run build 输出的关联和差异

前言 通常来说 我们开发的时候一般会用到的命令是 “npm run serve”, “npm run build” 前者会编译当前项目, 然后将编译之后的结果以 node 的形式启动一个服务, 暴露相关业务资源, 因此 我们可以通过 该服务访问到当前项目 后者是编译当前项目, 然后做一下最小化代码的优…

(八)目标跟踪中参数估计(似然、贝叶斯估计)理论知识

目录 前言 一、统计学基础知识 (一)随机变量 (二)全概率公式 (三)高斯分布及其性质 二、似然是什么? (一)概率和似然 (二)极大似然估计 …

牛客NC153 信封嵌套问题【中等 动态规划,最长递增子序列 Java,Go,PHP】

题目 题目链接: https://www.nowcoder.com/practice/9bf77b5b018d4d24951c9a7edb40408f 相同的题目: https://www.lintcode.com/problem/602 思路 本质是求最长子序列问题envelopes 先按 w 升序排序,再按 h 降序 排序,只需考虑h…

深入探讨分布式ID生成方案

✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 🎈🎈作者主页: 喔的嘛呀🎈🎈 ✨✨ 帅哥美女们,我们共同加油!一起进步&am…

当代深度学习模型介绍--循环神经网络(RNNs)

AI大模型学习 方向一:AI大模型学习的理论基础 模型和应用的多样化:随着研究的深入,深度学习领域出现了多种创新的模型架构: 卷积神经网络(CNNs)专门针对图像处理任务进行了优化,通过模拟生物视…

node.js项目初始化操作

项目环境Vscode 1.新建一个文件夹node.js(xx.js) 2.右键点击node.js,点击打开终端 我在VScode打开终端 输入npm init初始化项目没反应。 解决方法:进入文件夹node.js,出入cmd跳转到终端 重新输入npm init命令 正确结果如下图 后续命令按下…

卫星影像监测非农化,非粮化在农业中的应用

一、引言 随着卫星遥感技术的发展,卫星影像在农业领域的应用越来越广泛。然而,随着城市化进程的加速和农业结构的调整,卫星影像观测的非农化、非粮化现象也越来越突出。本文将重点探讨卫星影像观测非农化、非粮化的原因、影响以及应对策略。 …

[linux] AttributeError: module ‘transformer_engine‘ has no attribute ‘pytorch‘

[BUG] AttributeError: module transformer_engine has no attribute pytorch Issue #696 NVIDIA/Megatron-LM GitHub 其中这个答案并没有解决我的问题&#xff1a; import flash_attn_2_cuda as flash_attn_cuda Traceback (most recent call last): File "<stdi…

Day62-Nginx四层负载均衡及结合7层负载均衡实践

Day62-Nginx四层负载均衡及结合7层负载均衡实践 1. 什么是四层负载均衡&#xff1f;2. 四层负载均衡的常用场景3. 百万并发百亿PV大规模架构4. L4和L7的区别及常用软件。5. lvs、nginx、haproxy区别6. nginx四层负载均衡&#xff08;tcp/ip&#xff0c;ip:port&#xff09;7. n…

深入理解element-plus table二次封装:从理论到实践的全面指南

前言 在许多中后台管理系统中&#xff0c;表格占据着半壁江山&#xff0c;如果使用element plus组件库&#xff0c;那么少不了要用到table组件&#xff0c;可是table组件的功能过于基础&#xff0c;因此&#xff0c;我在table组件的实现基础之上进一步封装&#xff0c;从而实现…

外贸独立站seo优化方案

对于外贸独立站而言&#xff0c;SEO&#xff08;搜索引擎优化&#xff09;是吸引潜在客户、提升品牌曝光度和增加销售量的关键之一。但是&#xff0c;由于竞争激烈和市场的多样性&#xff0c;要想在搜索引擎上取得好的排名并非易事。本文将介绍一些外贸独立站SEO的有效方法&…

Kotlin 中的类和构造方法

Kotlin 中的类与接口和 Java 中的类与接口还是有区别的。例如&#xff0c;Koltin 中的接口可以包含属性声明&#xff0c;与 Java 不同的是。Kotlin 的声明默认是 final 和 public 的。此外&#xff0c;嵌套的类默认并不是内部类&#xff1a;它们并没有包含对其它外部类的隐式引…

QA:ubuntu22.04.4桌面版虚拟机鼠标丢失的解决方法

前言 在Windows11中的VMWare Workstation17.5.1 Pro上安装了Ubuntu22.04.4&#xff0c;在使用过程中发现&#xff0c;VM虚拟机的鼠标的光标会突然消失&#xff0c;但鼠标其他正常&#xff0c;就是光标不见了&#xff0c;下面是解决办法。 内容 如下图&#xff0c;输入mouse&a…

测试图片可否直接粘贴进csdn,后期删除

java图书管理系统mysqlswing版本 V1.0.1版 P1&#xff0c;简介项目功能&#xff1a; 运行主函数运行程序&#xff0c;进入管 理系统的登录界面

Kubeflow文档1:介绍与架构

Kubeflow 2024/3/19版本的文档 此专栏用来展示相关的内容翻译&#xff0c;重点关注本地部署&#xff0c;关于运营商的方案&#xff0c;请自行查阅 文档地址https://www.kubeflow.org/docs/ 开始编辑时间&#xff1a;2024/3/27&#xff1b;最后编辑时间2024/3/27 Kubeflow文…

使用1panel部署Ollama WebUI(dcoekr版)浅谈

文章目录 说明配置镜像加速Ollama WebUI容器部署Ollama WebUI使用问题解决&#xff1a;访问页面空白 说明 1Panel简化了docker的部署&#xff0c;提供了可视化的操作&#xff0c;但是我在尝试创建Ollama WebUI容器时&#xff0c;遇到了从github拉取镜像网速很慢的问题&#xf…

企微获客助手到底有哪些价值?

获客助手作为企业微信官方提供的获客工具&#xff0c;在私域布局中确实展现了其强大的引流效率和便利性。这一工具通过简化传统引流过程中的复杂步骤&#xff0c;使得企业能够更高效地吸引和转化潜在客户。此外&#xff0c;获客助手还能实现不同渠道的无缝链接&#xff0c;进一…

linux文件系统:VFS

文章目录 vfs1 super_block2 dentry2.1 dentry树2.2 dentry的cache2.3 挂载 3 inode4 文件file5 vfs各结构体的关系 vfs Linux内核通过虚拟文件系统&#xff08;Virtual File System&#xff0c;VFS&#xff09;管理文件系统 VFS为所有的文件系统提供了统一的接口&#xff0c…

HAProxy + Vitess负载均衡

一、环境搭建 Vitess环境搭建&#xff1a; 具体vitess安装不再赘述&#xff0c;主要是需要启动3个vtgate&#xff08;官方推荐vtgate和vtablet数量一致&#xff09; 操作&#xff1a; 在vitess/examples/common/scripts目录中&#xff0c;修改vtgate-up.sh文件&#xff0c;…

【GitLab】Ubuntu 22.04 快速安装 GitLab

在 Ubuntu 22.04 上安装最新版本的 GitLab&#xff0c;可以按照以下步骤操作&#xff1a; 1. 更新系统&#xff1a; 在终端中执行以下命令以确保系统是最新的&#xff1a; sudo apt update sudo apt upgrade2. 安装依赖&#xff1a; 安装 GitLab 所需的依赖包&#xff1a; …