浅析扩散模型与图像生成【应用篇】(四)——Palette

4. Palette: Image-to-Image Diffusion Models

  该文提出一种基于扩散模型的通用图像转换(Image-to-Image Translation)模型——Palette,可用于图像着色,图像修复,图像补全和JPEG图像恢复等多种转换任务。Palette是一种条件扩散模型,目的是根据输入的条件 x x x来构建分布 p ( y ∣ x ) p(y|x) p(yx),其中 x x x y y y都是图像的形式。作者采用了256*256的条件UNet架构作为网络模型,并通过图像级联的方式引入条件图像。目标损失函数如下 E ( x , y ) E ϵ ∼ N ( 0 , I ) E γ ∥ f θ ( x , γ y + 1 − γ ϵ ⏟ y ~ , γ ) − ϵ ∥ p p \mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y})} \mathbb{E}_{\boldsymbol{\epsilon} \sim \mathcal{N}(0, I)} \mathbb{E}_{\gamma}\|f_{\theta}(\boldsymbol{x}, \underbrace{\sqrt{\gamma} \boldsymbol{y}+\sqrt{1-\gamma} \boldsymbol{\epsilon}}_{\tilde{\boldsymbol{y}}}, \gamma)-\boldsymbol{\epsilon}\|_{p}^{p} E(x,y)EϵN(0,I)Eγfθ(x,y~ γ y+1γ ϵ,γ)ϵpp其中 γ \gamma γ表示噪声的强度。在DDPM中 p = 2 p=2 p=2,即采用L2损失函数;而在其他的一些工作中,也有选择L1损失函数的。作者发现使用L2损失能够提高生成样本的多样性,而使用L1损失则会生成更加保守可信的结果。
  为了评估图像转换算法的性能,作者还给出了一个综合的评价指标,包含Inception Score (IS);Fréchet Inception Distance (FID); Classification Accuracy (CA),用预训练的ResNet-50分类器的Top-1分类准确率; Perceptual Distance (PD), 在Inception-V1特征空间中的欧氏距离。此外还引入了人类评估方式,即让人判断两张图片哪个是自然图片,哪个是生成图片,人类将生成图片误判为自然图片的比例,称为Fool Rate。
  作者在四个图像转换任务中对Palette的性能进行了测试,包括:

  • 图像着色:将灰度图像转换为彩色图像
  • 图像修复:将图像中被任意掩码的部分用真实的内容填充起来
  • 图像补全:把输入图像沿一个或多个方向进行扩展使其变得更大
  • JPEG图像恢复:将压缩过得JPEG图像恢复其图像细节

实验结果表明,在无需对任务进行单独调参和单独设计得条件下,Palette在多个任务中均取得了非常有竞争力的结果,甚至超过了许多针对任务开发的专用算法(包括基于GAN和自回归模型的)。
在这里插入图片描述
  接着作者研究了自注意力机制对扩散模型的影响,作者发现全局自注意力机制要优于局部自注意力机制,甚至不适用自注意力机制,通过增加更多的残差块或者使用空洞卷积来增大感受野,其性能都超过使用局部自注意力。最后,作者研究了多任务训练的影响,即使用多个任务的数据集同时对Palette进行训练。在大部分任务中(图像修复和图像着色)多任务训练的效果是不如针对任务单独训练的Palette方法的,而在JPEG图像恢复任务中,多任务训练的Palette甚至取得了更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/266418.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于JAVA的不良邮件过滤系统 开源项目

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统用户模块2.2 收件箱模块2.3 发件箱模块2.4 垃圾箱模块2.5 回收站模块2.6 邮箱过滤设置模块 三、实体类设计3.1 系统用户3.2 邮件3.3 其他实体 四、系统展示五、核心代码5.1 查询收件箱档案5.2 查询回收站档案5.3 新…

Python爬虫——Urllib库-上

这几天都在为了蓝桥杯做准备,一直在刷算法题,确实刷算法题的过程是及其的枯燥且枯燥的。于是我还是决定给自己找点成就感出来,那么Python的爬虫就这样开始学习了。 注:文章源于观看尚硅谷爬虫视频后笔记 目录 Urllib库 基本使…

【视频图像取证篇】Amped FIVE专业法医图像和视频增强软件之模糊图像去隔行功能

【视频图像取证篇】Amped FIVE专业法医图像和视频增强软件之模糊图像去隔行功能 法医图像和视频增强软件,专业又强大!!!超过 140 种过滤器和工具,用于分析、恢复和增强数字图像和视频。Amped FIVE能够稳定抖动的视频&…

锐捷网络携数据中心、以太全光等创新解决方案亮相2024MWC

在西班牙巴塞罗那举行的2024年世界移动通信大会(MWC)上,锐捷网络(下文简称“锐捷”)展示了将技术与应用充分融合的云数据中心、5G、光网络等产品及解决方案,帮助更多行业组织建设更贴近业务、智能、简单、高效、绿色低碳的网络基础设施,应对当下及未来的挑战,共同连接更广阔可能…

SDR架构 (二) 为什么很多SDR频谱中间有尖峰?

相信大家第一次打开gnuradio看听广播、看频谱的时候,会注意到一个奇怪的现象,明明在频谱中间不该有信号,但是实际看到了一个尖峰。这个尖峰不含带任何信息,并且不管调节到哪个中心频率,这个尖峰都会存在。 这种情况出…

基于springboot+vue的医院资源管理系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

云计算 2月26号 (进程管理和常用命令)

一、权限扩展 文件权限管理之: 隐藏权限防止root误删除 文件属性添加与查看 [rootlinux-server ~]# touch file1 file2 file3 1.查看文件属性 [rootlinux-server ~]# lsattr file1 file2 file3 ---------------- file1 ---------------- file2 ---------------- f…

androidapp的开发流程,王者笔记

昨天去面了一家公司,价值观有受到冲击。 面试官技术方面没的说,他可能是个完美主义的人,无论什么事情到了他那里好像都有解决的方案,我被说的无所适从,感觉他很厉害。 但我不能认可的是,面试官觉得加班是…

测试计划、测试方案、测试策略、测试用例的区别

一 测试计划 测试计划是指描述了要进行的测试活动的范围、方法、资源和进度的文档。它主要包括测试项、被测特性、各阶段的测试任务、时间进度安排,谁执行任务和风险控制等,可以包括测试策略。 二 测试方案 测试方案是指描述需要测试的特性、测试的方…

Docker技术概论(1):Docker与虚拟化技术比较

Docker技术概论(1) Docker与虚拟化技术比较 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https:…

雾锁王国服务器官方配置要求说明

雾锁王国/Enshrouded服务器CPU内存配置如何选择?阿里云服务器网aliyunfuwuqi.com建议选择8核32G配置,支持4人玩家畅玩,自带10M公网带宽,1个月90元,3个月271元,幻兽帕鲁服务器申请页面 https://t.aliyun.com…

5 局域网基础(3)

1.AAA 服务器 AAA 是验证、授权和记账(Authentication、Authorization、Accounting)3个英文单词的简称,是一个能够处理用户访问请求的服务器程序,提供验证授权以及帐户服务,主要目的是管理用户访问网络服务器,对具有访问权的用户提供服务。AAA服务器通常…

MySQL(基础篇)——事务

一.事务简介 事务是一组操作的集合,他是一个不可分割的单位,事务会把所有的操作作色一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败。 默认MySQL的事务是自动提交的,也就是说&#xff0c…

基于Vue3的在线考试系统

TDuckX 是一个功能强大的可私有化部署的在线表单考试平台,可以帮助您轻松创建表单和在线考试。本文档将指导您如何使用 TDuckX 创建您自己的在线考试。 步骤 1:登录账户 完成系统部署后,在浏览器中打开 TDuckX 的网站。 如果您已经拥有账户&…

STM32自学☞AD单通道

程序的最终运行成果: 当转动电位器时,数值和电压值发生变化 ad.c文件 #include "stm32f10x.h" #include "stm32f10x_adc.h" #include "ad.h" #include "stdint.h" void ad_Init(void) { /* 初始化步骤:…

Mybatis-Plus介绍

目录 一、Mybatis-Plus简介 1.1、介绍 1.2、特性 1.3、架构 1.4、Mybatis-Plus与Mybatis的区别 二、快速入门 2.1、首先创建数据库mybatis-plus 2.2、创建user表 2.3、插入数据 2.4、创建Spring-Boot项目 2.5、添加依赖 2.6、连接数据库 一、Mybatis-Plus简介 1.1、…

CPU算力分配【华为OD机试-JAVAPythonC++JS】

题目描述 现有两组服务器A和B,每组有多个算力不同的CPU,其中A[i]是A组第i个CPU的运算能力,B[i]是B组第i个CPU的运算能力。一组服务器的总算力是各CPU的算力之和。为了让两组服务器的算力相等,允许从每组各选出一个CPU进行一次交换…

银河麒麟server-V10配置yum镜像源

1.跳转到yum.repo.d文件夹 cd /etc/yum.repo.d 2.重命名系统镜像源文件 mv kylin_x86_64.repo kylin_x86_64.repo.bak 3.添加新的镜像源 vi kylin.repo [ks10-adv-cdrom] name Kylin Linux Advanced Server 10 - cdrom baseurl file:///run/media/root/Kylin-Server-10…

【STM32】STM32学习笔记-独立看门狗和窗口看门狗(47)

00. 目录 文章目录 00. 目录01. WDG概述02. 独立看门狗相关API2.1 IWDG_WriteAccessCmd2.2 IWDG_SetPrescaler2.3 IWDG_SetReload2.4 IWDG_ReloadCounter2.5 IWDG_Enable2.6 IWDG_GetFlagStatus2.7 RCC_GetFlagStatus 03. 独立看门狗接线图04. 独立看门狗程序示例105. 独立看门…

VUE实现Office文档在线编辑,支持doc/docx、xls/xlsx、ppt/pptx、pdf等

1.微软提供的在线Office预览(只能预览,不能编辑) https://view.officeapps.live.com/op/view.aspx?src服务器上文档地址(http开头) 2.国内在线Office方案: 腾讯文档、石墨文档、飞书 优势:跨…