【达摩院OpenVI】AIGC技术在图像超分上的创新应用

团队模型、论文、博文、直播合集,点击此处浏览

一、背景

近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。

不过随着扩散模型DiffusionModel在理论和实践中的有效性得到越来越多的验证,在大数据、大模型的加持下,多模态学习发展如火如荼,促成了当今AIGC的火爆。同时以此为基础的视觉增强底层任务,也带来了一些突破性成果。今天重点给大家展示下,扩散模型在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!

二、方法

1.)经典算法Real-ESRGAN

先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN,如图1基本流程。

图1: 来源Real-ESRGAN: Training Real-World Blind Super-Resolutionwith Pure Synthetic Data

生成网络是ESRGAN的生成网络,保持不变,首先用L1 loss,训练以PSRN为导向的网络,获得的模型称为Real-ESRNet,然后Real-ESRNet的网络参数进行网络初始化,同时使用 L1 loss、perceptual loss、 GAN loss损失函数,训练最终的网络Real-ESRGAN。

训练数据可以自己收集,使用退化方法,构建样本对。细节的生成能力依托GAN的作用,GAN的生成能力的发展进化已经经历了多年,在此不做赘述,但从实际应用中看,对于图片生成的真实性和多样性仍然有待提升。

2.)扩散模型简介

扩散模型(DiffusionModel)近几年开始受到广泛的关注,下面可以通俗地以denoising diffusion probabilistic models(DDPM)为基础的扩散模型的基本原理。

图2: 来源Score-Based Generative Modeling through StochasticDifferential Equations

扩散模型的前向过程:不断给图片加噪声的过程。

扩散模型的逆向过程:一步步去除图片噪声的过程。

图3:来源 Denoising Diffusion ProbabilisticModels

DiffusionMolde的训练大致可以概括为,通过构建一个Unet网络,预测每一步加噪声的强度,通过理论推导,可以得知这个训练只需要使用L2loss监督。训练完成后,就可以从高斯噪声开始,根据逆向过程的采样方式,恢复出清晰图像。

近两年,越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。

3.)扩散模型在图像超分上的应用

下面重点看下在图像超分辨率方向上扩散模型的应用。

a.)SR3 (Image Super-Resolution via Iterative Refinement )

这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单,直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导,得到对应的高分辨率图像SR。

图4: 来源Image Super-Resolution via Iterative Refinement

b.)LatentDiffusion(High-Resolution Image Synthesis with Latent DiffusionModels )

接下来重点介绍这个工作,LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间,减少了计算量,增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意:

图5:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

LatentDiffusion也就是如今大火的StableDiffusion的基本方案,技术框架大致如下图所示:

图6:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

基于latentdiffusion model的图像超分辨率方案,我们称做LDM-SR,和SR3的做法相似,这里直接将LR和Latenspace 噪声合并一起,输入到Unet,后面通过Decoder4倍上采样,生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值,并且视觉效果上更自然细腻。

图7:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

总体来说,基于扩散模型的超分辨率方案相比GAN,取得了长足的进步,在细节和纹理生成能力上上了一个大台阶。

4.)ours方法

达摩院开放视觉团队,在图像超分辨率技术上演进上,应用最新的Diffusion Model,搜集了大量几十万张高清图像数据集,训练了新的基于扩散模型的图像超分辨率模型,已经上线了,可以来试试效果吧。

体验地址:

生成式超分服务官网

达摩院视觉开放平台

下面给出几组,基于LDM-SR和Real-ESRGAN的效果对比,直观感受下吧!

原图

Real-ESRGANx4

LDM_SR x4

原图

Real-ESRGANx4

LDM_SR x4

三、总结与展望

LDM是Stable V1的基本构成,最新的工作StableDiffusion V2 ,将多模态技术引入了图像超分辨率方案中。文本信息的引导,使得扩散模型 “更懂得要生成的目标细节特征”。基于多模态的超分辨率技术方案也即将上线,继续关注达摩院最新技术发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52690.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么把静态地图做成gif动图?一键教你快速合成gif地图

想要做一个带有箭头标识的动态地图时,应该使用什么制作工具呢?很简单给大家推荐一款gif制作(https://www.gif.cn/)工具-【GIF中文网】只需要上传jpg、png格式的一张带箭头,一张不带箭头的图片,一键就能快速…

掘金设置gif动图头像

打开修改个人信息页面 , f12 , 打开console, 输入下面的代码 ,回车 , 刷新看一下吧 var ajax new XMLHttpRequest(); //https://juejin.im/user/update/user_info/ //旧版掘金的域名地址 //https://juejin.cn/user/update/user_info/ //2022-06-23更新时废弃 aj…

达摩院开源多模态对话大模型mPLUG-Owl

miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。 论文链接:https://arxiv.org/abs/2304.14178…

chatgpt真的太牛了!

真的太多人在研究了解chatgpt了 chatgpt仅仅是发展到3.5版本,就已经火的一塌糊涂,两个月活跃用户破亿,创历史记录。 原因是什么? 当然是GPT不仅仅是一个答案平台,还是一个拥有超智慧的得力助手!再形象一…

ChatGPT超智慧AI真的那么牛吗?

ChatGPT是一种基于人工智能技术的聊天机器人,它可以模拟人类的对话方式,与用户进行交互。ChatGPT的出现为企业和个人带来了很多机遇,以下是一些抓住ChatGPT带来的机遇的建议: 1. 提高客户服务质量:ChatGPT可以为企业提…

职场人必备:工作述职报告PPT模板

作为一个职场人,不管你是高管还是普通员工,都少不了要做年度或者季度总结,亦或是述职报告、会议报告等类型的总结报告。鉴于很多人都有内容,但是无法形成框架,并且做出来的PPT也非常丑的问题,我们给大家提供…

构建聊天客户界面,包括消息显示文本框、消息发送文本框、选择好友的选择框、发送按钮。并为发送按钮添加事件,把消息显示在消息窗口中。

题目:构建聊天客户界面,包括消息显示文本框、消息发送文本框、选择好友的选择框、发送按钮。并为发送按钮添加事件,把消息显示在消息窗口中。 1.创建窗体与按钮、添加实训需要的组件 JTextField text ;//文本框JButton button ;//按钮JTextA…

【元宇宙欧米说】从个人创作者的角度聊聊NFT

普通人如何进入元宇宙?什么是在Web领域常见的坑?NFT创作方式的未来发展方向在哪? 9月2日下午三点,cat civilization创作者cat小浪将以“从个人创作者的角度聊聊NFT”为题,分享自己进入元宇宙、web3领域的经验&#xf…

常用的画图工具(UML图、业务流程图、时序图)

画图工具 http://draw.io http://draw.io是一个免费的画图工具,为用户提供最强大、易用的作图功能,既支持在线画图,也支持离线画图! 支持创作系统架构图、流程图、UML图、时序图、思维导图、组织结构图、网络拓扑图、BPMN、UI界…

程序流程图

程序流程图 简介基本结构作用及优缺点常用的标准符号 简介 程序流程图是用规定的符号描述一个专用程序中所需要的各项操作或判断的图示。这种流程图着重说明程序的逻辑性与处理顺序,具体描述了微机解题的逻辑及步骤。当程序中有较多循环语句和转移语句时&#xff0…

数据流程图画法

数据流图的绘制分三步走: 1、确定系统的输入输出; 2、由外向里画系统的顶层数据流图; 3、自顶向下逐层分解,绘出分层数据流图。 销售管理系统的分层数据流图 接下来,我们作进一步解读: 一、理解数据流…

如何绘制业务流程图?

绘制业务流程图是产品经理必备掌握的技能之一,尤其是对 B 端产品经理来说,要分析好需求写好一篇完整的 PRD 文档,首先就是绘制正确的业务流程图。 什么是业务流程图 在开始讲业务流程图之前,我们需要先了解一下业务流程图的定义。…

流程图怎么画?超详细教程,各种高逼格流程图轻松搞定!

无论是在办公还是在生活中,流程图都是一个必不可少的重要辅助工具,大到建筑设计小到生活计划都需要使用流程图来帮助我们更好的完成每一件事情! 但是流程图怎么做呢?很多朋友还是不知道的,今天小编给大家带来快速绘制…

程序流程图N-S图PAD图

在需求分阶段经常使用3种方法去剖析我们所面对的业务。 程序流程图 任何复杂的程序图都应由5种基本控制结构组成或嵌套而成。 盒图(N-S图) Nassi和Scheiderman提出了一种符合结构化程序设计原则的图形描述工具,叫作盒图,也叫做…

AI作画的背后是怎么一步步实现的?一文详解AI作画算法原理+性能评测

前言 “AI作画依赖于多模态预训练,实际上各类作画AI模型早已存在,之所以近期作品质量提升很多,可能是因为以前预训练没有受到重视,还达不到媲美人类的程度,但随着数据量、训练量的增多,最终达到了现在呈现…

漫画人工智能下象棋,走一步,能看几步?

老师爱下象棋,就是谁也赢不了。 去公园下了一盘棋 ,第一步我就走了一个当头炮 ,剩下的都是大爷们帮我走的。 结果,我输了。 经过他们的总结研究,我第一步走错了 。 2022年,象棋AI下棋机器人,…

Python实现照片卡通化,一拳打破次元壁 | 机器学习

目录 前言 项目结构 核心代码 总结 前言 接着我上一篇开源机器学习的使用:如何将照片变成卡通图,animegan2-pytorch机器学习项目使用 | 机器学习_阿良的博客-CSDN博客 我还是继续把项目稍微魔改一下,依然变为一个python文件就可以执行单…

人工智能画画 yyds

最近 AI 绘画火的一塌糊涂,你输一句话 AI 自动把你描述的场景画出来。本文盘点 GitHub 上几个较火的 AI 绘画开源项目。 本期推荐开源项目目录: 1. Latent Diffusion 2. PI-REC 3. Disco Diffusion 4. DALLE 01 Latent Diffusion Stable Diffusion 是 St…

人脸动漫化AnimeGAN V2的具体实施步骤

本文提供应对课设,毕设的小伙伴们一些参考:项目是参照网络上比较火的一个项目AnimeGAN V2,然后当时的一个课题也是跟这个相关,然后我是直接调用这个的,但是中间遇到过很多的问题,现在想说明一些问题&#x…

详解生成对抗网络(GAN)- 体验AI作画

目录 1.GAN是什么? 2.GAN的计算 3.编写GAN的小小示例 4.GAN的发展与应用 5.AI作画体验-Disco Diffusion 1.GAN是什么? 2014年,因为朋友邀请协助一个计算机生成图像的项目,lanGooddellow发明了GAN(Generative ad…