DDPM详解 AI绘画

话说DDPM

DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式, 逐步从一个纯噪音的图片中生成图像。

现在已有生成图像模型的对比

没有相关机器学习背景的小伙伴可能会问了,什么是纯噪音图片?

很简单,老式电视机没信号时,伴随着"刺啦刺啦"噪音出现的雪花图片,就属于纯噪音图片。而DDPM在生成阶段所做的事情,就是把这些个"雪花"一点点移除,直到清晰的图像露出它的庐山真面目,我们把这个阶段称之为"去噪"。

纯噪音图片:老电视的雪花屏

通过描述,大家可以感受到,去噪其实是个相当复杂的过程。没有一定的去噪规律,可能你忙活了好半天,到最后还是对着奇形怪状的图片欲哭无泪。当然,不同类型的图片也会有不同的去噪规律,至于怎么让机器学会这种规律,有人灵机一动,想到了一种绝妙的方法。

"既然去噪规律不好学,那我为什么不先通过加噪的方式,先把一张图片变成纯噪音图像,再把整个过程反着来一遍呢?"

这便奠定了diffusion模型整个训练-推理的流程, 先在前向过程( forward process )通过逐步加噪,将图片转换为一个近似可用高斯分布的纯噪音图像,紧接着在反向过程( reverse process )中逐步去噪,生成图像,最后以增大原始图像和生成图像的相似度作为目标,优化模型,直至达到理想效果

DDPM的训练-推理流程

到这里,不知道大家的接受度怎样?如果感觉没问题,轻轻松的话。准备好,我要开始上大招(深入理论)啦。

1.前向过程(forward process)

又称为扩散过程(diffusion process),整体是一个参数化的 马尔可夫链(Markov chain 。从初始数据分布 出发,每步在数据分布中添加高斯噪音,持续T次。其中从第t-1步到第t步的过程可以用高斯分布表示为:

通过合适的设置,随着t不断增大,原始数据会逐渐失去他的特征。我们可以理解为,在进行了无限次的加噪步骤后,最终的数据会变成没有任何特征,完全是随机噪音的图片,也就是我们最开始说的"雪花屏"。

在这个过程中,每一步的变化是可以通过设置 超参 来控制,在我们知晓最开始的图片是什么的前提下,前向加噪的整个过程可以说是 已知且可控的 ,我们完全能知道每一步的生成数据是什么样子。

但问题在于,每次的计算都需要从起始点出发,结合每一步的过程,慢慢推导至你想要的某步数据,过于麻烦。好在因为高斯分布的一些特性,我们可以一步到位,直接从得到。

(这里的 和 为组合系数 ,本质上是超参的表达式)

2.反向过程(reverse process)

和前向过程同理,反向过程也是一个 马尔可夫链(Markov chain), 只不过这里用到的参数不同,至于具体参数是什么,这个就是我们需要机器来学习的部分啦。

在了解机器如何学习前,我们首先思考,基于某一个原始数据,从第t步,精准反推回第t-1步的过程应该是怎样的?

答案是,这个仍可以用高斯分布表示:

注意这里必须要考虑,意思是反向过程最后生成图像还是要与原始数据有关。输入猫的图片,模型生成的图像应该是猫,输入狗的图片,生成的图像也应该和狗相关。若是去除掉,则会导致无论输入哪种类型的图片训练,最后diffusion生成的图像都一样,"猫狗不分"。

经过一系列的推导,我们发现,反向过程中的参数和,竟然还是可以用,,以及参数 表示出来的,是不是很神奇~

当然,机器事先并不知道这个真实的反推过程,它能做到的,只是用一个大概近似的估计分布去模拟,表示为 。

3.优化目标

在最开始我们提到,需要通过 增大原始数据和反向过程最终生成数据的相似度 来优化模型。在机器学习中,我们计算该相似度参考的是 交叉熵( cross entropy )

关于交叉熵,学术上给出的定义是"用于度量两个概率分布间的差异性信息"。换句话讲,交叉熵越小,模型生成的图片就越和原始图片接近。但是,在大多数情况下,交叉熵是 很难或者无法通过计算得出 的,所以我们一般会通过优化一个更简单的表达式,达到同样的效果。

Diffusion模型借鉴了VAE模型的优化思路,将 variational lower boundVLB ,又称 ELBO )替代cross entropy来作为最大优化目标。通过无数步的分解,我们最终得到:

看到这么复杂的公式,好多小伙伴肯定头都大了。但不慌,这里需要关注的,只是中间的 罢了,它表示的是 和之间估计分布和真实分布的差距 。差距越小,模型最后生成图片的效果就越好。

4.上代码

在了解完DDPM背后的原理,接下来就让我们看看DDPM模型究竟是如何实现…

才怪啦。相信看到这里的你,肯定也不想遭受成百上千行代码的洗礼。好在MindSpore已经为大家提供了开发完备的DDPM模型, 训练推理两手抓,操作简单,单卡即可运行 ,想要体验效果的小伙伴,可以先pip install denoising-diffusion-mindspore后,参考如下代码配置参数:

对重要的参数进行一些解析:

  • GaussianDiffusion

  • image_size: 图片大小

  • timesteps: 加噪步数

  • sampling_timesteps: 采样步数,为提升推理性能,需小于加噪步数

  • Trainer

  • folder_or_dataset: 对应图片中的path, 可以是已下载数据集的路径(str),也可以是已做好数据处理的VisionBaseDataset, GeneratorDataset 或 MindDataset

  • train_batch_size:batch大小

  • train_lr: 学习率

  • train_num_steps: 训练步数

话说MindDiffusion

DDPM只是Diffusion这个故事的开篇。目前,已有无数的研究人员被其背后瑰丽的世界所吸引,纷纷投身其中。在不断优化模型的同时,也逐渐开发了Diffusion在各个领域的应用。

其中,包括了计算机视觉领域的图像优化、inpainting、3D视觉,自然语言处理中的text-to-speech,AI for Science领域的分子构象生成、材料设计等,更有来自斯坦福大学计算机科学系的博士生Eric Zelikman大开脑洞,尝试将DALLE-2与最近另一个大火的对话模型ChatGPT相结合,制作出了温馨的绘本故事。

DALLE-2 + ChatGPT合力完成的,关于一个名叫"罗比"的小机器人的故事

不过最广为大众所知的,应该还是它在文生图(text-to-image)方面的应用。输入几个关键词或者一段简短的描述,模型便可以为你生成相对应的图画。

比如,输入"城市夜景 赛博朋克 格雷格.路特科夫斯基",最后生成的便是一张色彩鲜明,颇具未来科幻风格的作品。

再比如,输入"莫奈 撑阳伞的女人 月亮 梦幻",生成的便是一张极具有朦胧感的女人画像,色彩搭配的风格有木有让你想起莫奈的《睡莲》?

想要写实风格的风景照作为屏保?没问题!

乡村 田野 屏保

想要二次元浓度多一点的?也可以!

来自深渊 风景 绘画 写实风格

以上这些图片,均是由 MindDiffusion 平台的下的悟空画画 制作而成的哦,悟空画画是基于扩散模型的中文文生图大模型,由 华为诺亚团队 携手 中软分布式并行实验室 昇腾计算产品部联合开发。模型基于Wukong dataset训练,并使用昇思框架(MindSpore)+昇腾(Ascend)软硬件解决方案实现。

跃跃欲试的小伙伴先别着急,为了让大家拥有更好的体验,更多自行开发的空间,我们打算让MindDiffusion中的模型同样也具备可训练、可推理的特性,预计在明年就要和大家见面啦,敬请期待,欢迎大家头脑风暴,生成各种别具风格的作品哦~

(据去内部打探情报的同事说,有人已经开始尝试"张飞绣花"、"刘华强砍瓜"、"古希腊神大战哥斯拉"了。ummmm,怎么办,突然就很期待成品了呢(ಡωಡ))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47525.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

对抗生成网络GAN系列——DCGAN简介及人脸图像生成案例

🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题 🍊往期回顾:对抗生成网络GAN系列——GAN原理及手写数字生成小案例 🍊近期目标:写好专栏的每一篇文章 🍊支持小苏:点赞…

用户画像·用户性别预测

文章目录 一、为什么进行性别预测二、特征数据选取三、算法选择四、代码示例1、使用朴素贝叶斯,进行建模2、使用支持向量机3、使用逻辑斯蒂回归 一、为什么进行性别预测 用户注册时,所填写的性别,存在大概率的随意性;不能完全作为…

云开发视频资源变现微信小程序源码

简介: 云开发视频资源变现微信小程序源码,带有流量主功能。获取视频,获取资源需先看广告,资源变现小程序全源码无删减,自己付费做的。 主要功能,就是用户想观看你的视频或者获取你的资源,就需…

拉伯证券|年报行情如火如荼 博弈“超预期”还须警惕“风险点

本周以来,在指数转入高位盘整的背景下,A股商场资金围绕年报头绪展开布局,“年报预增”一跃成为商场最强主线,不少成绩预增公司短期股价收获明显超额收益。 Choice数据显现,截至1月12日盘前,开年以来共136家…

基于上证金融数据的情感分析和走势预测 代码+数据

目录 情感分析结果: ​编辑 首先是获取 股票评论数据的网站: 程序: 数据展示: 情感分析结果: 首先是获取 股票评论数据的网站: 上证指数股吧_上证指数分析讨论社区-东方财富网 程序: im…

FTT暴雷加密熊市雪上加霜?如何对抗系统风险

11月加密领域,正在上演一场新的戏剧:CZ vs SBF。 行情及后续风险预判,这是一场亿万富翁之战。中心化交易所币安和FTX的首席执行官CZ和SBF正在对峙。 FTX事件到11月11日似乎进入了一个新的阶段,在过去的几天里发生的事情几乎可以确…

fastposter v2.9.3 简单易用的海报生成器

🔥🔥🔥 fastposter海报生成器是一款快速开发海报的工具。只需上传一张背景图,在对应的位置放上组件(文字、图片、二维🐴、头像)即可生成海报。 点击代码直接生成各种语言的调用代码,…

fastposter v2.6.1 发布 程序员专属海报生成器

fastposter v2.6.1 发布 程序员专属海报生成器 fastposter电商级海报生成器,程序员专属海报生成器,一分钟完成海报开发,轻松在线作图。支持Java、Python、PHP、 Go、JavaScript等多种语言。 v2.6.1 发布 程序员专属海报生成器 解决Windows下…

你是如何看待“孔乙己的长衫”?

学历是一个十分有争议的话题,观点不一,这使得这个话题讨论起来令人热血沸腾。就人生而言,学历是否会成为敲门砖或枷锁,可以说是个纯粹的看法和态度问题。 首先,我们要看到学历本身。学历是告诉人们你有哪些学科的专业…

浅谈“孔乙己”的长衫

书中的孔乙己 孔乙已是鲁迅笔下人物,穷困流倒还穿着象征读书人的长衫,迁腐、麻木。最近,大家自我调佩是“当代孔乙己”,学历成为思想负担,找工作时高不成低不就。 当代的“孔乙己” 如今社会,从小学开始每…

打工人都在用的AI工具

随着ChatGPT的问世,AI也算迎来了高光时刻!下文是技术宅整理的一些和ChatGPT相关的工具应用,排名不分先后,也不代表个人推荐,但真心真心好好用,主打的就是一个纯粹! 本文将先分享10个有趣的AI小工…

巴黎时装周儿童单元上海站圆满落幕,代言人陈沫含亮相并献上精彩走秀

3月18日,巴黎时装周儿童单元上海站在上海宝华喜来登酒店圆满落幕。巴黎时装周儿童单元(又名:巴黎儿童时装周)由巴黎高定协会(Paris advanced customization Association,PACA)及法国视听艺术协会(Association franaise…

人工智能迎来高光时刻,拟人化AI进入爆发前夜

3 月,随着 OpenAI 新一代模型 GPT-4 以及百度“文心一言”的正式公布,通用人工智能 AGI 的概念再次点燃全球社交平台。从最初的文字对话到如今的看图写代码,AGI 领域终于迎来了属于自己的“iPhone 时刻”,而对话式 AI 这一充满无限…

Meta发布LLaMA 2:分析及解读

Meta发布了LLaMA的新版本。该版本将被称为LLaMA 2,并且可以免费用于研究和商业用途。这是Meta和Microsoft联合发布的成果。 我认为微软希望垄断所有第三方LLM,并将它们作为SaaS(软件即服务)保留在自己的平台上作为商业产品。现在…

用Rword2vec告诉你券商的推荐买股票是否靠谱

最近国内A股走势不错,又有听到周边有不少同事打算入市了。那么咱们IT人员如果相关金融知识不多,又不想买基金交管费的话,跟着券商的推荐买行不行呢? 如果是零基础的朋友请参考https://blog.csdn.net/BEYONDMA/article/details/879…

音频合并的软件有哪些?这几个软件分享给你

我们平时听过的歌曲串烧,是由多首歌曲拼接起来的。如果大家不想在听音乐时手动切换歌曲的话,不妨试试使用软件,将歌曲剪辑拼接起来。但是作为剪辑小白,不知道音频拼接软件哪个好用。没关系,下面给你们分享几款手残党也…

语音合成(speech synthesis)方向六:歌唱合成(singing voice synthesis)

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进。如转载&a…

如何进行音频合并?很简单,只需三步骤

大家有没有经常在短视频上刷到一些歌曲串烧,他们将很多歌曲结合在一起居然毫无违和感,但其实像这样的歌曲合并呀,或者说是音频合并到一块的操作其实是非常简单的,仅需几分钟就能轻松上手,你们也可以像那些短视频的up主…

计算机弹音乐百度百科,电子音乐合成器

电子音乐合成器又简称电子合成器,是由电子设备代替乐队进行演奏和进行自动化编曲的一种电子化设备。用合成器制作声音的方法很多,起先是把若干个正弦波振荡器连在一起,改变各自的频率、振幅,就可以产生不同音色。后来,…

【音乐合成】基于FPGA的音乐合成系统verilog实现

1.软件版本 matlab2013b,quartusii12.1 2.系统FPGA实现 2.1频率选择 音乐的合成主要有几种频率,这里设置如下几组频率,在实际情况下,可以进行扩充。 Fc 261.63; %C Fd 293.66; %D Fe 329.63; %E Ff 349.23; %F Fg 3…