人工智能内容生成元年—AI绘画原理解析

AIGC体验生成

  团队模型、论文、博文、直播合集,点击此处浏览

、背景

        2022年AIGC(AI生成内容)焕发勃勃生机,大有元年之势,技术与应用迭代都扎堆呈现。在各种新闻媒体处可以看到诸多关于学术前沿研究,以及相应落地的商用案例可谓出现了现象级的学术-商业共振。以往学术研究内容离商用一般较远,因为学术研究相应实验数据通常为闭集即固定数据场景,而商业应用则为开集即非固定数据场景(能见到各式各样、甚至乱七八糟的数据)。所以将学术研究内容转化为商业应用的时候,就需要以工匠精神去做产品化设计与迭代,主要目的就是不断提升其可用性以达到商业化标准(避免出现不符预期、甚至乱七八糟的结果)。

        但AIGC领域似乎大大缩短了这一转化进程,尤其以近期短时间内爆火的AI绘画、AI作画类应用为代表。这无疑是人工智能发展至今的巨大胜利时刻,这能建立极强、极快的螺旋式发展迭代循环,商业应用上的不足点能迅速反馈至学术研究侧,学术研究侧的优化改进也能迅速体现到商业应用侧,拉满学术研究能获得的成就感。接下来的篇幅将介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。更多技术与应用的有趣想法欢迎评论区留言

原理

技术脉络归纳:

        在AI内容生成制作爆火的2022元年在其基础框架技术部分,技术演进的脉络可以看作是不断寻找更可靠的特征域建模方式,亦可看作是不断寻找更合适的借鸡生蛋方式的过程。原始图像域的特征维度是很高的,直接来建模会有维度灾难的问题。需要不断找到可行的中间域来做对齐:

1.)CLIP可以看作是图像域与文本域特征对齐的大一统技术框架,文本域的原始特征空间跟原始图像域的特征空间比是相对更小的。所以在同等维度特征的表达下,文本相比图像是能更加容易被刻画好的,所以当align文本域特征到图像域特征时,图像域特征表达将无疑得到了更佳的富有语义的监督信号。这样获得更好的效果也就很自然了。

2.)diffusion可以看作是将原始图像域建模转变为噪声域建模的方法。噪声域有两个极大的好处:首先,它的特征空间比原始图像域要小的多,非常容易建模。其次,即使噪声域建模效果没能接近完美,它所呈现出来的差异也是噪声域的差异,而这个噪声差异在图像内容域上对人眼来说往往注意不到。所以从基本原理上来说,diffusion生成的图像细节无疑是会远远优于gan的。

基础技术部分:

        基础技术框架上大致可以分成如下几个标志性的阶段:

a)GAN阶段

        原理摘记生成与对抗网络图像特征域对齐,示意图如论文[1]中图所示:

b)Transformer阶段

        网络由self-Attenion和Feed Forward Neural Network组成,强力的文本、图像(ViT系列)编码网络框架。示意图如论文[3]中图所示:

c)CLIP阶段

        图像文本域特征对齐。基于文本、视觉transformer encode统一框架,训练阶段4亿文本图像配对数据训练至少100卡月V100。示意图如论文[4]中图所示:

d)Diffusion阶段

        原始图像特征域对齐转变为图像噪声域对齐。基于参数化马尔科夫链框架实现。示意图如论文[5]中图所示:

演化技术部分:

a)StyleGan

        基于adain思想,额外学习高斯分布到风格空间w的映射,然后风格空间的变量作用于合成网络中。示意图如论文[2]中图所示:

b)DALL-E 1

        网络可理解为VQVAE + Transformer。示意图如论文[6]中图所示:

c DALL-E 2

        网络可理解为CLIP + Diffusion。示意图如论文[7]中图所示:

d)Stable Diffusion

        网络可理解为VAE + CLIP + Diffusion + Unet,引入LDM等加速手段,显著降低计算复杂度。示意图如论文[8]中图所示:

三、应用

        目前可以看到,诸如文生图、图生图、图像编辑、图像修复、图像拓展等应用功能都已实现,国内的AI绘画特效类应用也结合国风、动漫等风格有了非常广泛的应用,这里面既有大厂也有创业公司等玩家的加入。于此同时,对创意行业设计者来说,AI绘画也正演变为最佳助手,大幅提高创意行业的生产效率。相应应用介绍如下:

1.) Disco Diffusion:CLIP + Diffusion。https://github.com/alembics/disco-diffusion。

2.) Stable Diffusion:https://github.com/Stability-AI/stablediffusion。

3.) Stable Diffusion 2:显著提升图像质量,采用LAION-5B 58.5亿个图像文本对,增加NSFW做了内容过滤。https://huggingface.co/stabilityai/stable-diffusion-2 。

4.) Imagic : gan DALL-E 2,基于扩散模型的真实图像编辑方法,用文字就能实现真实照片的 PS,比如让一个人竖起大拇指、让两只鹦鹉亲吻。示意图如论文[9]中图所示:

5.) Imagen:更强力的语言模型能获得更逼真的画作效果。相较于视觉部分模型来讲,语言模型size越大带来的画作逼真性越大。示意图如论文[10]中图所示:

6.) DreamBooth: 对输入图像中的主体能进行相应输入文本语义下的内容生成。示意图如论文[11]中图所示:

7.) Midjourney : https://midjourney.gitbook.io/docs。在美国科罗拉多州举办的艺术博览会,《太空歌剧院》的画作获得数字艺术类别冠军

四、文献

[1]Gan:https://arxiv.org/abs/1406.2661

[2]StyleGan:https://arxiv.org/abs/1812.04948

[3]Transformer: https://arxiv.org/abs/1706.03762

[4]CLIP:https://arxiv.org/abs/2103.00020

[5]Diffusion:https://arxiv.org/abs/2006.11239

[6]DALL-E 1:https://arxiv.org/abs/2102.12092

[7]DALL-E 2:https://arxiv.org/abs/2204.06125

[8]Stable Diffusion: https://arxiv.org/abs/2112.10752

[9]Imagic:https://arxiv.org/abs/2210.09276

[10]Imagen:https://arxiv.org/abs/2205.11487

[11]DreamBoothhttps://arxiv.org/abs/2208.12242

五、应用

        接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

ModelScope 魔搭社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67860.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现

来源:机器之心 本文约4500字,建议阅读9分钟 本文介绍了人工智能在化学领域的发展。 随着人工智能技术兴起,在化学领域,传统的基于实验和物理模型的方式逐渐与基于数据的机器学习范式融合。越来越多的用于计算机处理数据表示被开发…

Replika:AI智能聊天机器人

【产品介绍】 Replika,这个名字可能有点拗口,但如果你知道这是复制品Replica的同音变体,你即刻能明白这个产品的定位了。官方Luka公司定义它是你的AI朋友,默默学习你,最终成为你的复制品。它不像现在市面上各大厂的AI助…

给女朋友做个聊天机器人,这样就能安心写代码了

这是第 404 次女友因为我没有及时回微信而和我生气了 惹祸的是我,受伤的确是钱包…… 但是,我并不后悔 那一局王者荣耀,因为没有回微信,我完成了五杀 carry 全场 那一局刺激战场,因为没有回微信,我绝地…

大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?...

来源:机器之心报道 编辑:张倩、蛋酱 数学将成为第一门借助AI实现重大突破的学科? 去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议…

对话三维家创始人蔡志森:AIGC让家装从“填空题”变成了“选择题”

(图片来源:Pixels) 三维家讲透了一个道理:数字化企业如何利用已有优势构建AGI能力。 数科星球原创 作者丨苑晶 编辑丨大兔 AIGC火热半年有余,人们已对ChatGPT不再陌生。 从互联网巨头再到上一代AI企业,…

人工智能图片素材高清,机器人图片卡通 素材

1、做一个人工智能的ppt需要哪些素材 不能理解你的问题。ppt仅仅是一个做幻灯的软件,可以插入图片、动画、音乐、过场等幻灯的功能,还谈不上有人工智能的能力。人工智能需要有更为强大的类似人脑思维的能力,简单的说人工智能是可以思考的机器…

一键生成文章的软件有哪些?将这几个不错的软件分享给你

大家平时遇到文章不会写,或者在写文章的时候断了思路不知该如何进行的时候,怎么办呢?其实大家可以使用一些能够自动生成文章的软件。那么输入文章标题自动生成文章的软件有哪些,你们知道吗?下面我就来为大家推荐这几款…

论文ai生成-一键生成论文的软件

ChatGPT自动写论文 ChatGPT可以使用生成的文本来帮助撰写学术论文,其中包括文章的大纲、段落和句子。但是,它并不会像一个完全替代人的写作工具一样让你“自动”写作。 虽然ChatGPT可以生成相当准确的语言,但它并不完美,它并不能…

一键生成mybatis

一键生成mybatis工具 1.mybatis-generator 步骤: 步骤1&#xff1a;修改pom.xml&#xff0c;添加mybatis-generator-maven-plugin插件 <!-- mybatis代码生成插件 --><plugin><groupId>org.mybatis.generator</groupId><artifactId>mybatis-ge…

学习实践-Alpaca-Lora (羊驼-Lora)(部署+运行+微调-训练自己的数据集)

Alpaca-Lora模型GitHub代码地址 1、Alpaca-Lora内容简单介绍 三月中旬&#xff0c;斯坦福发布的 Alpaca &#xff08;指令跟随语言模型&#xff09;火了。其被认为是 ChatGPT 轻量级的开源版本&#xff0c;其训练数据集来源于text-davinci-003&#xff0c;并由 Meta 的 LLaMA …

aiXcoder私有化部署与大模型个性化训练:如何将AIGC应用到您的企业中?

现代企业的成功转型离不开创新&#xff0c;而创新离不开人工智能等前沿技术的推动。随着全球经济的发展和竞争的日益激烈&#xff0c;企业需要更快、更高效地交付新产品、服务和解决方案&#xff0c;以更好地满足客户需求并保持市场竞争力&#xff0c;应用研发效率提升企业竞争…

【AI人工智能】 最强大的语言模型镜像 使用起来真的太方便了! 真的要解放代码思维了吗?

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

Segment Anything Meta开源分割一切模型,为进军元宇宙更近一步

上期图文教程,我们分享了Segment Anything分割一切模型的原理,Segment Anything Model 是一种以最少的人工干预构建全自动可提示图像分割模型的方法。模型提供了一键分割图片的方法,当然模型也可以运行我们输入一个坐标点,一个输入框,或者输入一个对象的文本来分割输入的对…

ubuntu(虚拟机)解决git速度慢的问题

在家用的是电信网&#xff0c;每次git大型项目总是失败&#xff0c;甚是苦恼&#xff0c;解决了好几次都失败了&#xff0c;终忍受不了&#xff0c;下定决心干掉它。 git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。 只要找到这个域名对应的ip地址&#xf…

两行配置解决github官网访问速度慢的问题(速度贼快!)

文章目录 前言一、配置步骤1.1 CMD查看网络连通情况1.2 获取Github相关网站的ip 二、配置本机host地址三、Github官网总结 前言 小伙伴们会不会因为github官网速度慢而烦恼呢&#xff0c;想上班去摸鱼都不方便&#xff0c;下面小编带你快速解决github访问速度慢的问题。 一、配…

GitHub访问速度慢

github 是全世界最流行的开源项目托管平台,其代表的开源文化从根本上改变了软件开发的方式.基本上所有的需求都能从 github 上或多或少找到现成的实现方案,再也不用重头开始造轮子而是自定义轮子! 然而,有时候国内访问 https://github.com/ 速度太慢,如何加速访问 github.com …

机器人开发--Cartographer详细介绍

机器人开发--Cartographer详细介绍 1 介绍1.1 概述1.2 评价1.3 特点 2 框架官方 3 代码结构heimazaifei 解读linyicheng 解读Xiaotu 解读cartographer_ros地图构建器map_builderLocal SLAMGlobal SLAM 赵锴 解读地图设计匹配方法一阶段解算二阶段解算后端如何检测回环检测回环后…

《恒盛策略》人工智能概念回落,青木股份等跌超10%

近来强势的人工智能概念28日盘中回落走低&#xff0c;截至发稿&#xff0c;青木股份跌超13%&#xff0c;光云科技跌超12%&#xff0c;彩讯股份、宝兰德跌超10%&#xff0c;财富趋势、昆仑万维、当虹科技跌约9%&#xff0c;同花顺跌超8%&#xff0c;寒武纪跌逾7%。 消息面上&…

变强速度超出预期,安全问题逐渐变大,多国停用ChatGPT

前段时间&#xff0c;小编向大家介绍过&#xff0c;随着最近GPT-4语言模型的正式投入使用&#xff0c;ChatGPT也带来了全新的插件——网络浏览器和代码解释器&#xff0c;赋予ChatGPT使用工具、联网、运行计算的能力。 更新后&#xff0c;跟据全球媒体的反馈来看&#xff0c;GP…

10大免费的白嫖网站

作者&#xff1a;pk哥 来源&#xff1a;Python知识圈 本次给大家分享下常用的 10个白嫖网站。 万能命令 https://wanneng.run/cn/在你浏览任意网页时&#xff0c;在网址前面输入这个万能命令 wn.run/ 就会展示出用于该网页的各种附加在线工具&#xff0c;方便快捷&#xff0c;一…