人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?

#ai作画

目录

一.AI绘画的概念

1. 数据集准备:

2. 模型训练:

3. 生成绘画:

二.AI绘画的应用领域

三.AI绘画的发展

四.AI绘画背后的技术剖析

1.AI绘画的底层原理

2.主流模型的发展趋势

2.1VAE — 伊始之门

2.2GAN

2.2.1GAN相较于Diffusion有什么不足?

2.3Diffusion — 当今首峰

2.4CLIP—图文匹配

2.5Lora模型

2.6Controlnet模型

五.AI绘画实例

六.未来AI的发展趋势


一.AI绘画的概念

AI 绘画是一种利用人工智能技术生成绘画作品的方法。它基于机器学习和深度学习算法,通过对大量的图像数据进行训练,模型学习到了图像的特征和规律,从而能够生成新的图像。
 
AI 绘画的过程通常包括以下几个步骤:

1. 数据集准备:

收集大量的图像数据,这些数据可以包括各种风格、主题的绘画作品。

2. 模型训练:

使用准备好的数据集对 AI 模型进行训练,让模型学习图像的特征和规律

3. 生成绘画:

输入一些关键词、描述或参考图像等信息,模型根据这些信息生成新的绘画作品。
 
AI 绘画技术可以生成各种风格的图像,例如写实、抽象、漫画、油画等。它可以帮助艺术家和设计师更快地创建概念设计、探索不同的风格,也可以为普通人提供一种创造艺术的新方式。

二.AI绘画的应用领域


- 设计行业:在广告、游戏、影视等领域,帮助设计师更快地生成概念图和原型。
- 艺术创作:艺术家可以利用 AI 绘画来探索新的风格和创意,或者与 AI 共同创作。
- 教育领域:学生可以通过 AI 绘画工具学习绘画技巧和艺术风格。
- 社交媒体:用户可以用 AI 生成的图像来装饰自己的社交媒体账号。
- 虚拟现实和增强现实:为这些应用创建虚拟场景和角色的图像。

三.AI绘画的发展

Diffusion 一般指 Diffusion Model(扩散模型),是一种基于深度学习的生成模型,常用于图像生成领域。Diffusion Model 的训练可以分为正向扩散和反向扩散两部分。
 
正向扩散过程逐步对输入图像加入高斯噪声,一共有 T 步,该过程将产生一系列噪声图像样本 x₁, ..., x_T。当 T → ∞ 时,最终的结果将变成一张完全包含噪声的图像。
 
反向扩散过程则是去除图像中的噪声。通过不断迭代去噪,模型可以学习到如何从噪声中恢复出原始图像,从而实现图像生成。
 
除此之外,Diffusion 还可能指 Stable Diffusion,它是一款免费、开源的 AI 图像生成器,由 Stability AI 公司于2022年8月推出。Stable Diffusion 应用于 AI 软件,用户可以随意输入自己想要的内容,然后系统就会自动生成非常优秀的艺术渲染作品。

Midjourney是一个基于人工智能技术的图像生成程序,由UISDC研究实验室开发。它可以根据用户输入的文本自动生成图片。该程序自2022年7月12日开始公开测试,主要通过Discord平台上的机器人指令进行操作,允许用户创造各种图像作品。
 
Midjourney利用深度学习和神经网络等先进技术,对大量图像进行学习和训练,从而提升图像的质量和准确性。

Dalle是美国人工智能非营利组织OpenAI于2021年1月份推出的一个可以根据书面文字生成图像的人工智能系统,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E)。

四.AI绘画背后的技术剖析

1.AI绘画的底层原理

神经网络左侧输入一些列数字,神经网络会按照圆圈里的计算规则及连线的权重,把数字从左到右计算和传递,最终,从最右侧的圆圈输出一系列数字。

然后将一串数字输入到没有训练过得神经网络模型,也会生成一串数字,只不过解码后可能就是一张乱码图片,所以需要大量数据和不断调整算法参数的权重

2.主流模型的发展趋势

2.1VAE — 伊始之门

VAE(变分自编码器)是一个深度生成模型,其最终目的是生成出概率分布P(x)。在VAE中,通过高斯混合模型(Gaussian Mixture Model)来生成P(x),也就是说P(x)是由一系列高斯分布叠加而成的,每一个高斯分布都有它自己的参数μ和σ。

为了找到隐变量Z与观察数据X之间的映射关系,VAE使用神经网络来拟合。具体来说,假设隐变量Z服从N(0, I)分布,并寻找一个映射关系将向量z映射成这一系列高斯分布的参数向量μ和σ。有了这一系列高斯分布的参数,就可以得到叠加后的P(x)的形式。

VAE模型与EM算法的推导有相似之处,但区别在于VAE模型中的隐变量Z是一个连续的无穷维向量,而EM算法中的隐变量是离散的。在VAE的参数估计中,由于隐变量数量假设是高维无限的,所以用神经网络去拟合,而不是使用极大似然估计1。

2.2GAN

GAN 是由生成器和判别器组成的网络,生成器试图生成逼真的假图像,而判别器则试图区分真假图像。在训练过程中,生成器不断地改进自己的生成能力,而判别器则不断地提高自己的识别能力。最终,生成器可以生成与真实图像难以区分的假图像。
 
生成器使用的是卷积神经网络(CNN)它可以对图像进行特征提取和分类。CNN 可以将图像分成不同的层,每一层都代表了图像的不同特征。生成器使用这些特征来生成新的图像。
 
判别器使用的是循环神经网络(RNN)它可以对序列数据进行处理,如文本描述。RNN 可以对序列中的每个元素进行处理,并将其与之前的元素进行关联,以更好地理解整个序列。

生成器使用的是卷积神经网络(CNN),它可以对图像进行特征提取和分类。CNN 可以将图像分成不同的层,每一层都代表了图像的不同特征。生成器使用这些特征来生成新的图像。

GAN的应用场景有哪些?

GAN的应用场景非常广泛,在图像生成,生成不存在的人物、物体、动物;图像修复、图像增强、风格化和艺术的图像创造等。不一一列举,想要详细了解的可以看链接:

2.2.1GAN相较于Diffusion有什么不足?

1.GAN的训练过程过程相对不稳定,生成器和判别器之间的平衡很容易打破,容易导致模型崩溃或崩塌问题;

2.判别器不需要考虑生成样品的种类,而只关注于确定每个样品是否真实,这使得生成器只需要生成少数高质量的图像就足以愚弄判别者;

3.生成的图像分辨率较低;

因此,以GAN模型难以创作出有创意的新图像,也不能通过文字提示生成新图像。

2.3Diffusion — 当今首峰

扩散模型是一种深度生成模型,主要用于图像和音频的生成它们在生成模型领域中表现出色,例如在图像生成方面,Dalle2和稳定扩散模型就是基于扩散模型的优秀代表。扩散模型的基本思想是通过一个前向扩散过程逐渐破坏数据分布中的结构,然后通过学习反向扩散过程来恢复这些结构,从而生成高度灵活且易于处理的数据。在训练过程中,模型会学习预测每个时间步的噪声,最终能够从高斯噪声输入中生成高分辨率的图像。扩散模型由两个阶段组成:使用时间表来缩放平均值和方差,并在每个时间步添加噪声。前向过程的数学定义可以表示为:q(xₜ|xₜ₋₁) = N(xₜ; sqrt{1-βₜ}xₜ, βₜI),其中正态分布由均值和方差参数化。

2.4CLIP—图文匹配

CLIP 模型 是一项由 OpenAI 开发的预训练模型,主要用于对比语言-图像的预训练任务。以下是关于 CLIP 的一些详细信息:

1.全称:CLIP代表Contrastive Language-Image Pre-Training,即对比语言-图像预训练。

2.主要功能:CLIP旨在通过大规模的图像-文本对数据进行对比性训练,以实现图像和文本的嵌入空间的对齐,以及跨模态的语义对齐。

3.结构:CLIP包含两个模态,分别是文本模态和视觉模态。文本模态负责对文本进行编码,得到其Embedding;视觉模态负责对图片进行编码,也得到其Embedding。这两个Embedding都是单向向量的长度。

4.训练原理:在训练过程中,CLIP会将文本和图像成对地进行编码,然后计算它们的相似度。对于每个批次的训练样本,CLIP会预测出所有可能的文本-图像对的相似度,这些相似度是通过文本特征和图像特征的余弦相似性计算的。

5.应用场景:CLIP不仅在文本图像检索方面表现出色,还可以应用于Zero-Shot Learning,即在没有特定训练的情况下识别新事物的视觉概念。

6.训练数据:CLIP的训练数据主要是文本-图像对,其中包括一张图像及其对应的文本描述。这种数据形式使得CLIP能够在互联网的海量数据中发现相关联的信息。

7.性能:CLIP在多个任务上的表现达到目前最佳水平

综上所述,CLIP 模型是一个多模态预训练模型,它在自然语言理解和计算机视觉分析之间建立了联系,并在多个领域展示了出色的性能和应用潜力。

2.5Lora模型

LoRA模型全称是:Low-Rank Adaptation of Large Language Models,可以理解为Stable-Diffusion中的一个插件,仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA模型会与大模型结合使用,从而实现对输出图片结果的调整。

2.6Controlnet模型

Controlnet就是控制网的意思,其实就是在大模型外部通过叠加一个神经网络来达到精准控制输出的内容。很好的解决了单纯的关键词的控制方式无法满足对细节控制的需要,比微调模型更进一步对图像生成的控制。

五.AI绘画实例

宇宙之中,众星环绕,有一颗独特且耀眼的恒星

六.未来AI的发展趋势

未来AI绘画可能会有以下发展趋势:
 
- 个性化创作:AI绘画将能够根据用户的喜好和情绪来创作作品,通过深度学习和大数据分析,描绘出丰富多元的艺术作品。
- 人机协作:艺术家可以与AI系统合作,将人的创意与机器的计算能力结合在一起,创作出前所未有的艺术作品。这样的协作可以拓展艺术的边界,开创更多的可能性。
- 虚拟现实(VR)与增强现实(AR)的结合:AI绘画将与这些技术结合,为用户提供更加沉浸和互动的艺术体验。
- 实时艺术创作:AI绘画将实现实时创作,即艺术作品可以根据实时数据和事件进行动态的变化和调整。
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/263573.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

unity学习(38)——创建(create)角色脚本(panel)--EventSystem

1.在scripts文件夹下创建一个脚本CreatePlayerPanel.cs,脚本挂到panel上!给panel加个tag,叫createPanel,脚本内容如下: using System.Collections; using System.Collections.Generic; using TMPro; using UnityEngin…

unity Aaimation Rigging使用多个约束导致部分约束失去作用

在应用多个约束时,在Hierarchy的顺序可能会影响最终的效果。例如先应用了Aim Constraint,然后再应用Two Bone Constraint,可能会导致Two Bone Constraint受到Aim Constraint的影响而失效。因此,在使用多个约束时,应该仔…

SpringBoot线上打包

背景: 1.我们打包时其实需要很多资源打到jar包之外,这样子修改了配置后,就可以生效了。 2.包的命名: 以mj为例子: 业务层: com.jn.mj // 这个是这个工程的总包名 com.jn.mj.gateway // web服集群 c…

[rust] 10 project, crate, mod, pub, use: 项目目录层级组织, 概念和实战

文章目录 一 项目目录层级组织概念1.1 cargo new 创建同名 的 Project 和 crate1.2 多 crate 的 package1.3 mod 模块1.3.1 创建嵌套 mod1.3.2 mod 树1.3.3 用路径引用 mod1.3.3.1 使用绝对还是相对? 1.3.4 代码可见性1.3.4.1 pub 关键字1.3.4.2 用 super 引用 mod1.3.4.3 用 …

如何使用idea连接服务器上的mysql?

安全组进行开放 具体步骤 关闭防火墙 开放端口号 重启防火墙 firewall-cmd --reload在mysql进行修改配置 update user set host % where user root;flush privileges;使得其他网络也可以连接这个数据库 另外如果想要sqlyog或者其他图形化界面要连接到数据库可以看下面这…

抽象工厂模式 Abstract Factory

1.模式定义: 提供一个创建一系列相关或互相依赖对象的接口,而无需指定它们具体的类 2. 应用场景: 程序需要处理不同系列的相关产品,但是您不希望它依赖于这些产品的 具体类时, 可以使用抽象工厂 3.优点: 1.可以确信你从工厂得到的产品彼…

博途PLC PID仿真(单容水箱液位高度控制含变积分变增益测试)

单容水箱和双荣水箱的微分方程和数值求解,可以参考下面文章链接: https://rxxw-control.blog.csdn.net/article/details/131139432https://rxxw-control.blog.csdn.net/article/details/131139432这篇博客我们利用欧拉求解器在PLC里完成单容水箱的数学建模。PLC也可以和MATL…

Linux之JAVA环境配置Tomcat离线安装与启动

一,安装jdk和Tomcat 1.1上传JDK跟Tomcat 1.2解压 解压tomcat tar -zxvf apache-tomcat-8.5.20.tar.gz 解压jdk tar -zxvf jdk-8u151-linux-x64.tar.gz 1.3.配置环境变量 vim /etc/profile 在最后加上: #java environment export JAVA_HOME/usr/local/ja…

基于Docker和Springboot两种方式安装与部署Camunda流程引擎

文章目录 前言1、Docker安装1.1、拉取Camunda BPM镜像1.2、编写docker启动camunda容器脚本1.3、docker启动脚本1.4、访问验证 2、SpringBoot启动2.1、下载地址2.2、创建SpringBoot项目并配置基础信息2.3、下载SpringBoot项目并在idea中打开2.4、pom修改2.5、application.yml配置…

Spring 容器、核心容器总结

目录 创建容器获取 bean容器类层次结构图核心容器总结容器相关bean 相关依赖注入相关 创建容器 方式一: 类路径加载配置文件 ApplicationContext ctx new ClassPathXmlApplicationContext("applicationContext.xml");方式二: 文件路径加载配…

MATLAB环境下基于洗牌复杂演化的图像分割算法

智能优化算法因其较强的搜索解能力而得到了大量的应用,在这些计算智能算法中,群体智能优化算法因其高效性、有效性以及健壮性等优点而得到了科研人员的青睐。这类算法借鉴生物群体的合作特性,主要解决大规模复杂的分布式问题,研究…

Python算法题集_实现 Trie [前缀树]

Python算法题集_实现 Trie [前缀树] 题208:实现 Trie (前缀树)1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【定义数据类默认字典】2) 改进版一【初始化字典无额外类】3) 改进版二【字典保存结尾信息无额外类】 4. 最优算法5. 相关…

TensorRT及CUDA自学笔记006 PTX、PTX兼容性及二进制兼容性

TensorRT及CUDA自学笔记006 PTX、PTX兼容性及二进制兼容性 PTX定义 PTX是CUDA平台的一种虚拟机器和指令集,可以理解为一种CUDA平台的汇编语言使用C编写的CUDA程序首先被转换成PTX指令集,PTX指令在经过优化后再转换为特定GPU架构对应的指令集&#xff0…

[electron]官方示例解析

官方例子 github链接 main.js const { app, BrowserWindow } require(electron)说句实话这里的语法是有部分看不懂的。导入模块虽然electron有很多模块。但是这里只是用到了app 和 BrowserWindow function createWindow () {// Create the browser window.const mainWindo…

uni-app 经验分享,从入门到离职(四)——页面栈以及页面跳转的 API(开发经验总结)

文章目录 📋前言⏬关于专栏 🎯什么是页面栈🧩页面跳转方法📌 uni.navigateTo(OBJECT)📌 uni.redirectTo(OBJECT)📌 uni.reLaunch(OBJECT)📌 uni.switchTab(OBJECT)📌 uni.navigateBa…

【嵌入式学习】QT-Day2-Qt基础

1> 思维导图 https://lingjun.life/wiki/EmbeddedNote/20QT 2>登录界面优化 使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中&#xff…

一台台式电脑的耗电量有多少瓦?你知道吗?

核实后将予以处理。 感谢您为社区和谐做出的贡献。 一般来说,大多数台式电脑的功率在250W左右,也就是每4小时耗一度电。 一般有每小时100W左右的低功耗计算机,也有每小时1000W左右的高功耗计算机。 对于笔记本电脑来说,每小时约为…

Java Web(七)__Tomcat(一)

JavaWeb 服务器 介绍 为什么需要? Web服务器是一个应用程序(软件),对HTTP协议的操作进行封装,使得程序员不必直接对协议进行操作,让Web开发更加便捷。主要功能是"提供网上信息浏览服务"。Web服…

探索视频数据的无限可能,Sora引领生成模型新纪元的技术解读

最近几天,open AI 推出的新的文生视频模型sora再次惊艳AI界,Sora模型近期发布的底层技术报告引起了广泛关注。作为前沿的视频生成与编辑工具,Sora究竟有何独特之处?本文就基于其几乎是文档来对其技术原理进行解读。下面让我们一起…

SSD代码解析

input:(2, 3, 300, 300) backbone:在VGG16的基础上进行改动。取vgg16的conv5_3,在mmdet的实现中没用BN,只有conv、ReLU、maxpool层,conv5_3是第30层,输出大小为(2, 512, 19, 19)。接着用33-s1-p1的maxpool…