人工智能绘画的历史

        人工智能绘画的起源可以追溯到20世纪50年代。当时,艺术家和科学家开始使用计算机生成图像和图形,将绘画艺术与技术领域相结合。计算机图像可以被视为人工智能绘画的一部分。下面,我们将按照时间顺序来了解人工智能绘画发展的一些关键时间节点。

        (1)在20世纪50年代,电子艺术先驱Ben Laposky使用计算机示波器生成了一幅艺术作品,如图所示。

        (2)在20世纪60年代,艺术家和科学家开始使用计算机的计算能力进行创作。下图是计算机艺术之父Charles Csuri用计算机生成的作品,名为“蜂鸟”。

        (3)在20世纪70—90年代,随着计算机硬件和软件的不断进步,计算机图形学技术取得了重大突破。在这期间,HaroldCohen开发了AARON绘画程序,并在随后的几十年中不断改进和完善,成为人工智能绘画领域的先驱之作。下图为AARON的一件作品。

        (4)在21世纪初,随着深度学习技术的发展,计算机视觉和图像生成算法取得了显著进展,为人工智能绘画提供了新的可能性。在2009年,基于深度学习的艺术风格迁移算法DeepArt发布,使得将某种艺术风格应用于图像成为可能。图为基于DeepArt算法绘制的作品。

        真正意义上的人工智能绘画指的是基于深度学习模型进行自动作图的计算机程序,这种绘画方式的发展在时间上是较晚的。

        (5)在2012年,Google公司的吴恩达(Andrew Ng)和Jef Dean进行了一项实验,使用1.6万个CPU训练一个当时世界上最大的深度学习网络,用于指导计算机绘制猫脸图像。他们使用来自YouTube的1000万幅猫脸图像进行训练,历时3天,最终用得到的模型生成了一幅非常模糊的猫脸图像,如图所示。

        这个模型的训练效率和输出结果对于当时的AI研究领域来说是一次具有突破意义的尝试。它正式开启了支持深度学习模型的人工智能绘画这个全新的研究方向。人工智能科学家们纷纷投入到这个新的具有挑战性的领域中,探索如何利用深度学习技术来生成具有艺术性的图像和绘画作品。这项实验的成功为后续的研究和发展奠定了坚实的基础,并推动了人工智能绘画的进一步发展。

        (6)在2014年,AI学术界提出了一个非常重要的深度学习模型,那就是著名的对抗生成网络(Generative AdversarialNetwork,GAN)。这个深度学习模型的核心理念是通过让两个内部程序,即生成器(generator)和判别器(discriminator), 相互对抗平衡来获得结果。

        生成器的目标是生成逼真的样本,如图像、音频等,而判别器的目标是尽可能准确地区分生成器生成的样本和真实样本。通过不断地进行对抗训练,生成器和判别器相互竞争、学习和提升,最终达到生成高质量样本的目的。

        GAN模型一问世就风靡AI学术界,在多个领域得到了广泛的应用。它也随即成为许多AI绘画模型的基础框架,其中生成器用来生成图像,而判别器用来评估图像质量。GAN模型的引入极大地推动了图像生成、风格迁移等领域的发展,从而推动了AI绘画的发展。图1-9为基于GAN模型的AI绘画作品。

        但是,使用基础的GAN模型进行AI绘画也存在明显的缺陷。一方面,对于输出结果的控制力较弱,往往容易产生随机图像,而AI艺术家的输出应该是稳定可控的。另一方面,生成图像的分辨率较低。

        (7)在2015年,人工智能绘画领域取得了新的突破。Gatys等人提出了著名的神经风格迁移论文,通过将卷积神经网络(CNN)应用于艺术风格迁移,使得人工智能绘画的技术更加成熟。这项研究将艺术风格与内容分离,并利用CNN的特征表示来实现图像的风格迁移。这一方法在艺术创作和图像处理领域引起了广泛的关注和应用,为人工智能绘画的发展带来了重要的进步

        (8)在2015年,Google发布了一个名为深梦(Deep Dream)的图像工具,该工具引起了广泛的关注。深梦通过对图像进行迭代处理,强调和增强图像中的纹理和模式,创造出独特而幻觉般的视觉效果。深梦生成的画作吸引了很多人的注意,谷歌甚至为这些作品策划了一场画展,进一步展示了深梦在艺术领域中的潜力和影响。图为深梦的作品之一《月球时代的白日梦》。

        2018年,Obvious艺术团队利用GAN创作的《肖像:埃德蒙・贝拉米》在佳士得拍卖中以43.25万美元的价格成交。这一事件意味着人工智能绘画正式被认可为一种艺术形式,并得到了市场的承认。这次拍卖成交的高价反映了人工智能绘画作品的独特性和艺术价值,同时也引发了对于人工智能在艺术创作中的探索和潜力的讨论。图为GAN创造的这幅作品。

        (9)2021年年初,OpenAI发布了备受关注的DALL-E系统,这标志着人工智能开始具备一个重要的能力,那就是可以根据文字进行创作。DALL-E系统利用深度学习模型生成图像,并能够根据文字描述来创造出与之对应的图像。这一技术的推出引起了广泛的关注和讨论,为人工智能在创作领域的发展带来了新的可能性。通过输入文字,人工智能可以生成与之相关的图像,这为创意产业和设计领域带来了新的创作工具和思路。图为DALL-E系统创作的作品《戴珍珠耳环的少女》。

        (10)在2021年1月,OpenAI团队开源了他们的深度学习模型CLIP(Contrastive Language-Image Pre-Training,对比文本-图像预训练模型),这是当时最先进的图像分类人工智能模型之一。

        CLIP模型的训练过程可以简单概括为:使用已标注好的“文字-图像”训练数据,分别对文字和图像进行模型训练。通过不断调整两个模型的内部参数,使得模型输出的文字特征值和图像特征值能够准确匹配对应的“文字-图像”关系。CLIP模型与以往的“文字-图像”匹配模型不同,它利用了40亿个“文本-图像”训练数据。这么多的数据和昂贵的训练时间使得CLIP模型终于修成正果。互联网上的图像通常都带有各种文本描述,例如标题、注释、用户标签等,这些文本成为可用的训练样本。通过这种巧妙的方式,CLIP的训练过程完全避免了最昂贵费时的人工标注,或者说,全世界的互联网用户已经提前完成了标注工作。这一创新为图像分类和语义理解领域带来了重要的突破,使得AI能够更好地理解和处理图像与文本之间的关系。

        (11)2022年3月,一个全球范围的非营利机器学习研究机构LAION开放了当前最大规模的开源跨模态数据库LAION-5B。该数据库包含接近60亿(58.5亿)个图像-文本对,可用于训练从文本到图像的生成模型以及用于给文本和图像的匹配程度打分的CLIP模型。这两种模型都是现代AI图像生成的核心。

        LAION不仅提供了大量的训练素材库,还训练AI根据艺术感和视觉美感对LAION-5B中的图像进行评分,并将得分较高的图像归入名为LAION-Aesthetics的子集。实际上,最新的AI绘画模型,包括随后提到的AI绘画Stable Diffusion,都是基于LAION-Aesthetics这个高质量数据集进行训练的。这一数据集的质量和规模为AI绘画领域的研究和发展提供了重要的资源和支持。

        (12)扩散模型的引入为AI绘画领域带来了新的思路,并弥补了GAN模型的一些不足之处。GAN模型是生成对抗网络,它在附加条件方面表现较差。例如,在生成人脸后,很难进一步指定发型、细节等特定要求。为了解决这个问题,扩散模型被提出作为另一种思路。

        扩散模型通过将图像加入高斯噪点形成噪点图,然后通过算法逆过程进行减噪,生成最终的图像。这种模型可以在噪点图的基础上进行操作,通过调整和控制噪点的分布,实现更加精细的图像生成。扩散模型已经成为主流的AI绘画软件的基础,它可以更好地满足用户对于图像的特定要求和细节控制,提供更灵活和个性化的绘画体验。

        (13)Diffusion模型是一种对于像素空间具有巨大算力需求的模型进行优化的方法。传统的扩散模型在像素空间中操作,因此需要大量的计算资源和内存。为了解决这个问题,提出了基于潜在空间的Diffusion模型,通过降低维度来减少计算和内存需求。

        基于潜在空间的Diffusion模型与像素空间模型相比,能够显著降低内存和计算要求。例如,Stable Diffusion模型使用的潜在空间编码缩减因子为8,即将图像的长和宽都缩减8倍,一个512×512像素的图像在潜在空间中直接变为64×64像素,节省了8×8=64倍的内存。

        这种基于潜在空间的优化能够在保持图像质量的同时,大幅度减少计算和内存需求,使得Diffusion模型在实际应用中更加高效和可行。这为AI绘画领域的发展带来了重要的技术突破,使得更多人能够在有限的硬件资源下享受到高质量的AI绘画体验

        (14)在2022年的AI领域,基于文本生成图像的AI绘画模型成为备受关注的主角。其中,Disco Diffusion是一个在2月初开始爆红的AI图像生成程序,它能够根据描述场景的关键词渲染出相应的图像。这个程序的开发者是艺术家兼程序开发员Somnai_dreams。

        Disco Diffusion的独特之处在于它能够通过文字输入描述来生成具有艺术感的图像,并且能够根据关键词准确地渲染出所需的场景。这种技术为艺术创作和设计领域提供了新的可能性,使得艺术家和创作者能够以更直观的方式表达他们的创意和想象。Somnai_dreams作为该程序的开发者,通过结合艺术和技术的力量,为AI绘画领域带来了新的创新和突破。图为Disco Diffusion程序的界面。

        (15)2022年4月,著名人工智能团队OpenAI发布了新一代的模型,名为DALL-E 2.0。该名称来源于著名画家达利Dalí)和电影《机器人总动员》(Wall-E)。同样类似于前一代的DALL-E模型,DALL-E 2.0也具备从文本描述生成效果良好的图像的能力。DALL-E 2.0在继承了前一代模型的基础上进行了改进和优化,以提供更高质量、更多样化的图像生成结果。

        (16)2022年4月,人工智能Midjourney邀请内测。由Midjourney创作的《太空歌剧院》作品一度引起了轰动,并在美国科罗拉多州举办的新兴数字艺术家竞赛中荣获“数字艺术/数字修饰照片”类别的一等奖。《太空歌剧院》的获奖彰显了人工智能在数字艺术领域的潜力和创造力。Midjourney的创作展示了人工智能在图像处理和艺术创作方面的能力。图为Midjourney创作的《太空歌剧院》。

        (17)在2022年的5月和6月,Google发布了两个重要的模型,分别是Imagen和Parti,并开放了相关的论文。Imagen模型和Parti模型都代表了人工智能图像处理领域的前沿技术,它们在图像生成、图像分割、图像处理等方面具有重要的应用价值。Google的开放论文也为学术界和研究人员提供了宝贵的参考和研究资源。

        (18)在2022年的8月,Stable Diffusion模型开源。StableDiffusion是一个重要的AI绘画模型,通过扩散化和潜在空间的技术,实现了高质量图像的生成。该模型的开源使更多的研究人员和开发者能够了解和应用这一先进的AI绘画技术,促进了AI绘画领域的进一步发展和创新。这一开源的举措为艺术家和 创作者提供了更多的工具和资源,推动了AI在艺术创作中的应用和探索。

        (19)2022年8月26日,基于家用GPU的训练模型Dreambooth正式宣布问世。12天后,该模型的开源端口也被公布出来。随后的25天,Dreambooth的训练所需的内存空间降低了整整79%。到了10月8日,Dreambooth已经能够在仅有8GB的GPU上进行训练。这些进展意味着Dreambooth模型在训练过程中对硬件资源的需求大大降低,使更多的个人用户和研究者能够在家用GPU上使用和训练该模型。Dreambooth的出现为AI绘画领域带来了更加便捷和高效的训练方案,推动了AI艺术创作的普及和发展。

        (20)2023年2月,Stable Diffusion基于图像精确控制的ControlNet发布。

         (21)2023年3月,Midjourney v5正式发布。

        (22)2023年5月,著名的图像软件公司Adobe发布了Firefly。

        人工智能绘画(AI绘画)作为一个充满探索和交流氛围的领域,将会在技术的不断发展和应用中不断取得进步。随着人工智能技术的不断成熟和进步,我们可以期待人工智能在艺术领域发挥更加重要的作用。

        人工智能绘画不仅为艺术家和创作者提供了新的工具和资源,还激发了更多的创新和创造力。通过人工智能的算法和模型,我们能够以更加智能和高效的方式进行艺术创作,探索出更多新颖、独特的艺术表达形式。

        未来,人工智能绘画有望在艺术领域带来更多的创新和发展。它将成为艺术家们的合作伙伴和创作工具,为艺术作品注入新的灵感和想象力。我们可以期待在人工智能的帮助下,艺术领域将迎来更多的突破和进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/343036.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码审计(1):CVE-2022-4957分析及复现

0x00漏洞描述: ѕрееdtеѕt iѕ а vеrу liɡhtԝеiɡht nеtԝоrk ѕрееd tеѕtinɡ tооl imрlеmеntеd in Jаvаѕсriрt. Thеrе iѕ а Crоѕѕ-ѕitе Sсriрtinɡ vulnеrаbilitу in librеѕроndеd ѕрееdtеѕt…

JeeSite 快速开发平台 Vue3 前端版介绍

JeeSite 快速开发平台 Vue3 前端版介绍: 它构建于 Vue3、Vite、Ant-Design-Vue、TypeScript 以及 Vue Vben Admin 等最前沿的技术栈之上,能助力初学者迅速上手并顺利融入团队开发进程。涵盖的模块包括组织机构、角色用户、菜单授权、数据权限、系统参数…

小牛翻译API详解:功能、优势介绍及案例实战(附完整代码)

写在前面小牛翻译是做什么的案例-调用图片翻译API进行英文翻译✔准备工作✔获取密钥✔调用API✔完整代码✔运行项目 使用建议 写在前面 随着全球化的快速发展和跨国交流的增多,翻译软件的市场需求持续增长。根据市场数据,全球语言翻译软件市场规模在过去…

Linux命令篇(六):vi/vim专项

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝您生活愉快! 文章目录 一、什么是vim二…

Vue3入门 - vue3相比于vue2的优点,及如何创建Vue3项目

目录 一、认识Vue3 1. Vue2 选项式 API vs Vue3 组合式API 2. Vue3的优势 二、使用create-vue搭建Vue3项目 1. 认识create-vue 2. 使用create-vue创建项目 3.熟悉项目和关键文件 一、认识Vue3 1. Vue2 选项式 API vs Vue3 组合式API <script>export default …

操作系统教材第6版——个人笔记6

3.3.4 页面调度 页面调度 当主存空间已满而又需要装入新页时&#xff0c;页式虚拟存储管理必须按照一定的算法把已在主存的一些页调出去 #主存满加新&#xff0c;把已在主存一些页调出选择淘汰页的工作称为页面调度 选择淘汰页的算法称为页面调度算法 页面调度算法设计不当&a…

BERT应用——文本间关联性分析

本文结合了自然语言处理&#xff08;NLP&#xff09;和深度学习技术&#xff0c;旨在分析一段指定的任务文本中的动词&#xff0c;并进一步探讨这个动词与一系列属性之间的关联性。具体技术路径包括文本的词性标注、语义编码和模型推断。 一、技术思路 NLP和词性标注 在自然…

基于fabric封装一个简单的图片编辑器(vue 篇)

介绍 前言vue demo版本react 版本 前言 对 fabric.js 进行二次封装&#xff0c;实现图片编辑器的核心功能。核心代码 不依赖 ui响应式框架vue ,react 都适用。 只写了核心编辑相关代码便于大家后续白嫖二次开发 核心代码我就没有打包发布 会 和 业务代码一起放到项目中。 vu…

鸿蒙轻内核M核源码分析系列九 互斥锁Mutex

多任务环境下会存在多个任务访问同一公共资源的场景&#xff0c;而有些公共资源是非共享的临界资源&#xff0c;只能被独占使用。鸿蒙轻内核使用互斥锁来避免这种冲突&#xff0c;互斥锁是一种特殊的二值性信号量&#xff0c;用于实现对临界资源的独占式处理。另外&#xff0c;…

博客系统测试报告

博客系统 测试报告 一、项目背景 一个Web网站程序&#xff0c;你可以观看到其他用户博客也可以登录自己的账号发布博客&#xff0c;通过使用Selenium定位web元素、操作测试对象等方法来对个人博客系统的进行测试&#xff0c;测试的核心内容有用户登录、博客列表及博客数量的展…

pypi 发布自己的包

注册pypi个人用户 网址&#xff1a;https://pypi.org 目录结构dingtalk_utils 必须-pkgs- __init__.py .gitignore LICENSE 必须 README.md 必须 requirements.txt setup.py 必须安装依赖 pip install setuptools wheel安装上传工具 pip install twinesetup.py i…

基于ChatGLM3的本地问答机器人部署流程

基于ChatGLM3的本地问答机器人部署流程 前言一、确定文件结构1.新建文件夹储存本地模型2.下载源码和模型 二、Anaconda环境搭建1.创建anaconda环境2.安装相关库3.设置本地模型路径4.启动 三、构建本地知识库1.下载并安装postgresql2.安装c库3.配置向量插件 四、线上运行五、 全…

【全开源】JAVA打车小程序APP打车顺风车滴滴车跑腿源码微信小程序打车源码

&#xff1a;构建便捷出行新体验 一、引言&#xff1a;探索打车系统小程序源码的重要性 在数字化快速发展的今天&#xff0c;打车系统小程序已成为我们日常生活中不可或缺的一部分。它以其便捷、高效的特点&#xff0c;极大地改变了我们的出行方式。而背后的关键&#xff0c;…

从零开始学JAVA

一、编写Hello world程序 public class JavaMain1 {//主程序执行入口&#xff0c;main方法public static void main(String[] args){System.out.println("Hello world!");} } 运行结果 Hello world! java编写主程序常见错误&#xff1a; 1、System ---首字母没有…

外汇天眼:金融服务补偿计划(FSCS)确认已任命清算人为TenetConnect Services有限公司

2024年6月5日&#xff0c;Tenet Group有限公司的董事们任命了Interpath有限公司的Ed Boyle、Howard Smith和Rob Spence为联合清算人。Ed Boyle和Rob Spence也被任命为其子公司Tenet有限公司、TenetConnect有限公司和TenetConnect Services有限公司的联合清算人。Tenet Mortgage…

应对800G以太网挑战:数据中心迁移

在过去几年中&#xff0c;云基础设施和服务的大规模使用推动了对更多带宽、更快速度和更低延迟性能的需求。交换机和服务器技术的改进要求布线和架构随之调整。因此&#xff0c;800G以太网对数据中心迁移的需求&#xff0c;特别是对速率&#xff08;包括带宽、光纤密度和通道速…

突破性技术: 大语言模型LLM量化激活outliers异常值抑制

LLM过去有两种突破性技术大大提升了量化精度&#xff0c;分别是group-wise量化和GPTQ/AWQ量化。前者相比于过去的per-tensor和per-channel/per-axis量化提出了更细粒度的对channel拆分为更小单元的量化方式&#xff0c;后者通过巧妙的算法明显提升了4bit量化的精度。 LLM量化存…

接口的应用、 适配器设计模式

接口的应用 适配器设计模式 Inter package com.itheima.a09;public interface Inter {public abstract void show1();public abstract void show2();public abstract void show3();public abstract void show4();}InterAdapter package com.itheima.a09; //抽象 public abs…

二说springboot3的自动配置机制

大家好&#xff0c;这里是教授.F 目录 SpringBootApplication&#xff1a; EableAutoConfiguration&#xff1a; 上一篇文章粗略的讲了自动配置机制&#xff0c;二说系列将从源码的角度进行讲解。 SpringBootApplication&#xff1a; 首先我们还是得从SpringBootApplication…

2 - 寻找用户推荐人(高频 SQL 50 题基础版)

2.寻找用户推荐人 考点: sql里面的不等于&#xff0c;不包含null -- null 用数字判断筛选不出来 select name from Customer where referee_id !2 OR referee_id IS NULL;