AI作画的背后是怎么一步步实现的?一文详解AI作画算法原理+性能评测


前言

“AI作画依赖于多模态预训练,实际上各类作画AI模型早已存在,之所以近期作品质量提升很多,可能是因为以前预训练没有受到重视,还达不到媲美人类的程度,但随着数据量、训练量的增多,最终达到了现在呈现的效果。”远在AI作画还没有爆火之前,深度学习就已经可以根据图片库训练学习生成一些真假难辨的图片了,那时候仅仅依赖的是GAN神经对抗网络算法实现,现在随着模型的迭代优化,已经有了越来越多的模型能够实现一些较为复杂的图片生成。

AI作画用以学习的“教材”往往都是现成的人类绘画作品,而随着数量庞大的训练数据的增加,AI对人类作品意境的“临摹”技巧也越来越高明。对于大多数普通人来说,进行AI绘图创作无疑是新奇的体验,只需输入prompt关键词,就能生成自己想要的图片,尤其在AICG等领域,利用AI绘图工具创作二次元风格的插图,甚至漫画都已成为不少人的常态。那么我们就根据模型原理+过程+效果对已有程序 昆仑万维AIG进行研究评测。


模型model

1.基于 VQ-VAE

DeepMind(和PixelCNN同一作)于2017年提出的一种基于离散隐变量(Discrete Latent variables)的生成模型:VQ-VAE。VQ-VAE相比VAE有两个重要的区别:首先VQ-VAE采用离散隐变量,而不是像VAE那样采用连续的隐变量;然后VQ-VAE需要单独训练一个基于自回归的模型如PixelCNN来学习先验(prior),而不是像VAE那样采用一个固定的先验(标准正态分布)。此外,VQ-VAE还是一个强大的无监督表征学习模型,它学习的离散编码具有很强的表征能力,最近比较火的文本转图像模型DALL-E也是基于VQ-VAE的,而且最近的一些基于masked image modeling的无监督学习方法如BEiT也用VQ-VAE得到的离散编码作为训练目标。

2.基于 Diffusion Model

 不同于 VQ-VAE,VQ-GAN,扩散模型是当今文本生成图像领域的核心方法,当前最知名也最受欢迎的文本生成图像模型 Stable Diffusion,Disco-Diffusion,Mid-Journey,DALL-E2 等等,
上文提到的 VQ-VAE 以及 VQ-GAN,都是先通过编码器将图像映射到中间潜变量,然后解码器在通过中间潜变量进行还原。实际上,扩散模型做的事情本质上是一样的,不同的是,扩散模型完全使用了全新的思路来实现这个目标123。
在扩散模型中,主要有两个过程组成,前向扩散过程,反向去噪过程,前向扩散过程主要是将一张图片变成随机噪音,而逆向去噪过程则是将一张随机噪音的图片还原为一张完整的图片。

3.第一个开源中文 Disco Diffusion 模型

2022 年 7 月,IDEA CCNL开源了第一个中文 CLIP 模型,目前已经有 4 个版本。

  • Taiyi-CLIP-Roberta-102M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese

  • Taiyi-CLIP-Roberta-large-326M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese

  • Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese

  • Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese

以 Taiyi-CLIP-Roberta-large-326M-Chinese 为例,IDEA CCNL用中文语言模型替换了开源的英文 CLIP 中语言编码器,在训练过程中冻结了视觉编码器并且只微调这个中文语言模型,在 1 亿级别的中文数据上训练了 24 个 epoch,一共过了约 30 亿中文图文数据,得到了这个包含图片信息的中文表征语言模型,为后续训练中文 Diffusion 相关的模型奠定了重要的基础。

2022 年 10 月,IDEA CCNL开源了第一个中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,该模型由 Katherine Crowson’s 的无条件扩散模型在自然风景图上微调而来。结合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。

代码:

中文版本:

 中英双语版本:

如果需要进行古诗场景、中文概念生成,建议尝试中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用场景和概念的生成,尤其是有中文混合英文需要,建议尝试中英双语版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。

谈到这里,那么只要对于收集到的图片打上特定的情感标签之后,根据输入的语言进行NLP处理,就能输出对应的标签的图片,至于图片的训练和生成则是另一套图片拟合算法了。

1.昆仑万维AIGC

作为中国领先的互联网平台出海企业,昆仑万维近年来在不断夯实出海业务的同时,也在持续加强人工智能等技术的研发投入,加码元宇宙、AIGC、VR,促使多元业务协同发展,让昆仑万维在AIGC赛道取得了突破性进展。目前,昆仑万维海外信息分发及元宇宙平台Opera、海外社交娱乐平台StarX、全球移动游戏平台Ark Games是海外市场的核心业务,在规模上覆盖了一百多个国家,形成全球月活用户数近4亿的庞大业务矩阵。

首先昆仑万维AIGC模型对于中文NLP处理模型使用了Chinese-CLIP。

Chinese-CLIP

随着 CLIP 的提出,多模态预训练近年来发展迅速,但 CLIP 对于特定语言的理解有比较明显的欠缺。

OpenAI CLIP 的预训练主要使用英文世界的图文数据,不能天然支持中文。即便是社区有研究者通过翻译的文本,蒸馏出多语言版本的 Multilingual-CLIP (mCLIP),同样无法很好满足中文世界的需求,对于中文领域的文本理解不很到位,比如搜索“春节对联”,返回的却是圣诞相关的内容:

 

而Chinese-CLIP 可以在中文跨模态检索取得最优表现,其中在中文原生的电商图像检索数据集 MUGE 上,多个规模的 Chinese CLIP 均取得该规模的最优表现。而在英文原生的 Flickr30K-CN 等数据集上,不论是零样本还是微调的设定下,Chinese CLIP 均能显著地超出国内 Wukong、Taiyi、R2D2 等基线模型。

我们选择:雾气弥漫的森林瀑布:

与其他模型对比以机器翻译评价指标BLEU(BLEU (其全称为Bilingual Evaluation Understudy), 其意思是双语评估替补。所谓Understudy (替补),意思是代替人进行翻译结果的评估。尽管这项指标是为翻译而发明的,但它可以用于评估一组自然语言处理任务生成的文本。)比较。

在自然语言处理中的机器翻译任务中, BLEU非常常见, 它是用于评估模型生成的句子(candidate)实际句子(reference)的差异的指标.
它的取值范围在0.0到1.0之间, 如果两个句子完美匹配(perfect match), 那么BLEU是1.0, 反之, 如果两个句子完美不匹配(perfect mismatch), 那么BLEU为0.0.

昆仑万维的瑶光模型续写人民日报的BLEU在140亿测评数据集下可以达到9.8,相比其他模型能够在如此庞大的数据集达到这个效果已经很突出了。且扩写LOT-Outgen的bleu能够达到17.27,coverage能够达到47.41,order超出其他模型达到了46.52.这是十分优秀的指标结果,高于孟子和GLM,COM-2相当多。

四个优点结合为:

  • 计算代价小, 快.
  • 容易理解.
  • 与语言无关(这意味着你可以使用中文+英文的语言来测试).
  • 高度拟人化

而对于图片模型生成,与其对于检查指标ACG(@R)指标:ACG(Average Cumulative Gain)支持多值相似度(multi-level similarity)。对于一个检索序列 V,其每个位置的 gain 就是该位置样本与 query 的相似度。

其模型文本输入hide77能够达到89%,图片转文本可以达到98%,相比其他模型十分优秀。

2.小结

可喜的是,基于对人工智能技术的前瞻性判断,昆仑万维从2020年开始布局AIGC领域,训练集群200张卡,投入数千万元,组建了二百余人的研发团队,2020年底至2021年4月份研发出百亿参数的中文GPT-3模型,并于2021年8月开始研发基于自有大文本模型的对话机器人;2022年1月启动SkyMusic音乐实验室,2022年4月达到人工智能领域最优效果;2022年9月份启动编程、图像、文本方向的AIGC产品。目前AI图像、AI文本、AI编程的模型已经在GitHub上开源。

昆仑天工开源地址:

Github:https://github.com/SkyWorkAIGC

Huggingface:https://huggingface.co/SkyWork

通过AIGC模型算法方面的技术创新和开拓,开源AIGC算法和模型社区的发展将会越来越壮大,AIGC 技术的发展极大程度上改变创作领域的格局,降低了创作的门槛,这是生产工具的变革,也是生产力的解放,一个新的时代即将到来。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52668.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

漫画人工智能下象棋,走一步,能看几步?

老师爱下象棋,就是谁也赢不了。 去公园下了一盘棋 ,第一步我就走了一个当头炮 ,剩下的都是大爷们帮我走的。 结果,我输了。 经过他们的总结研究,我第一步走错了 。 2022年,象棋AI下棋机器人,…

Python实现照片卡通化,一拳打破次元壁 | 机器学习

目录 前言 项目结构 核心代码 总结 前言 接着我上一篇开源机器学习的使用:如何将照片变成卡通图,animegan2-pytorch机器学习项目使用 | 机器学习_阿良的博客-CSDN博客 我还是继续把项目稍微魔改一下,依然变为一个python文件就可以执行单…

人工智能画画 yyds

最近 AI 绘画火的一塌糊涂,你输一句话 AI 自动把你描述的场景画出来。本文盘点 GitHub 上几个较火的 AI 绘画开源项目。 本期推荐开源项目目录: 1. Latent Diffusion 2. PI-REC 3. Disco Diffusion 4. DALLE 01 Latent Diffusion Stable Diffusion 是 St…

人脸动漫化AnimeGAN V2的具体实施步骤

本文提供应对课设,毕设的小伙伴们一些参考:项目是参照网络上比较火的一个项目AnimeGAN V2,然后当时的一个课题也是跟这个相关,然后我是直接调用这个的,但是中间遇到过很多的问题,现在想说明一些问题&#x…

详解生成对抗网络(GAN)- 体验AI作画

目录 1.GAN是什么? 2.GAN的计算 3.编写GAN的小小示例 4.GAN的发展与应用 5.AI作画体验-Disco Diffusion 1.GAN是什么? 2014年,因为朋友邀请协助一个计算机生成图像的项目,lanGooddellow发明了GAN(Generative ad…

人工智能下象棋,走一步,能看几步?|漫画

图文原创:谭婧 谭婧老师爱下象棋,就是谁也赢不了。 去公园下了一盘棋 ,第一步我就走了一个当头炮 ,剩下的都是大爷们帮我走的。 结果,我输了。 经过他们的总结研究,我第一步走错了 。 2022年,象…

参考文献怎么查找,去哪里查找?一篇文章讲明白这些问题

在我们撰写论文查找参考文献时,往往不知道从哪里入手,本文小编就针对下面这三个方面给大家详细讲解下: 一、查找参考文献方法 二、参考文献资料查找网站 三、参考文献格式规范 一、查找参考文献方法: 1、知网全球最大的中文数据…

与外文文献有关的那些事儿

目录 SCI是什么 一、SCI分区依据? 二、如何查找外文文献 1.常用的外文文献数据库​编辑 2.Web of Science数据库 总结 SCI是什么 SCI是美国《科学引文索引》的英文简称,其全称为:Science Citation Index,,创刊于1961年&…

从算力到存力:存储芯片研究框架(2023)

2023年3月31日,我国发起对美光在华销售产品的网络安全审查,体现出存储产业安全的重要性。此外,AI算力需求拉动高算力服务器出货,而AI服务器的存力需求更强,AI将驱动“从算力到存力”的中长期需求: 1、海外…

Python为什么有那么多人在学?有了ChatGPT还有必要学习Python吗?

为什么学习Python呢? 学习 Python 的原因有很多,以下是一些常见的原因: 简单易学: Python 是一门易于学习的编程语言,语法简单、清晰明了,可以快速掌握基本的编程概念。 应用广泛: Python 是…

在数字化质变“奇点”时刻,看数字生产力跃升的华为观

(华为轮值董事长孟晚舟) 进入2023年,以大语言模型为代表的新AI,打开了全球对于数字生产力的全新认知:高盛集团经济学家认为,ChatGPT等生成式AI最终可能在10年的时间里使得全球年GDP增长7%(近7万…

chatgpt赋能python:Python照片换底:让您的照片更具艺术感

Python照片换底:让您的照片更具艺术感 Python是一种高级编程语言,拥有丰富的库和工具,可以实现多种应用。其中,照片换底技术是很多人感兴趣的内容之一。通过使用Python,您可以自动抠出照片中的主体,并将其…

chatgpt赋能Python-pycharm怎么重新配置python环境

Pycharm重新配置Python环境方法概述 如果您是Python编程的专业人士或者是刚开始学习Python,您可能已经听说了Pycharm这个IDE。Pycharm不仅可以提高您Python编程的效率,而且也大大改善了整个开发过程。不过,如果您需要使用Pycharm重新配置Pyt…

运营小红书需要注意什么?这4个方法助你成为小红书达人!(上)

在小红书这个平台上,大部分人都心照不宣的意识到成为小红书的博主就能赚到钱,这是事实。比如粉丝5千的博主就可以申请成为小红书的创作者,开始推广赚钱,而粉丝过万的博主除了申请创作者外,可能还会有品牌主动找你合作。…

小红书「高效达人筛选攻略」

三八女神节降临,诸多品牌纷纷开启铺垫预热,在各大平台借势宣传。而聚集庞大年轻女性消费群体的小红书,对“她营销”的重要性不言而喻。节点序幕拉开,面对海量达人信息,如何提前积草屯粮、高效备战? 本期千瓜…

小红书达人怎么找?保姆级教程来了~

在小红书推广营销中,寻找优质的达人是最头疼的事,许多品牌往往会根据简单的小红书排名来直接进行判断认定,其实在挑选小红书达人时有许多要注意的点,接下来和小编一起根据小红书数据分析工具来筛选合适、优质的达人。 千瓜数据—…

阿里云版GPT官宣,我们问了它10个问题

4月7日,阿里云宣布自研大模型“通义千问”,目前已开始邀请用户测试体验。 阿里达摩院在NLP自然语言处理等前沿科研领域早已布局多年,并于2019年启动大模型研发,通义千问便是其最新成果,相当于阿里云版的“ChatGPT”。 …

《长津湖》,我没看够

大家好,我是校长。 今天我比较期待的一个电影《长津湖》终于上映了,下午的时候,我就去电影院看了这部电影。 其实,我这个人从小喜欢看历史,看近现代史,我小学和中学的时候,历史经常考满分&#…

前端和HTML基础

本文重点: 1. 介绍什么是前端。 2. 简单介绍了html以及html中常用的一些标签。 前端 1.含义 使用web技术栈解决多终端图形界面下的人机交互问题 前端技术栈分为三层: HTML为内容,CSS为样式,JavaScript为行为,三者通过H…

中文影评分类的神经网络模型

本文旨在利用Tensorflow训练一个中文影评二分类神经网络,由于分词处理是以词为最小单位的,所以该模型同时也是word-based NLP模型。 准备文本训练集 训练集为一个文本文件,数字部分为影评的标签,1表示影评是消极的,0表示影评是积极…