ControlNet多重控制功能推出,AI绘画进入导演时代!

目录

一、“不会开发游戏的AI工具制作者不是好博士”

 二、ControlNet出现的背景

三、什么是ControlNet?

四、「神采 Prome AI」的诞生

五、总结

去年DALLE2,Stable Diffusion等文-图底层大模型发布带动了应用层的发展,出现了一大批爆款产品,被认为是”AI绘画元年“。目光再转到今年,在隔壁ChatGPT风头一时无二的时候,ControlNet的出现再次把大家的注意力移到了AI绘画生成上面。

一、“不会开发游戏的AI工具制作者不是好博士”

在科普ControlNet之前,有必要先介绍一下他的作者。目前正在斯坦福读博的中国人张吕敏(Lvmin Zhang),2021年才毕业于苏州大学,并且在本科期间就发表了多篇ICCV,CVPR,ECCV等顶会著作。这些论文高度与绘画相关,他的Style2Paints甚至已经更新到第五版了。

很少人知道,他还在Unity上做了一款名为 YGOPro2 的TCG游戏,可见每一个学霸都是时间管理大师。

 二、ControlNet出现的背景

时间再回到去年各种模型诞生初期,那时候图像生成只需要用户简单地输入文本(Prompts)就可以实现,这让普通人操作的难度大大降低。尤其是Stable Diffusion的出现,直接部署在家用电脑的同时又很快生成高质量图片。

但是伴随着普通用户的尝试,种种问题也随之暴露出来。首先由于扩散模型本身diversity很强,导致生成的图像往往不受控制(可控性低),常常无法满足需求,需要用户在三四十张生成的图片中挑选一张可用的(废片率高)。

提示词:一张精美的图片需要通过大量的关键词拼凑(多达四五十个单词),才呈现出一个相对比较好的表现形式:

对于刚接触AI绘画的普通人来说找到合适的关键词是面临的首要问题,其次很多我们常见的关键词如:建筑,宏大/精美等远远不如渲染配置参数词:“4K超清”,“高质量”,“阴影效果”表现效果好。可见单纯的关键词控制无法满足用户对精美细节的需要。而在成图的时候原生Stable-Diffusion 模型的瑕疵则更明显,比如著名的“AI不会画手”,“美少女吃面梗”都反映出大模型在手脚方面的细节表现不好。针对这些问题除了避免出现手脚,进行二次AI创作/手动修改似乎也没什么好的办法(加入数据集针对性训练当然也是一种办法,但是一方面对于数据量的要求会很大大提升,另一方面还是没有很好地解决黑盒问题)。

幸运的,就在不久之前,ControlNet发布了。

三、什么是ControlNet?

ControlNet是一种神经网络结构,通过添加额外的条件来控制扩散模型。

ControlNet将网络结构划分为:1. 不可训练(locked)部分保留了stable-diffusion模型的原始数据和模型自身的学习能力。2. 可训练(trainable)部分通过额外的输入针对可控的部分进行学习,本质是端对端的训练。简单来说就是通过一些额外条件生成受控图像-在Stable Diffusion模型中添加与UNet结构类似的ControlNet额外条件信息,映射进参数固定的模型中,完成可控条件生成。

众所周知,AIGC的可控性是它进入实际生产最关键的一环。有了ControlNet的帮助我们可以直接提取建筑的构图,人物的姿势,画面的深度和语义信息等等。在很大程度上我们不需要频繁更换提示词来碰运气,尝试一次次开盲盒的操作了。

 ControlNet把每一种不同类别的输入分别训练了模型,目前有8个:Canny,Depth,HED,MLSD,Normal,Openpose,Scribble,Seg。这些可控条件大致可以分为三类,下面我们将一一展开介绍:

  • 姿势识别

姿势识别,用于人物动作,提取人体姿势的骨架特征(posture skeleton)。姿势提取的效果图很像小时候flash上的小游戏“火柴人打斗”,有了这个就不用去网上寻找各种英语姿势tag,而是可以直接输入一张姿势图。并且这个模型还可以生成多人姿势(偶尔会翻车,但是之前靠提示词是完全无法生成多人动作的)

这个功能对于人物设计和动画非常有用,可能会用于影视和游戏行业,比如动作捕捉和捏脸系统。

边缘检测,通过从原始图片中提取线稿,来生成同样构图的画面

跟canny类似,适合重新上色和风格化

 针对涂鸦

 语义分割识别(区块标注,适合大片块状草图上色)

  • 线段识别,适用于建筑场景

 深度检测,提取深度图

通过提取原始图片中的深度信息,生成具有深度图,再生成具有同样表面几何形状的图片。甚至可以利用3D建模软件搭建简单的场景,再交给ControlNet去渲染。

模型识别,适用于建模,类似深度图,比深度模型对于细节的保留更加精确,用于法线贴图。

靠着以上八种模型就可以用其他Input Condition(语义图,关键点图,深度图等单一维度的特征)来辅助文字提示词来生成可控的输出图片了。比起仅仅依靠提示词的方法,ControlNet虽然多花了点时间,但要知道有些图片靠直接点击按钮的方式的话,不论roll多少次都是搞不出来的。

四、「神采 Prome AI」的诞生

皮卡智能一直在AIGC的应用中无限探索,去年AI绘画爆火时,我们创造了「AI艺术创作」平台,用户可以用中文生成AI绘画和使用「图生图」的功能。

与去年上线的「AI艺术创作」不同,这款新产品主要面向B端用户,ControlNet的出现,让我们将AI绘画从玩具变成工具。神采PromeAI拥有强大的人工智能驱动设计助手和广泛可控的AIGC(C-AIGC)模型风格库,使你能够轻松地创造出令人惊叹的图形、视频和动画。例如边缘和人物姿态,甚至可以通过线稿控制来完美解决AIGC经常受到诟病的“手指”问题。

该产品具有以下功能:可以直接将涂鸦和照片转化为插画,自动识别人物姿势并生成插画;将线稿转化为完整的上色稿,并提供多种配色方案;自动识别图片景深信息以生成具有相同景深结构的图片,识别建筑及室内图片线段并生成新的设计方案;读取图片法线信息以辅助快速建模,利用图片语义分割识别生成具有相同构图和内容的不同风格图片。

五、总结

就在AI绘画刚出来那会儿,就有人说ai无法生成不同图层,或者是线稿/中间图,不会取代人工绘画。不提后者,就说现在,不管是文生图(直接生成线稿),还是图生图(ControlNet,从图片提取线稿),哪怕把渲染过程制作成视频也是轻而易举的。每个技术问题都会变成下一次的突破,在大模型解决画风,Lora解决角色,ControlNet解决了输出内容之后,手脚以及其他关键点优化很快也会解决了。

从模型本身上看,不难想象下一次技术的迭代一定会在可控性上有更大的提升,因为一张图像能提取的特征无非就是画风、深度,光照,姿势,语义等。从应用方面看,既然ControlNet能标记骨骼来画人体,说不定之后也可以用于医学,建筑,也能标记车站画轨道。

 在各个细分领域的公司带着他们的ai工具“下沉”之后,他们已经发现了越来越多可以做的事情。今年才过了三个月,无法想象在接下来的九个月AIGC这条赛道还会带给我们哪些更惊奇的变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17789.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里类ChatGPT产品正在内测;谷歌AI聊天机器人翻车,市值缩水逾7000亿元;Android 14开发者预览版发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

InsCode AI 创作助手:源于 CSDN 的 AI 创作助手,不一样的创作体验

文章目录 📋前言🎯AIGC 时代的产物🎯InsCode AI 创作助手体验🎯一些感受和建议🧩感受🧩建议(个人看法) 📝最后 📋前言 是的没错,CSDN AI 写作助手…

零基础部署chatglm

目录 ubuntu部署 1. 下载安装anaconda3 2. 创建并虚拟环境 3. 下载安装chatglm 4. 修改代码,减少gpu使用,目前使用6G显存 5.启动web服务 windows部署 1. 下载安装anaconda3 2. 创建并虚拟环境 3. 下载安装chatglm 4. 修改代码,减少…

chatgpt赋能Python-python3虚拟环境搭建

Python3虚拟环境搭建:介绍和步骤 Python是一门非常强大的编程语言,因此在许多不同类型的项目中都广泛使用。但是,不同项目可能需要使用不同版本的Python库和依赖项。这就是使用Python的虚拟环境的重要性,可以避免不同项目之间的冲…

吴恩达《ChatGPT Prompt Engineering for Developers》学习笔记

来自:口仆 进NLP群—>加入NLP交流群 本笔记是 deeplearning.ai 最近推出的短期课程《ChatGPT Prompt Engineering for Developers》的学习总结。 1 引言 总的来说,当前有两类大语言模型(LLM):「基础 LLM」 和「指令…

深度学习(20):nerf论文翻译与学习

目录 1 Introduction 2 Related Work 3 Neural Radiance Field Scene Representation 4 Volume Rendering with Radiance Fields 5 Optimizing a Neural Radiance Field 5.1 Positional encoding 5.2 Hierarchical volume sampling 5.3 Implementation details 6 Resu…

软件测试相关的一些笔记(七拼八凑笔记)

小插曲 IT行业职位简称 PD---product director(产品总监/部门经理)比项目经理级别高 PM---Project Management (项目经理) PL---Project Leader项目组长 PG---Prograer 程序员 SA---SystemAnalyst 系统分析师 QA--- QUALITY ASSU…

VALSE2023-内容总结(正在更新)

博文为精选内容,完整ppt请留言索取 一周内更新完毕,敬请期待 2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE)于6月10日至12日在无锡太湖国际博览中心召开,由中国人工智能学会、中国图象图形学学会主办,…

特斯拉今天拉了,马斯克迟到半小时,一开口市值蒸发2048亿元

编辑部 发自 凹非寺量子位 | 公众号 QbitAI 啥也没有! 17万新车、HW4.0、4D雷达……在大伙儿万众期待的特斯拉投资者日活动上,统统都没有! 而且马斯克还迟到整整半小时,一张口股价就跌了1.43%,市值直接蒸发约2048亿元&…

【Shader Graph】SmoothStep节点详解及其应用

目录 一、SmoothStep函数 二、基础图像 情况一&#xff1a;t1 > t2 情况二&#xff1a;t1 < t2 三、两个SmoothStep函数相减的图像 1&#xff09;SmoothStep(t1&#xff0c;t2&#xff0c;x) - SmoothStep(t2&#xff0c;t3&#xff0c;x) 2&#xff09;SmoothS…

【Unity_Input System】Input System新输入系统(一)

目录 一、导入Input System包 二、使用方式1&#xff1a;直接从输入设备对应类中获取输入 三、使用方式2&#xff1a;用代码创建InputAction获取输入 四、使用方式3&#xff1a;用Player Input组件获取输入 五、使用方式4&#xff1a;用Input Action Asset生成C#代码获取输…

Echarts的地图实现拖拽缩放同步功能(解决多层geo缩放、拖动卡顿问题)

项目场景&#xff1a; 大屏项目显示云南省3D的地图&#xff0c;可拖拽缩放、地图打点、点击图标弹框等等功能 问题描述 多图层拖拽时会上下层会分离&#xff0c;延迟卡顿 原因分析&#xff1a; 1、拖拽时不同图层的中心坐标没有保持一致&#xff0c; 2、卡顿是数据更新动画时…

php编写年历流程图,使用PHP怎么编写一个万年历功能

使用PHP怎么编写一个万年历功能 发布时间&#xff1a;2020-12-25 14:27:13 来源&#xff1a;亿速云 阅读&#xff1a;94 作者&#xff1a;Leah 这篇文章将为大家详细讲解有关使用PHP怎么编写一个万年历功能&#xff0c;文章内容质量较高&#xff0c;因此小编分享给大家做个参考…

mysql审计audit插件_MySQL审计工具Audit插件使用

MySQL审计工具Audit插件使用一、介绍MySQL AUDIT MySQL AUDIT Plugin是一个 MySQL安全审计插件&#xff0c;由McAfee提供&#xff0c;设计强调安全性和审计能力。该插件可用作独立审计解决方案&#xff0c;或配置为数据传送给外部监测工具。支持版本为MySQL (5.1, 5.5, 5.6, 5.…

计算机小知识应用,电脑使用小知识

办公用品网平台正在火热招商中&#xff01;&#xff01;&#xff01; 1.在我们使用软件时&#xff0c;大部分软件(如word&#xff0c;excel&#xff0c;PPT&#xff0c;等)会使用CTRL键加s键进行快捷保存。比如说&#xff0c;我们在写word文档时&#xff0c;写完一段&#xff0…

linux tree工具使用,Dutree–Linux上磁盘使用情况分析的免费开源命令行工具

Dutree是一款免费的开源&#xff0c;快速的命令列工具&#xff0c;用于分析磁碟使用情况。Dutree是Durep和Tree的组合。Durep用图表创建磁盘使用情况报告&#xff0c;这使我们能够确定哪些目录使用了最多的空间。尽管durep可以产生类似于du的文本输出&#xff0c;但其真正的功能…

直播预告 | 虹科Vuzix AR眼镜赋能汽车业“智慧眼”

就在今天20:00-21:00&#xff01; 虹科行业AR解决方案直播课程《虹科AR汽车行业解决方案》&#xff0c;深刻透析汽车业诊断、维修、培训的“四大痛点”&#xff0c;介绍汽车行业AR创新解决方案、培训场景解决方案、数字化工作流解决方案、远程协助全场景解决方案&#xff01; …

2023,智能硬件的AIGC“又一春”

​ 文|智能相对论 作者|佘凯文 消费电子产品风光不再&#xff0c;特别是自去年以来&#xff0c;电子消费市场经历了一整年的寒潮袭击&#xff0c;智能手机等产品达到10年消费谷底&#xff0c;PC出货量整体下降16%&#xff0c;不仅如此&#xff0c;包括平板、可穿戴设备也一改…

ChatGPT 速通手册——开始提问

开始提问 当我们完成注册后&#xff0c;页面自动会跳转到ChatGPT的主页面&#xff0c;在这里我们就可以开始进行对话了。 我们在页面下方的输入框中填写问题&#xff0c;然后回车或者点击小飞机&#xff0c;我们的问题和ChatGPT的答案就会在页面上方以一问一答的格式展现出来…

小牛情报APP最强攻略

下面博主就为您写一波小牛情报最强攻略。 首先&#xff0c;我们来介绍一下小牛情报&#xff0c;是国内专业的独立第三方区块链数据服务平台&#xff0c;一直致力于数据的深耕与数据价值的挖掘&#xff0c;从数据的采集、处理到数据的分析&#xff0c;再到数据的应用于咨询。它…