让AI学会画手的方法来了,给输入加个buff就能控制生成细节,华人小哥出品丨GitHub 4.6k星...

萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

给画画AI加个buff,画起图像就像开了挂。

加个人体骨骼绑定buff,Stable Diffusion直接快进到生成3D动漫

18756a5267806c0d6fa2338a15bb87ff.gif

加个抽象到爆的草图buff,AI变着风格生成“完全一致”的狗子:

775b794c01deab601da72a7e05a1ec29.png

就连号称“AI杀手”的手部细节,也能在控制之下画得惟妙惟肖:

b7b37177b279c6b4b7b8fe5e4a4b38c2.png

这个名叫ControlNet的新AI插件,可以说是给画画AI来了最后的“临门一脚”——

原本AI无法控制的手部细节、整体架构,有了它之后,加上Stable Diffusion这样的扩散模型,足以生成任何人们想要的图像。

发出不到两天,ControlNet就在GitHub上火了,目前已经狂揽4.6k星:

814b3135200a56ce026a264557c91888.png

“让我们控制扩散模型”

各种效果图更是在推特上爆火,试玩过的网友直呼:

游戏结束!

f0a1e2aabf3d882a8b2cf4f5b31a4cf2.png

所以,这个ControlNet究竟给扩散模型加了什么buff?

给AI画画模型加buff

ControlNet的原理,本质上是给预训练扩散模型增加一个额外的输入,控制它生成的细节。

这里可以是各种类型的输入,作者给出来的有8种,包括草图、边缘图像、语义分割图像、人体关键点特征、霍夫变换检测直线、深度图、人体骨骼等。

那么,让大模型学会“按输入条件生成图片”的原理是什么呢?

ControlNet整体思路和架构分工如下:

b472bc4d2368701148c5d19f6f990ac6.png

具体来说,ControlNet先复制一遍扩散模型的权重,得到一个“可训练副本”(trainable copy)。

相比之下,原扩散模型经过几十亿张图片的预训练,因此参数是被“锁定”的。而这个“可训练副本”只需要在特定任务的小数据集上训练,就能学会条件控制。

据作者表示,即使数据量很少(不超过5万张图片),模型经过训练后条件控制生成的效果也很好。

“锁定模型”和“可训练副本”通过一个1×1的卷积层连接,名叫“0卷积层”。

0卷积层的权重和偏置初始化为0,这样在训练时速度会非常快,接近微调扩散模型的速度,甚至在个人设备上训练也可以。

例如一块英伟达RTX 3090TI,用20万张图像数据训练的话只需要不到一个星期:

0ba6a3cf1dcc2289815119b9f4c1e314.png

作者基于当前大火的Stable Diffusion进行了具体实现,主要架构如下:

1bc529a6a6e58fc78380d424f832e983.png

针对不同的输入,作者也给出了对应不同的模型,生成效果也都不错。

例如这是采用Canny边缘检测算法检测出的边缘,用于生成图像:

5242fa363154c4bfa02a41de03749a63.png

这是基于霍夫变换的直线检测算法生成的直线草图,用于生成各种风格的室内设计:

22a45e1c5fadfd8e1cf77ae675dfdf44.png

当然,自己作画也可以,例如这是基于用户草图生成的小龟:

ca79019e90cfb7f6bf845a915e701ce3.png

提取深度图,并让AI生成一幅相似的图像,直接举一反五:

f4678c3b5b7a9bc3c1f507b3883087c1.png

语义分割下的游泳池图像,不仅水里有倒影细节,建筑也变化多样:

b6ed4c59d578c90e477d166887aec3dc.png

不过目前来看,最受欢迎的还是基于人体姿态估计算法,控制动漫人物的动作生成:

680bee7f4f4a3731148f6f16d94159ad.png

看到这里,是不是已经有了大胆的想法?(手动狗头)

曾开发爆火AI上色插件

768c76dc8a9364456106278a37ec49c7.png

这个项目的作者Lvmin Zhang,2021年本科毕业于东吴大学,目前在斯坦福大学读博。

他最出名的项目之一,是2017年开发的AI上色插件style2paints,目前GitHub上已经有15.9k星。

e544085a862e1b0cba180fd6c5f3dc48.png

style2paints也经过了好几次迭代,目前即将更新到第五版。

这是第四版的效果,只需要线稿,AI就能自动给你的图像完成上色:

11d9c9bad3198d611634056d52473aba.png

除了这个项目以外,他也是CV顶会的常客了。

18ba48bfca3fd829bd8bea6936669635.png

One More Thing

值得一提的是,现在已经有基于ControlNet的国内产品上线了。

这个产品名叫稿定AI,包含照片转插画、插画线稿上色、插画优化翻新等功能,正是基于ControlNet打造。

作画效果大概是酱婶的:

fd3e2d5d0b2c283ae41371e093f040db.png

感兴趣的小伙伴们可以去试玩一波了~

项目地址:
https://github.com/lllyasviel/ControlNet

参考链接:
[1]https://lllyasviel.github.io/Style2PaintsResearch/
[2]https://twitter.com/search?q=controlnet&src=typed_query
[3]https://www.gaoding.com/ai

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。

bcb44ad1e9e73adc148252c90aaf5dd2.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23738.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023.6.12-6.18 AI行业周刊(第151期):AI创业项目交付部署,困难和机遇并存

这段时间,工作上项目上的事情,开始进入了一个快车道,很多项目开始并行。所以每天白天的时候,被各种事情填充的很满。 加入华勤后从0到1组建的团队,其实本身也是创业属性,从市场->售前->算法->视频…

日本PHD48博士团出道:搞科研太穷,不如当爱豆

丰色 发自 凹非寺量子位 | 公众号 QbitAI “做科研不赚钱,不如出道当爱豆算了!” 在日本,有这样一群博士,真的秉着这样的思想组了一个“偶像团体”。 全员都是真Doctor不说,名字就叫PHD48,直接就和著名女团…

钉钉,把AI“收了”

梦晨 发自 凹非寺量子位 | 公众号 QbitAI AI大模型军备竞赛已经打响,国内外大小科技公司你方唱罢我登场。 但有一个灵魂拷问——未来,技术之上的产品该是什么形态? 于是,产品经理和UI设计师们,纷纷担心起自己的前途——…

让 Scala 生成 JavaScript 已成为现实,Scala.js 的这十年

Scala.js 是一款将 Scala 代码编译为 JavaScript 代码的编译器,其支持全部 Scala 的语言特性。值十周年之际,官方回顾了这款编译器的从零到有,从一开始的不可能到已是一项成熟的技术。 原文链接:https://www.scala-lang.org/blog-…

OpenAI 总裁:GPT-4 有不完美,高阶版本正在测试!

【CSDN 编者按】OpenAI 总裁格雷格・布罗克曼:GPT-4 并不完美但绝对与众不同。 原文链接:https://techcrunch.com/2023/03/15/interview-with-openais-greg-brockman-gpt-4-isnt-perfect-but-neither-are-you/ 未经允许,禁止转载!…

美团创始高管离职创业/ 国内首个类ChatGPT下月开源/ 推特员工睡公司仍被裁 ...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 新的一周又开始啦~ 在这段万物复苏、ChatGPT四处轰炸的日子里,科技圈又有哪些好玩的新鲜事? 日报君在此呈上。 OpenAI CEO提出新摩尔定律 ChatGPT红红火火,OpenAI CEO Sam Altman顺势提…

「B站焊武帝」再出圈!孤身爆肝造CPU,软硬件全自研,可玩游戏,基础器件成本不到1000元...

杨净 Pine 发自 凹非寺量子位 | 公众号 QbitAI 两年时间,一个90后体制内小哥下班之后只干三件私务,那就是: 手搓CPU!手搓CPU!还是***手搓CPU! 纯手工制作、全自主研发,于是一个名叫“初芯”的CP…

新中国第一位博士!答辩导师团豪华到令人害怕

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【Transformer】微信技术交流群 本文转载自:募格学术 | 来源:新教育100人 他,新中国培养的第一位博士,获得001号博士学位证书&…

课题组亓林博士的论文被 IEEE TGRS 录用

课题组亓林博士的论文 “SSCU-Net: Spatial-Spectral Collaborative Unmixing Network for Hyperspectral Images” 被遥感领域顶级期刊IEEE Transactions on Geoscience and Remote Sensing 录用。 线性高光谱解混是高光谱图像处理和解译中的一项重要技术。近年来,…

复旦大学苏教授火了!扯出600多个假博士

上一篇:为什么程序员每到一家新公司干了两三年,都有一种干不下去的感觉? 华为,否认了与陈春花的关系。网友,揭穿了陈春花的假学历。北大,解除了陈春花的聘任合同。陈春花,扯出了复旦首席教授苏东…

SIGGRAPH最佳博士论文奖又落华人手中,胡渊鸣的这位师兄不一般

白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI 谁能想得到?SIGGRAPH最佳博士论文奖,又被「华人学者」纳入囊中。 这已经是「连续3年」,该重要奖项颁给华人学者,此前分别由加州大学伯克利分校闫令琪博士和朱俊彦博士摘得。 而最近…

26岁的他,任中国科大特任教授!2年前已在美国顶尖大学担任博士生导师!

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 来源:澎湃新闻 编辑:双一流高校 1994年出生,今年26岁的威斯康星大学麦迪逊分校原助理教授陈杲,已加盟中国科学技术大学几何与物理研究中心,任特任教…

【记录】关于知乎“国外博士的能力真的比国内博士强吗”的讨论

曾经在知乎关注了一个帖子,国外博士的能力真的比国内博士强吗? 因为有段日子没刷知乎了,今天打开一看,多了很多回答。 有一些回答肯定了本土博士的科研水平。比如: 反对小马过河回答:用上课来区分国内外博…

热搜第一!他 21 个月获清华博士学位,曾击败 NASA 夺冠,还发了 27 篇 SCI 论文

“用时 1 年 9 个月取得清华博士学位”、“以一作身份发表 SCI 论文 27 篇”、“在大赛中曾击败 NASA”……这些经历,单拎一条出来都足以令人艳羡不已,如今却全部聚集到了一个人身上——他就是姜宇,西安卫星测控中心极端轨道力学与应用科技创…

图灵奖得主Lecun、纽约大学教授Marcus,大佬争论背后的玄机

整理 | 杨阳 出品 | CSDN(ID:CSDNnews) 四年前,纽约大学教授Marcus为反驳深度学习三巨头之一Bengio的“有意识先验”和“解纠缠观念”理论,发表了一篇名为《Deep Learning: A Critical Appraisal》的论文,长…

为什么我感觉国内博士毕业手里的paper普遍比国外博士多?

链接:https://www.zhihu.com/question/457963341 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:匿名用户https://www.zhihu.com/question/457963341/answer/1877675388 给大家举一个例子:不是国…

斯坦福校长被曝学术不端,正接受校方调查!11篇论文「篡改图片」涉嫌造假

【导读】学术打假专业户Elisabeth Bik盯上了斯坦福大学校长Tessier-Lavigne,指其1999年以来发在Science、Nature和Cell等顶刊的多篇论文涉嫌「篡改图片」的学术不端行为,校方已正式展开调查。 || 斯坦福大学调查自己校长学术不端? 近日&…

2022年「百强AI论文」出炉:清华紧随谷歌排名第二,宁波工程学院成最大黑马

【导读】谷歌仍然全球领先,OpenAI每两篇论文就有一篇进百大! 人工智能领域的创新步伐越来越快,论文数量也呈爆炸式增长,甚至达到了人力无法阅读的程度。 在2022年发表的海量论文中,哪些机构的影响力最大&#xff1f…

【深度学习】GPT系列模型:语言理解能力的革新

GPT-1🏡 自然语言理解包括一系列不同的任务,例如文本蕴涵、问答、语义相似度评估和文档分类。尽管大量的未标记文本语料库很充足,但用于学习这些特定任务的标记数据却很稀缺,使得判别式训练模型难以达到良好的表现。我们证明&…

九龙证券|又一股爆雷或退市!周末影响一周市场的十大消息

1、利空突袭!4600亿芯片巨头崩了,监管重磅反击 3月31日晚间,据我国网信网,为保证要害信息基础设施供应链安全,防备产品问题危险造成网络安全危险,维护国家安全,网络安全检查办公室按照《网络安全…