ControlNet-有条件图文生成论文阅读

文章目录

  • 摘要
  • 算法:
    • ControlNet
    • ControlNet in Image Diffusion Model
    • Training
    • Improved Training
  • 实验
    • Canny edges
    • Hough lines
    • Human scribbles
    • HED boundary map
    • Openpifpaf pose
    • Openpose
    • ADE20K segmentation map
    • COCO-Stuff segmentation map
    • DIODE normal map
    • Depth-to-Image
    • cartoon line drawings
  • 限制
  • 结论

论文: 《Adding Conditional Control to Text-to-Image Diffusion Models》
github: https://github.com/lllyasviel/ControlNet

摘要

ControlNet控制大的预训练扩散模型支持额外输入条件,ControlNet端到端的方式学习特定任务条件,即使训练集小(<50k),学习也比较鲁棒。作者基于Stable Diffusion训练ControlNets,可支持边缘map、分割map、关键点为条件输入;这丰富了控制扩散模型方法,为相关应用提供便利。

算法:

ControlNet

ControlNet通过控制神经网络模块输入条件进一步控制整个神经网络输出。如式1,神经网络模块F通过参数Θ将特征图x变换为另一个特征图y,即为图2a过程;
在这里插入图片描述
ControlNet应用于任意神经网络模块过程如图2b所示, c c c为额外条件向量, Θ Θ Θ为locked copy参数, Θ c Θ_c Θc Θ Θ Θ的clone,且可训练,没有直接训练是为了防止过拟合, Θ z 1 , Θ z 2 Θ_{z1}, Θ_{z2} Θz1,Θz2为ControlNet中两个零卷积 Z Z Z参数,零卷积表示初始化weight及bias为0的1*1卷积,该过程如式2,
在这里插入图片描述
由于两个零卷积 Z Z Z参数初始化为0,因此训练第一步时 y c = y y_c=y yc=y,如式3,
在这里插入图片描述
在这里插入图片描述
零卷积参数以一种可学习方式从零开始优化;

ControlNet in Image Diffusion Model

Stable Diffusion使用数十亿图片训练的文本图像生成模型,本质上为包含编码器、中间层、skip-connected解码器的U-net,整个模型有25个block,编码器和解码器各自有12个block,所有block中,8个为上采样或下采样卷积层,17个为主要block,每个包括4个resnet层、2个ViT。文本由CLIP进行编码,扩散时间步长使用位置编码。
Stable Diffusion类似VQ-GAN为了稳定训练过程,将512 * 512图片映射到64 * 64隐空间,因此需要ControlNet将基于图片的条件转换到64 * 64特征空间,该过程通过4个kernel=4,steide=2卷积实现,如式9.
在这里插入图片描述
如图3,ControlNet控制U-net每个层级,因为原始权重固定,因此计算高效;ControlNet使用与SD(Stable Diffusion)相同的12个编码block及1个middle block,其中12个block有4个分辨率(64 × 64, 32 × 32, 16 × 16, 8 × 8),每个分辨率3个block;输出部分增加12个skip-connections及1个middle block至U-net
在这里插入图片描述

Training

扩散模型学习图像逐渐去噪,生成样本;
对于图片 z 0 z_0 z0,通过扩散算法逐渐增加噪声生成噪声图 z t z_t zt,其中 t t t为噪声添加次数,给出step t、text prompt c t c_t ct及特定任务条件 c f c_f cf,扩散算法通过网络 ϵ θ \epsilon_θ ϵθ预测增加到噪声图 z t z_t zt上的噪声,如式10,L为整体损失函数:
在这里插入图片描述
训练过程中,作者随机替换50% test prompt c t c_t ct为空,使得SD模型编码器可以从输入的控制图 c f c_f cf学习更多语义信息。

Improved Training

Small-Scale Training:当资源有限时,作者发现断开ControlNet与SD Decoder Block 1,2,3,4训练速度提升1.6倍,当模型输出结果与条件相关联时,可重新连接Decoder Block 1,2,3,4进行训练;

Large-Scale Training:当训练资源充足,数据量大时,模型过拟合风险低,可先充分训练ControlNet,而后解锁SD模型权重,与ControlNet作为一个整体模型进行联合训练;

实验

实验设置,作者使用三种prompt:
1、No prompt;“”
2、Default prompt:无意义prompt
3、Automatic prompt:BLIP生成
4、User prompt:用户输入

Canny edges

在这里插入图片描述

Hough lines

在这里插入图片描述

Human scribbles

在这里插入图片描述

HED boundary map

在这里插入图片描述

Openpifpaf pose

在这里插入图片描述

Openpose

在这里插入图片描述
在这里插入图片描述

ADE20K segmentation map

在这里插入图片描述

COCO-Stuff segmentation map

在这里插入图片描述

DIODE normal map

在这里插入图片描述

Depth-to-Image

在这里插入图片描述

cartoon line drawings

在这里插入图片描述

限制

如图28,当输入分割容易引起歧义时,难以生成合理内容。
在这里插入图片描述

结论

ControlNet呈现效果比较惊艳,在SD模型基础上更进一步,支持多种条件控制文本至图像生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/61060.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何解决“德语/文”等外文字符显示乱码问题

目录 1“德文/语字符”等外文显示乱码原因 2 如何解决“德文/语字符”等外文显示乱码 2.1 使用支持多个“编码”切换的工具打开该文本 2.2 使用变音字符的标准ASCII字符 2.3 将计算机系统切换至西欧编码 3 结尾 1“德文/语字符”等外文显示乱码原因 以德文/语为例&#…

Domino NotesV11开放下载啦!

大家好&#xff0c;才是真的好。此刻我正在北京的Domino NotesV11培训现场写Domino Notes V11&#xff0c;人数众多&#xff0c;群情激扬。上周五&#xff0c;Domino Notes V11已经开放下载&#xff0c;不知道朋友们下到了没有&#xff1f;要是下到了&#xff0c;告诉大家一个好…

Window内置ubuntu安装与图形界面显示

文章目录 一、Window安装ubuntu1.打开控制面板2.WSL升级1&#xff09;启用适用于 Linux 的 Windows 子系统2&#xff09;检查运行 WSL 2 的要求3&#xff09; 启用虚拟机功能4&#xff09; 下载 Linux 内核更新包5&#xff09;将 WSL 2 设置为默认版本 3.安装ubuntu 二、图形界…

计算机需不需要考英语口语,哪些专业需要英语口语考试

哪些专业需要英语口语考试&#xff1f;下面小编为大家整理了相关内容&#xff0c;以供参考&#xff0c;一起来看看吧&#xff01; 哪些专业需要英语口语考试 需要英语口语的都是英语专业或外贸&#xff0c;外交类专业。按照各院校要求&#xff0c;报考外语类专业或报考涉外专业…

【评测】SUPRAcap 100囊式深层过滤器 泽平科技一级代理

以最通用的囊式过滤器形式提供Seitz过滤介质的优良特性 对于安全可靠的工艺开发来说&#xff0c;可规模放大性是至关重要的&#xff0c;SUPRAcap 100以其通 用的结构、尺寸和可与其他滤器共同使用的特性&#xff0c;使其可以应用于任何开发工艺中。 借助于新的SUPRAcap100产品…

Database Meets AI: A Survey

文章目录 Abstract1 INTRODUCTION1.1 AI for DBLearning-based Database ConfigurationLearning-based Database OptimizationLearning-based Database DesignLearning-based Database MonitoringLearning-based Database Security 1.2 DB for AIDeclarative Query ParadigmDat…

突然加快,专家建议五年内禁售燃油车,新能源车迎来物联网智能科技革命

日前&#xff0c;著名经济学家任泽平在社交媒体发文&#xff0c;建议推出五年内燃油车禁售时间表&#xff0c;河北以南&#xff0c;大力发展新能源&#xff0c;双碳&#xff0c;扩大内需。新能源车辆和物联网技术结合使用将是推进该新能源车发展的重要趋势&#xff0c;也是实现…

MP支原体污染解决方案 | MP代理泽平科技

细胞培养过程中&#xff0c;经常会遇到细胞各种各样的污染。其中支原体污染是最顽固的、隐蔽的&#xff0c;污染率也高。这主要因为支原体是广泛存在于自然界中能独立生活的最小微生物, 直径300~800 nm, 很容易透过0.22~0.45 μm滤膜。支原体没有细胞壁&#xff0c;常用抗生素如…

IDT代理——北京泽平科技CRISPR基因编辑

IDT 成立于 1989年&#xff0c;是基因组学领域开发的领先者&#xff0c;也是公认的定制核酸生产行业的领导者。IDT 凭借在 DNA 合成领域的领导能力&#xff0c;为基因组学应用开发了专有技术&#xff0c;例如下一代测序、CRISPR 基因组编辑、合成生物学、数字 PCR 和 RNA 干扰。…

【评测】CellMaxx胎牛血 泽平科技代理

清原产地新西兰&#xff0c;自然条件优越&#xff0c;是世界公认的优质血源地之一&#xff1b;并且新西兰有着最高的动物健康标准&#xff0c;是欧盟指导委员会认定的极少数疯牛病非疫区。 CellMaxx胎牛血清生产采用完全认证的无菌过滤设备&#xff0c;严格执行GMP生产标准&…

官宣 慧存医疗与泽平科技战略合作1

近日&#xff0c;上海赛立维生物旗下慧存医疗科技有限公司与北京泽平科技有限责任公司达成战略合作&#xff0c;泽平科技成为慧存医疗全部医疗产品的全国总经销商&#xff0c;包含细胞冻存液、组织冻存复苏试剂盒、组织解离液、组织运输保存液、脐带组织和脐带血冻存液、肝脏细…

【智能制造】周宏仁:通俗易懂讲清楚制造业“数字化起步,网络化崛起,智能化发展”;任泽平:解码“德国制造”的七大基因

国家信息化专家咨询委员会常务副主任周宏仁撰文指出智能制造发展经历数字化起步&#xff0c;网络化崛起&#xff0c;智能化发展三个阶段。高瞻远瞩&#xff0c;通俗易懂&#xff0c;富有逻辑性&#xff0c;非常精彩&#xff0c;此文值得读三遍&#xff01; 国家信息化专家咨询委…

任泽平:“云智一体”新基建将深刻影响我国实体经济

“新基建正在挑大梁&#xff01;”著名经济学家任泽平在2023跨年演讲中表示。 本次演讲中&#xff0c;任泽平提出了2023年中国经济的十大预测。其中&#xff0c;“新基建”作为支撑未来20年中国经济繁荣发展的重要工程&#xff0c;将迎来新的发展机遇。 任泽平表示&#xff0c;…

雷军周年演讲上热搜,任泽平:给雷军和小米泼点冷水,不要对其神话

8月12日&#xff0c;雷军的周年演讲上热搜时&#xff0c;经济学家任泽平在官微发言称给雷军和小米泼点冷水。 图片来源任泽平个人微博截图 其中第一点谈到 人生的底部靠信仰&#xff0c;高位靠理性。人在低谷时一般不容易犯错&#xff0c;人生的大错一般是在如日中天的时候&…

黄峥不再担任拼多多董事长;恒大首席经济学家任泽平离职 | 高管变动

拼多多、中国恒大、黑石、中通快递、凯文教育、达能集团、费森尤斯卡比、巴西银行、L Brands、康桥资本、康宁杰瑞生物制药、德琪医药等公司高管变动。 中国 拼多多创始人黄峥3月17日发布2021年度致股东信&#xff0c;宣布经董事会批准后将董事长职位交棒给现任CEO陈磊。在不再…

新基建下的新机会,任泽平为何看好百度、华为和阿里?

文 |魏启扬 来源|智能相对论&#xff08;aixdlun&#xff09; 今日&#xff0c;一份题为《人工智能&#xff1a;新基建&#xff0c;迎接智能新时代》的研究报告在网上疯传&#xff0c;究其原因&#xff0c;除了人工智能、新基建这两个时下热门词汇的叠加之外&#xff0c;还在…

任泽平:95页PPT分析2018(经济、房价、政策)

任泽平&#xff1a;95页PPT分析2018&#xff08;经济、房价、政策&#xff09; 2017-12-07 06:38房价

任泽平:中国自动驾驶发展报告2020(上)

原网址&#xff1a; https://finance.sina.cn/zl/2021-01-15/zl-ikftpnnx7340056.d.html?oid23&vt4&cid79615&node_id79615 任泽平&#xff1a;中国自动驾驶发展报告2020&#xff08;上&#xff09; 任泽平 2021-01-15 07:11:00 文/新浪财经意见领袖专栏作家任泽…

任泽平:中国收入分配报告2021最新白皮书

财经365&#xff08;www.caijing365.com&#xff09;8月19日讯&#xff1a;任泽平&#xff1a;中国收入分配报告2021最新白皮书。 导读 增长与分配&#xff0c;效率和公平&#xff0c;是几百年经济思想史的两大命题。 过去几十年全球重视增长和效率、忽视分配和公平&#xff0…

谷歌工程主管:AIGC 将在 3 年内终结编程

来源&#xff1a;人机与认知实验室 作者&#xff1a;摆渡 近日&#xff0c;前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 在芝加哥计算机协会的一个虚拟会议上表示&#xff0c;ChatGPT和GitHub Copilot预示着编程终结的开始。Welsh 断言&#xff0c;生成式 AI 将在 3 年…