OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

之前的文章中和大家介绍过Flux团队开源了一系列工具套件,感兴趣的小伙伴可以点击下面链接阅读~

AI图像编辑重大升级!FLUX.1 Tools发布,为创作者提供了更强大的控制能力。

OminiControl 也开源了其可控生成模型。OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。比如一个提示词加一个服装图片就能让生成的人物穿上服装。或者实现将图片中的物品放到生成图片的指定位置。 主要有以下特点:

  • 通用控制:支持主题驱动控制和空间控制(例如边缘引导和绘画生成)的统一控制框架。

  • 极简设计:在保留原始模型结构的同时注入控制信号。仅向基础模型引入 0.1% 的额外参数。

相关链接

论文:https://arxiv.org/pdf/2411.15098

模型:https://huggingface.co/Yuanshi/OminiControl

试用:https://huggingface.co/spaces/Yuanshi/OminiControl

论文阅读

摘要

本文介绍了 OminiControl,这是一个高度通用且参数高效的框架,它将图像条件集成到预先训练的扩散变换器 (DiT) 模型中。OminiControl 的核心是利用参数重用机制,使 DiT 能够使用自身作为强大的主干对图像条件进行编码,并使用其灵活的多模态注意处理器对其进行处理。与现有方法不同,这些方法严重依赖具有复杂架构的附加编码器模块,OminiControl有以下特点:

  1. 有效且高效地结合了注入的图像条件,仅需 0.1% 的附加参数。

  2. 以统一的方式处理广泛的图像调节任务,包括主题驱动生成和空间对齐条件,例如边缘、深度等。

这些功能是通过对 DiT 本身生成的图像进行训练来实现的,这对主题驱动生成特别有益。广泛的评估表明,OminiControl 在主题驱动和空间对齐条件生成方面均优于现有的基于 UNet 和 DiT 的模型。此外,论文还发布了训练数据集 Subjects200K,这是一个包含超过 200,000 张身份一致图像的多样化集合,以及一条高效的数据合成管道,以推进主题一致生成的研究。

方法

扩散变压器 (DiT) 架构和图像调节的集成方法概述。 OminiControl利用了一个参数复用机制,使DiT能够使用自身作为强大的后端来编码图像条件,并通过其灵活的多模态注意力处理器处理这些条件。与现有依赖于具有复杂架构的额外编码模块的方法不同,OminiControl以仅0.1%的额外参数有效且高效地整合了注入的图像条件,并以统一的方式解决了包括主题驱动生成和空间对齐条件(如边缘、深度等)在内的广泛图像条件控制生成任务。

两种方法整合图像条件的结果比较。与直接添加相比,多模态方法表现出更好的条件跟踪效果。

来自Subjects200K 数据集的示例。每对图像显示同一物体在不同位置、角度和光照条件下的状态。该数据集包括各种物体,例如衣服、家具、车辆和动物,共计超过 200,000张图像。该数据集以及生成管道将公开发布。

结果

主题驱动生成

文字提示
  • 提示 1:此物品的近距离视图。它放在一张木桌上。背景是一个黑暗的房间,电视开着,屏幕上正在播放烹饪节目。屏幕上的文字写着“Omini Control!”。

  • 提示 2:电影风格的镜头。在月球上,这个物品驶过月球表面。上面有一面旗帜,上面写着“Omini”。背景是地球在前景中若隐若现。

  • 提示3:在一个包豪斯风格的房间里,这件物品被放置在一张闪亮的玻璃桌上,旁边放着一瓶鲜花。在午后的阳光下,百叶窗的阴影投射在墙上。

  • 提示 4:“在海滩上,一位女士坐在一把写着‘Omini’的沙滩伞下。她穿着这件衬衫,脸上挂着灿烂的笑容,身后背着冲浪板。背景是夕阳西下。天空呈现出美丽的橙色和紫色。”

试穿效果

场景变化

Dreambooth数据集

空间对齐控制

图像修复(左:原始图像;中:蒙版图像;右:填充图像)

  • 提示:蒙娜丽莎戴着一个白色的 VR 耳机,上面写着“Omini”。

  • 提示:一本黄色的书,封面上用大号字体写着“OMINI”。底部写着“for FLUX”的字样。

限制

  • 由于训练中缺乏人类数据,该模型的主体驱动生成主要针对物体而不是人类主体。

  • 主题驱动的生成模型可能不太适合FLUX.1-dev。

  • 发布的型号目前仅支持512x512的分辨率。

待办事项

  • 发布更高分辨率(1024x1024)的模型。

  • 发布训练代码。

结论

OminiControl 使用统一的 token 方法,为跨不同任务的 Diffusion Transformers 提供参数高效的图像调节控制,无需额外的模块。该方法优于传统方法,而新的 Subjects200K 数据集(包含超过 200,000 张高质量、主题一致的图像)支持主题一致生成的进步。结果证实了 OminiControl 在扩散模型中的可扩展性和有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/480089.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序 - 本地生活

小程序页面和样式练习 - 本地生活小程序开发笔记 目录 本地生活 准备工作 加载图片素材 页面开发 页面样式开发 功能实现截图 总结 本地生活 本地生活”微信小程序是一个介绍本地美食、装修、工作等信息的微信小程序,该微信小程序的首页包含轮播图区域和九宫…

常见的Web安全漏洞——XSS

概念 跨站脚本攻击(XSS),指攻击者通过篡改网页,嵌入恶意脚本程序,在用户浏览网页时,控制用户浏览器进行恶意操作。 XXS的分类 反射型XSS存储型XSSDOM型XSS 原理 反射型XSS 接收用户提交的访问者的姓名&#xff0…

deepin 安装 chrome 浏览器

deepin 安装 chrome 浏览器 最近好多小伙伴儿和我说 deepin 无法安装最新的谷歌浏览器 其实是因为最新的 谷歌浏览器 其中的一个依赖需要提前安装 提前安装依赖然后再安装谷歌浏览器就可以了 安装 fonts-liberationsudo apt -y install fonts-liberation安装 chrome 浏览器sudo…

洛谷 P2385 [USACO07FEB] Bronze Lilypad Pond B C语言 bfs

题目&#xff1a; https://www.luogu.com.cn/problem/P2385 题目看仔细&#xff0c;是M行N列.八个方向数组依靠M1,M2&#xff0c;所以初始化方向数组要在主函数里面&#xff0c;传入bfs函数里。 #include <iostream> #include<algorithm> #include<queue>…

【61-70期】Java面试题深度解析:从集合框架到线程安全的最佳实践

&#x1f680; 作者 &#xff1a;“码上有前” &#x1f680; 文章简介 &#xff1a;Java &#x1f680; 欢迎小伙伴们 点赞&#x1f44d;、收藏⭐、留言&#x1f4ac; 文章题目&#xff1a;Java面试题深度解析&#xff1a;从集合框架到线程安全的最佳实践 摘要&#xff1a; 本…

简释下oracle的set define的使用场景

我们在使用oracle的时候&#xff0c;有些菜单表存在url字段&#xff0c;url字段中存在这&字符。但我们通过sql语句进行插入表记录的时候&#xff0c;数据库会提示要我们输入变量值。这个时候有些人难免会不知所措&#xff0c;今天告诉大家一个非常简单的办法解决。 一、问…

六大排序算法:插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序

本章讲述数据结构中的六大排序算法 欢迎大佬们踊跃讨论&#xff0c;感谢大家支持&#xff01; 我的博客主页链接 六大排序算法 一.插入排序1.1 直接插入排序1.2 希尔排序 二.选择排序2.1 单向选择排序2.2双向选择排序2.3 堆排序 三.交换排序3.1 冒泡排序3.2 快速排序3.2.1 Hoa…

【Linux】剧幕中的灵魂更迭:探索Shell下的程序替换

&#x1f3ac; 个人主页&#xff1a;谁在夜里看海. &#x1f4d6; 个人专栏&#xff1a;《C系列》《Linux系列》《算法系列》 ⛰️ 一念既出&#xff0c;万山无阻 目录 &#x1f4d6;一、进程程序替换 1.替换的演示 ❓替换与执行流 ❓程序替换≠进程替换 2.替换的原理 …

python爬虫案例——猫眼电影数据抓取之字体解密,多套字体文件解密方法(20)

文章目录 1、任务目标2、网站分析3、代码编写1、任务目标 目标网站:猫眼电影(https://www.maoyan.com/films?showType=2) 要求:抓取该网站下,所有即将上映电影的预约人数,保证能够获取到实时更新的内容;如下: 2、网站分析 进入目标网站,打开开发者模式,经过分析,我…

iscsi服务器

Iscsi 服务端 Iscsi客户端 Iscsi 客户端 创建lvm卷 安装iscsi服务端工具 创建lvm 用之前创建的lvm卷 创建服务端标识 创建客户端标识 Ls查看 删除之前的ip标识 创建服务端ip 和端口 创建双向认证用户名和密码 配置完后exit退出&#xff0c; 重启systemctl restart targe…

用shell脚本写一个通用的监听程序异常并重启脚本

进来服务器的程序php-fpm时常在并发下时常挂掉&#xff0c;而且时常在凌晨2点以后&#xff0c;通过排查是因为php配置需要调整并发&#xff0c;同时&#xff0c;为了不影响我休息&#xff08;以前老师说&#xff1a;能用机器和程序解决问题的坚决不用人去操作&#xff0c;这样才…

CA系统(file.h---申请认证的处理)

#pragma once #ifndef FILEMANAGER_H #define FILEMANAGER_H #include <string> namespace F_ile {// 读取文件&#xff0c;返回文件内容bool readFilename(const std::string& filePath);bool readFilePubilcpath(const std::string& filePath);bool getNameFro…

02-Linux系统权限维持

02-Linux系统权限维持 一 创建账号 1 在/etc/passwd中创建root的特权用户 /etc/passwd中数据的格式 账号:密码:uid:gid:描述:家目录:shell解释器&#xff0c;我们可以在/etc/passwd文件中添加一个test账号&#xff0c;密码为password123&#xff08;密文advwtv/9yU5yQ&#…

AWS codebuild + jenkins + github 实践CI/CD

前文 本文使用 Jenkins 结合 CodeBuild, CodeDeploy 实现 Serverless 的 CI/CD 工作流&#xff0c;用于自动化发布已经部署 lambda 函数。 在 AWS 海外区&#xff0c;CI/CD 工作流可以用 codepipeline 这项产品来方便的实现&#xff0c; CICD 基本概念 持续集成( Continuous…

[AutoSar]BSW_Diagnostic_007 BootLoader 跳转及APP OR boot response 实现

目录 关键词平台说明背景一、Process Jump to Bootloader二、相关函数和配置2.1 Dcm_GetProgConditions()2.2 Dcm_SetProgConditions() 三、如何实现在APP 还是BOOT 中对10 02服务响应3.1 配置3.2 code 四、报文五、小结 关键词 嵌入式、C语言、autosar、OS、BSW、UDS、diagno…

重塑用户体验!快手电商智能巡检平台的实践与探索

导读&#xff1a;随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;已经成为推动各行各业创新的重要力量。特别是在用户体验方面&#xff0c;AI 技术的应用不仅解决了许多传统问题&#xff0c;还带来了全新的交互方式和更高的用户满意度。本文将从快手电商B端…

sin函数拟合

目录 一、 目的... 1 二、 模型设计... 1 2.1 输入与输出.... 1 2.2 隐藏层设计.... 1 2.3 优化算法与损失函数.... 1 2.4 神经网络结构.... 1 三、 训练... 1 3.1 数据生成.... 2 3.2 训练过程.... 2 3.3 训练参数与设置.... 2 四、 测试与分析... 2 4.1 选取不同激活函数....…

【鸿蒙】鸿蒙开发过程中this指向问题

文章目录 什么是 this&#xff1f;常见 this 指向问题案例分析&#xff1a;HarmonyOS 组件中的 this 指向问题问题描述问题分析原因 解决方案&#xff1a;绑定 this 的正确方法方法一&#xff1a;使用箭头函数方法二&#xff1a;手动绑定 this 完整代码示例使用箭头函数使用 bi…

【摸鱼】Docker配置主从mysql数据库环境

docker pull mysql拉取docker镜像&#xff0c;国内现在访问不了docker hub&#xff0c;可以去阿里云上镜像加速器地址https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors启动主库docker run -p 3306:3306 --name master-mysql --privilegedtrue -v /app/docker/data…

初试无监督学习 - K均值聚类算法

文章目录 1. K均值聚类算法概述2. k均值聚类算法演示2.1 准备工作2.2 生成聚类用的样本数据集2.3 初始化KMeans模型对象&#xff0c;并指定类别数量2.4 用样本数据训练模型2.5 用训练好的模型生成预测结果2.6 输出预测结果2.7 可视化预测结果 3. 实战小结 1. K均值聚类算法概述…