通过语言模型来构建位置关系的,omnigen combine来做位置生成,其实可以通过大模型来做,不错。
1.introduction
文生图模型在准确处理具有复杂空间布局的提示时仍然面临挑战,1.通过自然语言准确描述特定的空间布局非常困难,特别是当对象数量增加或需要精确的位置控制时,2.模型的prompt fllowing在处理复杂元素和长文本的关系时,仍然会有漂移问题,如混淆概念和遗漏元素,因此显式的空间控制在组合生成中是有必要的。
基础模型的文生图的prompt fllowing能力在很大程序上依赖文本编码器的表征能力,也就是说更大更强的文本模型可以显著增强文本跟随能力,sd 3和flux.1除了有粗粒度的clip之外还额外引入了t5-xxl作为文本编码器,playground3用了llama3替换了文本编码器,并使用中间层的表征而非全局池化的表征。提出通过空间条件(布局/框)来处理组合控制,并在基础模型之上train一个控制模块作为插件,或在train-free下使用区域掩码