智能版面设计:指令跟随模型在自动布局规划中的应用

在广告行业一个吸引人的视觉布局能够显著提升信息的传播效果。但对于非专业设计师来说,创建既美观又功能性强的布局常常是一项挑战。他们往往缺乏必要的设计技能、审美训练或资源来快速实现创意构想。传统的设计软件和在线工具虽然提供了一些模板和指导,但这些往往限制了设计的个性化和创新性,难以满足用户多样化和不断变化的设计需求。

本文旨在解决这一问题,介绍一种基于指令跟随模型的自动布局规划方法。这种方法利用最新的人工智能技术,特别是大模型(LLMs)的指令跟随能力,为用户提供一种新的、用户友好的设计工具。通过简单的指令输入,用户可以指导模型理解设计目的和画布尺寸,自动地将各种视觉元素(如文本、图片、标志等)排列组合,生成符合特定应用场景(如海报、书籍封面、宣传册等)的定制化布局。

模型根据人类提供的指令自动进行布局规划并安排设计目的下的视觉内容的例子

方法

三个布局推理任务的示例输入和输出

图2为三个布局推理任务的示例输入和输出。这些任务是模型训练的关键部分,旨在提高模型对布局指令的理解和执行能力。

(a) 和 (b) 的示例来自Crello数据集,由Yamaguchi在2021年提出。Crello数据集基于在线服务收集的设计模板,这些模板通常从一个空画布开始,要求模型能够组织所提供视觉组件的布局。这些示例展示了模型如何预测每个组件的边界框坐标,以确保它们不会遮挡主要对象。例如,一个设计模板可能包含文本组件或标志,模型需要预测这些组件在画布上的具体位置,同时考虑到它们之间的相互关系和视觉平衡。

(c) 的示例来自PosterLayout数据集,由Hsu等人在2023年提出。与Crello不同,PosterLayout数据集的画布不是从空开始,而是已经包含了背景图像,特别是针对海报的设计。在这种情况下,模型的任务是战略性地放置文本、标签和徽标等组件。这要求模型不仅要理解各个组件的视觉特性,还要考虑它们与背景图像的关系,以及如何在保持设计美观的同时传达必要的信息。

这些示例展示了模型在不同设计场景下的应用能力,包括从空白画布开始的布局规划和在有背景的画布上进行组件放置。通过这些任务的训练,模型能够学习如何在不同的设计约束下有效地安排视觉元素,以实现既定的设计目的和审美要求。

在视觉丰富文档的创建过程中,设计元素的多样性和画布上的分布对于实现有效的视觉传达至关重要。为了保持原始文本设计的完整性,文本内容在实验设置中被转换成图像。布局规划任务涉及将这些设计组件,以图像序列的形式提供,例如其中 n 代表组件的数量,按照特定应用场景 a(如海报、Instagram帖子、书籍封面)和定义好的尺寸 w(宽度)和 ℎ(高度)进行排列。画布可能是空白的,或者有预定义的背景。

为了提供更适应性强的解决方案并增强用户体验,研究者采用了指令跟随的方式来处理视觉丰富的布局规划任务。模型除了接收设计组件的序列外,还会根据应用场景和画布尺寸接收详细的指令 I。模型的任务是预测每个组件的布局,并以结构化格式输出,包括CSS样式,如上、左、宽、高以及层级属性,后者管理可能重叠元素的堆叠顺序。

研究者提出的模型 DocLap 扩展了 mPLUG-Owl,这是一个集成了大型语言模型(LLM)、视觉编码器和视觉抽象器模块的多模态框架。它采用了 Llama-7b v1 作为大型语言模型,CLIP ViT-L/14 作为视觉编码器。视觉抽象器模块将 CLIP 的视觉特征转换为64个标记,与文本嵌入的维度相匹配,允许同时处理多个视觉输入。研究者扩展了 Llama v1 的词汇表,增加了0到128范围内的数值标记,并在进一步的指令调整中调整了这些扩展标记的嵌入。

 实验设置

研究者在两个视觉丰富文档的布局规划基准测试上进行了实验:Crello和PosterLayout。Crello数据集基于从在线服务收集的设计模板构建,挑战模型从空白画布开始组织所提供视觉组件的布局。而PosterLayout数据集则从带有背景图像的非空白画布开始,要求模型策略性地放置文本、标签和徽标。为了确保实验的公平性,验证示例被限制为不超过4个图像,这与提交时GPT-4V的输入约束一致。

本研究中使用的两个数据集Crello和PosterLayout在训练或验证任务中包含的示例数量

研究者的训练数据得到了Adobe Express设计模板的补充。具体到每个训练或验证任务的数据集示例数量,如表1所示。在预处理阶段,小于画布大小5%的组件被排除,所有模板都被调整大小以确保最长边不超过128像素。

为了评估所提出模型的性能,研究者将其与Crello上的CanvasVAE和FlexDM,以及PosterLayout上的DSGAN进行了比较。此外,还包括了GPT-4和GPT-4V的文本版本进行比较评估。对于这些文本版本的评估,视觉组件不直接提供,而是通过BLIP-2生成每个组件的文本描述。

对于Crello的评估,研究者测量了预测和实际边界框之间的平均交并比(mIoU),以及左、上、宽、高维度的准确性。准确性通过将预测值与真实值进行64-bin量化范围比较来量化,如果预测值落在与真实值相同的范围内,则得分为1,否则为0。在PosterLayout的评估中,研究者采用了内容感知度量标准,包括遮挡率(表示主要对象被设计元素遮挡的百分比)、效用率(反映设计组件覆盖非主要对象区域的程度)和不可读性(测量包含文本元素的区域的均匀性)。

结果

结果显示在模型间交并比(mIoU)和各方面(左、上、宽、高)的精度上,DocLap模型超过了少量GPT-4(V)模型,但与FlexDM相比仍有提升空间。

Crello数据集上自动评估的结果
PosterLayout数据集上的评估结果,其中"Occ."代表遮挡率,衡量的是设计元素遮挡主要对象的程度;"Uti."代表效用率,反映设计组件覆盖非主要对象区域的广度;"Rea."代表不可读性

表2展示了Crello数据集上的评估结果,包括mIoU和各个维度的准确性。表3则展示了PosterLayout数据集上的评估结果,其中包括遮挡率、效用率和不可读性等指标。 

(a)设计模板中视觉组件数量对模型mIoU的影响
(b)单个视觉组件的相对大小与模型预测与真实值的IoU之间的相关性

图3(a)揭示了所有列出的模型在只有一个组件的模板上展现出高mIoU。随着组件数量的增加,DocLap和GPT-4(V)的mIoU呈现下降趋势,这表明涉及更多视觉组件的更复杂场景可能对当前的指令跟随模型构成挑战。

图3(b)展示了单一视觉组件的相对大小与模型预测的IoU与真实值之间的线性相关性。这表明较小的视觉组件在布局规划中实现精确放置面临更大挑战。这些小组件,如标志、小文本框或装饰元素,在布局中具有一定的位置灵活性,允许多种有效的放置方式。

Crello上布局规划结果的定性比较,包括真实情况、本文提出的模型(Ours)、GPT4V以及FlexDM的结果
PosterLayout上布局规划结果的定性比较,同样包括真实情况、本文提出的模型(Ours)、GPT4V以及DS-GAN的结果

图4和图5分别展示了Crello和PosterLayout的布局规划结果示例。这些示例包括了真实情况、DocLap模型的输出、GPT4V模型的输出以及FlexDM和DS-GAN模型的输出。通过这些示例,研究者展示了不同模型在处理具有挑战性的设计任务时的表现。

通过定量和定性的结果分析,研究者揭示了其在简化设计流程和提升非专业设计者效率方面的显著潜力,同时也指出了在面对复杂设计任务时的局限性:尽管DocLap在简化设计过程和提高非专业用户的设计效率方面显示出潜力,但在处理更复杂的设计场景时,模型的性能有所下降。尽管如此,这项工作为设计自动化领域提供了宝贵的见解,并强调了开发更全面的评估体系的重要性。

论文链接:https://arxiv.org/abs/2404.15271

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/366560.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

让 SwiftUI 原生 TabView 支持标签页切换转场动画

功能需求 何曾几时,秃头码农们多么希望 SwiftUI 里原生 TabView 的标签页切换能够有转场动画效果。 如上图所示,我们在 SwiftUI 原生 TabView 视图的标签页切换时展现出美美哒的转场动画,本实现支持最新的 iPadOS 18 和 iOS 18 系统。这是怎么做到的呢? 在本篇博文中,您…

Windows 组策略编辑器怎么打开,这两种方法你必须知道

组策略编辑器(Group Policy Editor, 简称 GPEdit.msc)是 Windows 操作系统中一个强大的工具,主要用于管理和配置系统设置、安全选项、用户权限等,尤其适用于企业环境中批量部署和管理策略。 尽管家庭版 Windows(如 Win…

文章智能改写工具哪个好?什么文都能改的智能写作工具

在学术探索的广袤海域中,撰写论文是一项考验我们知识深度和创新能力的必经之路。 我们可能会在这片海洋中遇到内容雷同、创意匮乏的暗礁。但不必惊慌,免费智能改写工具就像一盏导航明灯,照亮我们前行的道路。 今天,让我们一起探…

【postgresql】数据库操作

创建数据库 使用 CREATE DATABASE SQL 语句来创建 语法: CREATE DATABASE dbname; 使用 createdb 命令来创建 语法: createdb [option...] [dbname [description]] 参数说明: dbname:要创建的数据库名。 description&…

win11电源设置

把钩子去掉以后 win11的电脑关机才有用 否则,关机了,电脑也实际上一直在运行

计算机网络之入门

1.网络的发展 1.1计算机网络定义 计算机网络是以共享资源(硬件、软件和数据等)为目的而连接起来的、在协议控制下,由一台或多台计算机、若干台终端设备、数据传输设备等组成的系统之集合。 这些计算机系统应当具有独立自治的能力&#xff…

fastapi swagger js css 国内访问慢问题解决

fastapi swagger js css 国内访问慢问题解决 直接修改fastapi包中静态资源地址为如下地址 swagger_js_url: str "https://cdn.bootcdn.net/ajax/libs/swagger-ui/3.9.3/swagger-ui-bundle.js", swagger_css_url: str "https://cdn.bootcdn.net/ajax/libs/sw…

什么方法能快速分享视频给他人?视频二维码提供预览的制作技巧

现在想要分享一个或者多个视频时,很多人会选择将视频生成二维码的方法来展现视频内容,通过这种方式可以让多人同时扫码查看同一个视频,有效提升其他人获取内容的速度及视频传播的效率。那么视频转换成二维码的方法是什么样的呢? …

深入解析:Java爬虫的本质是什么?

深入解析:Java爬虫的本质是什么? 引言: 随着互联网的快速发展,获取网络数据已成为许多应用场景中的重要需求。而爬虫作为一种自动化程序,能够模拟人类浏览器的行为,从网页中提取所需信息,成为了…

STM32存储左右互搏 模拟U盘桥接QSPI总线FATS读写FLASH W25QXX

STM32存储左右互搏 模拟U盘桥接QSPI总线FATS读写FLASH W25QXX STM32的USB接口可以模拟成为U盘,通过FATS文件系统对连接的存储单元进行U盘方式的读写。 这里介绍STM32CUBEIDE开发平台HAL库模拟U盘桥接Quad SPI总线FATS读写W25Q各型号FLASH的例程。 FLASH是常用的一种…

通过百度文心智能体创建STM32编程助手-实操

一、前言 文心智能体平台AgentBuilder 是百度推出的基于文心大模型的智能体(Agent)平台,支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。开发者可以通过 prompt 编排的…

开放签电子签章,让签字有迹可循

开放签(企业版)V2.0.5版本上线后,系统支持一键查询电子文件的签署操作记录,支持一键生成详细的签署记录报告,详细请看下图: 1、操作记录详情: 从合同发起、填写、签署、撤销等环节全流程展示操…

由监官要求下架docker hub镜像导致无法正常拉取镜像

问题:下载docker镜像超时 error pulling image configuration: download failed after attempts6: dial tcp 202.160.128.205:443: i/o timeout解决办法:配置daemon.json [rootbogon aihuidi]# cat /etc/docker/daemon.json {"registry-mirrors&qu…

[Information Sciences 2023]用于假新闻检测的相似性感知多模态提示学习

推荐的一个视频:p-tuning P-tunning直接使用连续空间搜索 做法就是直接将在自然语言中存在的词直接替换成可以直接训练的输入向量。本身的Pretrained LLMs 可以Fine-Tuning也可以不做。 这篇论文也解释了为什么很少在其他领域结合知识图谱的原因:就是因…

怎么压缩pdf文件大小,如何压缩pdf文件大小

pdf文件怎么压缩?在当下这个信息爆炸的时代,无论是在工作场所还是校园中,我们经常会面临需要处理大文件的情况,而PDF格式作为一种保留文档结构和布局完整性的理想选择,有时候pdf文件太大,因此,对…

Linux登录界面

Linux登录界面 1. 起因2. 脚本3. 效果 1. 起因 某次刷抖音看到一个博主展示了一个登录页面,觉得蛮好看的.于是自己动手也写一个 2. 脚本 编写脚本/usr/local/bin/login.sh #!/bin/bash Current_timedate %Y-%m-%d %H:%M:%S Versioncat /etc/redhat-release Kernel_Version…

为什么这几年参加PMP考试的人越来越多

参加PMP认证的人越来越多的原因我认为和社会发展、职场竞争、个人提升等等方面有着不小的关系。国际认证与国内认证的性质、发展途径会有一些区别,PMP引进到中国二十余年,报考人数持增长状态也是正常的。 具体可以从下面这几个点来展开论述。 市场竞争…

SSM OA办公系统19159

SSM OA办公系统 摘 要 随着现代信息技术的快速发展以及企业规模不断扩大,实现办公线上流程自动化已成为提升企业核心竞争力的关键。本文主要介绍的是利用Spring、SpringMVC和MyBatis(简称为:SSM)框架,MySQL数据库等先…

重榜:鸿蒙 Charles 抓包设置

亲测可用!2040702更新 Charles是一款用于网络调试和分析的代理工具,可以拦截和查看设备与服务器之间的网络通信。通过Charles,可以监视应用程序的网络流量、修改请求和响应,甚至模拟不同的网络条件。其主要功能包括: …

Jmeter 入门指南:从零开始学习

JMeter 是一个非常流行的开源工具,用于进行负载测试。它支持多种网络协议,包括 HTTP、FTP、SMTP、JMS、SOAP、JDBC 等,使其成为在多种应用环境中检测性能瓶颈的理想选择。本文将详细介绍如何利用 JMeter 进行高效的接口自动化测试。 创建和执…