【论文精读】TextDiffuser-2：释放语言模型用于文本渲染的力量

【论文精读】TextDiffuser-2：释放语言模型用于文本渲染的力量

news/2024/12/24 9:38:04/文章来源:https://blog.csdn.net/weixin_47748259/article/details/136244660

文章目录

一、前言
二、摘要
三、方法
- （一）TextDiffuser-2模型的整体架构
- （二）语言模型M1将用户提示转换为语言格式的布局
- （三）将提示和布局结合到扩散模型内的可训练语言模型M2中进行编码以生成图像
四、实验
- （一）实施细节
- （二）消融研究
- （三）实验结果
- （四）TextDiffuser-2 的其他应用
- （五）讨论

一、前言

TextDiffuser-2 生成的文本到图像：

实现准确的文本生成工作
保证图片中文本布局的合理性
在强大的语言模型能力的支持下展现出文本风格的多样性

TextDiffuser-2继承并优化了其前身TextDiffuser的核心特性，主要创新在于其对语言模型的应用。

二、摘要

现有文本渲染方法的一些缺点：

灵活性和自动化程度有限：
- GlyphControl需要用户设计字形图像来提供布局指导；
- GlyphDraw和TextDiffuser依赖于手动指定关键字。
布局预测能力有限：
- GlyphDraw只能渲染单行文本的图像，限制了其对多行文本场景的适用性；
- TextDiffuser 生成的文本布局在视觉上并不吸引人，这主要归因于布局转换器的能力有限。
限制样式多样性：
- TextDiffuser利用字符级分割掩码作为控制信号隐式地对每个字符的位置施加了约束，从而限制了文本样式的多样性，并在渲染手写或艺术字体时带来了挑战。
没有开源代码：现有方法可能不提供可用的代码、API 或演示。

TextDiffuser-2旨在释放语言模型用于文本渲染的力量：

微调用于布局规划的大型语言模型
1. 将用户提示转换为布局：MARIO-10M数据集中的标题-OCR对
2. 确定位置：从用户提示中推断关键字或合并用户指定的关键字
3. 修改布局：通过聊天，用户可以引导语言模型改变布局，例如重新生成、添加或移动关键字。
利用扩散模型中的语言模型对行级别的位置和文本进行编码
- 与之前采用严格字符级指导的方法不同，这种方法生成更加多样化的文本图像。

文章利用了两种语言模型进行文本渲染，一种用于布局规划的语言模型和另一种用于布局编码的语言模型。

效果评估：
通过人类参与者和 GPT-4V 参与的综合实验和用户研究，验证了 TextDiffuser-2 可以生成合理且视觉上令人愉悦的文本布局，并且增强了生成文本的风格多样性。

三、方法

（一）TextDiffuser-2模型的整体架构

语言模型M1和扩散模型分两个阶段进行训练：

在这里插入图片描述

（二）语言模型M1将用户提示转换为语言格式的布局

输入：[description] Prompt: [prompt] Keywords: [keywords]，其中keywords可选，如果用户没有明确提供关键字，语言模型应该推断要在图像上绘制的文本和布局，如果用户提供关键词（用灰色标记），语言模型只需要确定关键词对应的布局即可；
输出：textline x0, y0, x1, y1，其中(x0, y0)和(x1, y1)分别代表左上角和右下角的坐标
损失函数：交叉熵损失

（三）将提示和布局结合到扩散模型内的可训练语言模型M2中进行编码以生成图像

损失函数：去噪L2损失
混合粒度的分词方法：一方面，保持原始的BPE分词方法用于处理提示，另一方面，引入了新的字符token，并将每个关键词分解为字符级表示，并且还引入了新的坐标token来编码位置。

四、实验

（一）实施细节

布局规划：基于 FastChat 框架微调 vicuna-7b-v1.5模型。
布局编码：利用 SD 1.5并使用具有基本尺寸的内置 CLIP 文本编码器。

（二）消融研究

关于微调数据量的消融研究：
使用准确度、精确度、召回率和 F 度量来评估模型提取关键词的能力，并引入了一种 IoU 度量来测量每个样本生成的框之间的最大 IoU 值。实验结果表明，当使用 5k 数据进行微调时，该模型在大多数指标中实现了最佳性能。
在这里插入图片描述

关于坐标表示和标记化级别的消融研究：

坐标表示：使用单点表示文本行提供了更大的灵活性，使生成的文本能够在角度和大小方面表现出更大的多样性。然而，当使用MARIO-Eval 基准进行评估时，利用左上角和右下角来表示文本行的方法评估效果要更好。
标记化级别：使用子字级标记化的性能明显低于字符级表示，当使用子词级标记化时，模型对每个标记的拼写变得不敏感，这给文本渲染过程带来了重大挑战。

在这里插入图片描述

（三）实验结果

在MARIO-Eval基准上进行定量实验： TextDiffuser-2在多数评估指标上均展现出优异的性能。
在这里插入图片描述

将文本到图像的结果可视化： 与现有方法相比，TextDiffuser-2可以自动从提示中提取关键字以进行准确渲染。此外，TextDiffuser-2 生成的字体表现出广泛的多样性。

在这里插入图片描述
采用GPT-4V进行用户评测：根据用户反馈，GPT-4V对TextDiffuser-2生成的图像进行了评估，结果表明其具有优异的识图识字能力，并总结的理由合理。

（四）TextDiffuser-2 的其他应用

使用模板生成文本到图像： 当提供模板图像（例如打印的、手写的或场景文本图像）时，TextDiffuser-2可以用现有的OCR工具提取文本信息并将其作为条件直接输入到扩散模型中，从而无需进行布局预测语言模型M1。
文本修复任务： 与 TextDiffuser 比较，TextDiffuser-2 可以生成更连贯的文本。
无需文本的自然图像生成： 通过省略文本位置和内容引导，TextDiffuser-2 可以生成没有文本的图像。

（五）讨论

通过多轮聊天进行操作布局

在这里插入图片描述

重叠布局： TextDiffuser-2 对重叠框表现出更大的鲁棒性。相反，其他两种方法生成的结果会产生乱码文本，从而影响图像的整体质量。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/270487.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于单片机的数字温度计设计

基于单片机的数字温度计设计

目录摘要 I Abstract II 引言 1 1 整体方案设计 3 1.1 主控芯片类型选择 3 1.2 测温电路选择 3 1.3 系统总体方案 4 2 系统的硬件电路设计 5 2.1 单片机系统设计 5 2.2 显示模块设计 8 2.3 温度读取电路的设计 10 3 系统软件设计 13 3.1 软件开发环境的介绍 13 3.2 系统重…

阅读更多...

ubuntu_定制文件系统[2]-清理日志log

ubuntu_定制文件系统[2]-清理日志log

1.问题现象系统长时间运行, 产生大量的系统日志 ubuntu/debian 系统日志如下 /var/log$ du -sh * 31M syslog # syslog日志 61M syslog.1 2.5G journal/ # systemd service日志当日志文件过大, 硬盘空间占用100%时, 导致各种异常命令按tab补全无响应服务/进程启动异常服务…

阅读更多...

Docker之若依项目部署

Docker之若依项目部署

目录一、搭建项目的局域网 1.1搭建局域网 1.2查看局域网 1.3注意：要关闭防火墙，关闭后要重启docker 二、redis安装 2.1创建目录 2.2修改redis.conf文件三、MySQL安装 3.1安装 3.2设置远程连接 3.3创建数据库四、若依后端项目搭建 4.1创建…

阅读更多...

挑战杯基于深度学习的植物识别算法 - cnn opencv python

挑战杯基于深度学习的植物识别算法 - cnn opencv python

文章目录 0 前言1 课题背景2 具体实现3 数据收集和处理3 MobileNetV2网络4 损失函数softmax 交叉熵4.1 softmax函数4.2 交叉熵损失函数 5 优化器SGD6 最后 0 前言 🔥 优质竞赛项目系列，今天要分享的是 🚩 **基于深度学习的植物识别算法 ** …

阅读更多...

Xilinx高级调试方法--远程调试

Xilinx高级调试方法--远程调试

Xilinx高级调试方法--远程调试 1 虚拟电缆调试2 FPGA设计2.1 扩展配置接口 3 PCIe-XVC驱动3.1 PCIe-XVC驱动3.2 XVC-Server 4 Vivado Design Suite4.1 同一台主机4.2 不同主机本文主要介绍Xilinx的一些高级调试方法，以及如何使用Xilinx的相关IP。 1 虚拟电缆调试 …

阅读更多...

Java基础知识点

Java基础知识点

Java基础知识点 1.方法重载和重写的区别方法重载： 同一个类中的方法，方法名相同，返回值可以相同可以不同，参数列表必须不同发生在编译期，在编译期确定执行哪个方法方法重写： 指的是子类重新定义父类…

阅读更多...

探索c++——了解c++的魅力

探索c++——了解c++的魅力

前言：c是一门既面向对象又面向过程的语言。不同于java纯粹的面向对象和c纯粹的面向过程。造成c该特性的原因是c是由本贾尼大佬在c的基础上增添语法创建出来的一门新的语言。它既兼容了c， 身具面向过程的特性。又有本身的面向对象的特性。面向对象和…

阅读更多...

Wireshark_labs TCP

Wireshark_labs TCP

在本实验中，我们将详细研究著名的TCP协议的行为。我们将通过从您的电脑向远程服务器传输一份150KB 的文件(一份Lewis Carrol 的“爱丽丝梦游仙境”文本)， 并分析TCP传输内容的发送和接收过程来实现。我们将研究TCP对序列和确认号的使用，以提供…

阅读更多...

Python 系统学习总结（基础语法+函数+数据容器+文件+异常+包+面向对象）

Python 系统学习总结（基础语法+函数+数据容器+文件+异常+包+面向对象）

🔥博客主页： A_SHOWY🎥系列专栏：力扣刷题总结录数据结构云计算数字图像处理力扣每日一题_ 六天时间系统学习Python基础总结，目前不包括可视化部分，其他部分基本齐全，总结记录&#xff0…

阅读更多...

Python与FPGA——膨胀腐蚀

Python与FPGA——膨胀腐蚀

文章目录前言一、膨胀腐蚀二、Python实现腐蚀算法三、Python实现膨胀算法四、Python实现阈值算法五、FPGA实现腐蚀算法总结前言腐蚀是指周围的介质作用下产生损耗与破坏的过程，如生锈、腐烂等。而腐蚀算法也类似一种能够产生损坏，抹去部分像素的算法。…

阅读更多...

SoundTouch对音频处理（Android）

SoundTouch对音频处理（Android）

SoundTouch对音频处理（Android） SoundTouch介绍 SoundTouch 是一个用于音频处理的开源库，主要用于改变音频的速度、音调和音量等特征。您可以在项目中使用 SoundTouch 库来实现音频处理的功能，比如变速播放、音高变化、混响效果…

阅读更多...

Redis(5.0)

Redis(5.0)

1、什么是Redis Redis是一种开源的、基于内存、支持持久化的高性能Key-Value的NoSQL数据库，它同时也提供了多种数据结构来满足不同场景下的数据存储需求。 2、安装Redis（Linux） 2.1、去官网（http://www.redis.cn/）下…

阅读更多...

新品发布会注意事项有哪些？如何邀约媒体到场发布

新品发布会注意事项有哪些？如何邀约媒体到场发布

传媒如春雨，润物细无声，大家好，我是51媒体网胡老师。新品发布会的注意事项以及邀约媒体到场发布的方法如下： 一、新品发布会注意事项： 明确活动目的和主题：确定新品发布会要传达的信息和目标，…

阅读更多...

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：TapGesture）

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：TapGesture）

支持单击、双击和多次点击事件的识别。说明： 从API Version 7开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。接口 TapGesture(value?: { count?: number, fingers?: number }) 参数： 参数名称参数类型必填参…

阅读更多...

数学建模【模糊综合评价分析】

数学建模【模糊综合评价分析】

一、模糊综合评价分析简介提到模糊综合评价分析，就先得知道模糊数学。1965年美国控制论学家L.A.Zadeh发表的论文“Fuzzy sets”标志着模糊数学的诞生。模糊数学又称Fuzzy数学，是研究和处理模糊性现象的一种数学理论和方法。模糊性数学发展的主流是在…

阅读更多...

OpenHarmony教程指南—Navigation开发页面切换场景范例

OpenHarmony教程指南—Navigation开发页面切换场景范例

简介在应用开发时，我们常常遇到，需要在应用内多页面跳转场景时中使用Navigation导航组件做统一的页面跳转管理，它提供了一系列属性方法来设置页面的标题栏、工具栏以及菜单栏的各种展示样式。除此之外还拥有动态加载，navPathSta…

阅读更多...

【视频转码】基于RK3588的视频转码探索

【视频转码】基于RK3588的视频转码探索

传统的视频转码服务基本都是基于X86下CPU、GPU转码，对硬件性能、功耗、成本来说都比较高。从技术角度来说现有视频转码技术有： 视频编码转变： 1. H.264 > H.265 保持视频分辨率、清晰度不变情况下，更改视频压缩方式&#xff0…

阅读更多...

Tomcat SSL证书申请指南2024版本

Tomcat SSL证书申请指南2024版本

1. 注册并登录51SSL 2. 申请证书在订单管理中点击申请证书，买个便宜的就行填写信息后提交即可： 3. 域名验证为域名增加一个解析，按上面的记录信息。点击订单详情里面的获取验证信息如下： 将上述信息放入阿里云修改后&…

阅读更多...

mysql 数据库查询查询字段用逗号隔开关联另一个表并显示

mysql 数据库查询查询字段用逗号隔开关联另一个表并显示

文章目录问题描述解决方案问题描述如下如所示： 表一：wechat_dynamically_config表，重点字段：wechat_object 表二：wechat_object表，重点字段：wxid 需求：根据wechat_dynamically_…

阅读更多...

3.5日常学习

3.5日常学习

matlab处理数据自己写了关于detect_data的函数，让它帮我改了，哈哈哈 %改正前function data_chuli(path1,savepath)[num]xlsread(path1,1,B18:F23);a num;ba;cb(:);xlswrite(savepath,c) end%改正后function data_chuli(path1, savepath)num xlsread…

阅读更多...

最新文章

推荐文章