新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。

今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。

相关链接

论文地址:http://arxiv.org/abs/2409.06442v1

项目地址:https://github.com/georgiarg/Prompt2Fashion

论文阅读

Prompt2Fashion:自动生成的时尚数据集

摘要

人工智能 (AI) 与时尚的结合正在通过增强创造力、个性化和效率来彻底改变行业。从设计服装到预测趋势,人工智能正成为时装设计师、零售商和营销人员不可或缺的工具。然而,将人工智能融入时尚面临着重大挑战,特别是在评估人工智能生成的内容方面,这通常需要领域专业知识来确保相关性、风格和吸引力。

在这项工作中,我们展示了一个自动生成的时尚图像数据集,专注于个性化。该数据集涵盖了各种要求,包括性别、体型、场合和风格,以及它们的组合。通过利用大型语言模型 (LLM) 的功能以及扩散模型,我们提供了一种可扩展的时尚图像生成解决方案。我们的方法消除了设计最终服装时需要人工干预甚至扩散模型的条件提示的需要。

LLM 和扩散模型促进了生产的可扩展性,确保可以高效生成各种时尚图像。语言生成中的 LLM 以及图像生成中的扩散模型提供的质量保证由人类评估员验证。此验证过程反映了潜在消费者如何看待这些 AI 生成的服装,确保内容不仅在技术上精湛,而且还与当前的时尚趋势和消费者偏好产生共鸣。

鉴于人工智能正在创意领域取得重大进展,人类监督对生成内容的监管至关重要。毕竟,时尚图像合成框架最终是为该领域的专家(例如时装设计师)设计的。这些人工智能生成的图像很可能是创意过程的初步步骤,而不是最终产品。因此,人工智能生成的时尚内容必须由具有领域专业知识的个人进行评估。为此,在这项工作中,我们不仅为创意人员和工程师提供了一个开放的、自动生成的数据集,而且还强调了让专家参与评估过程的重要性,这不仅基于上述概念,还基于实验结果。

方法

本研究采用了大型语言模型(LLMs)和扩散模型(Diffusion Model)相结合的方法,生成时尚图像。首先,通过构建包含“风格、场合、性别”或“风格、场合、类型”的变量三元组,形成定制的提示模板。然后,这些提示被输入到LLMs中,如Mistral-7B和Falcon-7B,生成对应的服装描述。这些描述随后被用作扩散模型的输入,以生成最终的时尚图像。在实验中,研究者们创建了2000个样本,每个样本包含LLM输出的描述、原始三元组以及扩散模型生成的图像。为了确保生成的图像质量,研究者们还通过人类评估者进行评审,确保生成的时尚内容不仅在技术上可行,同时符合当前时尚趋势。

实验

由Stable Diffusion生成的图像,用5种不同的方法生成描述

由 Stable Diffusion 生成的描述和图像,其中的描述由 2 个不同的 LLM 生成,用于零样本学习、小样本学习和思维链(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

由 Stable Diffusion 生成的描述和图像,以及由 2 个不同的 LLM 为 RAG 生成的带有 PDF 的描述 并以 BLOG 作为来源(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

图像评价

描述评价

结论

本研究提出了一种生成由 2,000 张图像和描述组成的综合时尚数据集的新方法。通过利用 LLM 和扩散模型,我们创建了适合各种场合、风格和体型的多样化时尚内容集合。我们的评估表明,生成的图像和描述既相关又美观。虽然非专家的反馈证实了它们的吸引力,但专家评估对于确保高标准的时尚质量和适销性至关重要。因此,未来的工作将侧重于结合专家评级,以进一步完善数据集并增强其实用性。总体而言,该数据集代表了人工智能驱动的时装设计的重大进步,为行业进一步研究和应用提供了宝贵的资源。

未来工作

  • 目前正在创建 Hugging Face 数据集,以便研究人员和开发人员更轻松地访问和使用 Prompt2Fashion 数据集。Hugging Face 上的数据集将包括图像、其相应的描述和元数据,从而实现与机器学习框架和工具的无缝集成。

  • 为了进一步帮助用户浏览和使用 Prompt2Fashion 数据集,我们还将提供 Excel 指南。该指南将结合描述和图像,提供一种便捷的方式来探索数据集。Excel 文件中的每个条目将包括:

    1. 生成的图像。

    2. 相关描述。

    3. 元数据,例如使用的模型(Mistral 或 Falcon)、风格类别和评估分数(如适用)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/443438.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot统一日志框架

在项目开发中,日志十分的重要,不管是记录运行情况还是定位线上问题,都离不开对日志的分析。 1.日志框架的选择 市面上常见的日志框架有很多,它们可以被分为两类:日志门面(日志抽象层)和日志实…

【万字长文】Word2Vec计算详解(三)分层Softmax与负采样

【万字长文】Word2Vec计算详解(三)分层Softmax与负采样 写在前面 第三部分介绍Word2Vec模型的两种优化方案。 【万字长文】Word2Vec计算详解(一)CBOW模型 markdown行 9000 【万字长文】Word2Vec计算详解(二&#xff0…

网站集群批量管理-Ansible(playbook)

1.剧本概述 1. playbook 文件,用于长久保存并且实现批量管理,维护,部署的文件. 类似于脚本存放命令和变量 2. 剧本yaml格式,yaml格式的文件:空格,冒号 2. 区别 ans-playbookans ad-hoc共同点批量管理,使用模块批量管理,使用模块区别重复调用不是很方便,不容易重复场景部署服务…

LeetCode讲解篇之377. 组合总和 Ⅳ

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 总和为target的元素组合个数 可以由 总和为target - nums[j]的元素组合个数 转换而来,其中j为nums所有元素的下标 而总和target - nums[j]的元素组合个数 可以由 总和为target - nums[j] - nums[k]的…

物联网:一种有能力重塑世界的技术

物联网(IoT)近年来对我们的日常生活产生了如此积极的影响,以至于即使是不懂技术的人也开始相信它所带来的便利以及敏锐的洞察力。 物联网是一场数字技术革命,其意义甚至比工业革命更为重大。物联网是仍处于起步阶段的第四次工业革…

【数据结构】栈和队列 + 经典算法题

目录 前言 一、栈 二、栈的实现 三、栈的循环遍历演示 四、栈的算法题 // 一、队列 二、队列的实现 三、使用演示 四、队列的算法题 总结 前言 本文完整实现了栈和队列的数据结构,以及栈和队列的一些经典算法题,让我们更加清楚了解这两种数据…

(Django)初步使用

前言 Django 是一个功能强大、架构良好、安全可靠的 Python Web 框架,适用于各种规模的项目开发。它的高效开发、数据库支持、安全性、良好的架构设计以及活跃的社区和丰富的文档,使得它成为众多开发者的首选框架。 目录 安装 应用场景 良好的架构设计…

关于AOT、JIT编译模式以及基于静态编译构建微服务应用

JDK 9 引入了一种新的编译模式 AOT(Ahead of Time Compilation) 。和 JIT 不同的是,这种编译模式会在程序被执行前就将其编译成机器码,属于静态编译(C、 C,Rust,Go 等语言就是静态编译)。AOT 避免了 JIT 预…

洛谷P5648

洛谷P5648 这题花了很长时间,是在线段树题单里找到的( )。有线段树做法,但是我感觉可能比倍增做法更难看懂。以后有空再看看吧。感觉线段树现在只会板子题,绿稍微难点可能就不会。 花了很久时间之后,就觉得…

如何让你的Mac右键菜单栏更加的丰富多样

Mac电脑的右键菜单栏不如Windows的丰富,虽然可以在系统设置一些常用功能,但是种类不够丰富,这对于一些用惯了Windows的人来说可以说是非常的不习惯,不管是工作使用还是日常使用来说都有一些影响,如何才能让Mac的右键菜…

Vite + Vue3 使用 cdn 引入依赖,并且把外部 css、js 文件内联引入

安装插件 pnpm i element-plus echarts axios lodash -S在 vite.config.js 引用 注意事项:element-plus 不能在 vite.config.js 中使用按需加载,需要在 main.js 中全局引入; import { resolve } from path import { defineConfig } from v…

跟李沐学AI:使用注意力机制的seq2seq

动机 机器翻译中,每个生成的单词可能相关于源句子中的不同词。但Seq2sqe模型不能对此直接建模。 简单的Seq2Seq模型存在一个问题,即它将整个输入序列的信息压缩到了一个固定长度的向量中,这可能导致信息丢失,尤其是当输入序列很…

linux自用小手册

一、GDB常用命令 想用gdb调试C或C程序,编译时需要加-g选项,编译出的文件为debug状态(如果不加则是release状态),且不可以加-O选项进行优化。 命令简写解释set args 设置程序传递的参数 例:./demo -v value…

PCL 计算点云OBB包围盒(PCA)

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 计算协方差矩阵和质心 2.1.2 计算特征值和特征向量 2.1.3 构建包围盒并可视化 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与…

Renesas R7FA8D1BH (Cortex®-M85)的PWM控制小车

目录 概述 1 软硬件 1.1 软硬件环境信息 1.2 开发板信息 1.3 调试器信息 2 硬件架构 2.1 硬件框架结构 2.2 小车控制原理 3 软件功能实现 3.1 FSP配置参数 3.2 代码实现 3.3 源代码文件 源代码下载地址: https://www.firebbs.cn/forum.php?modviewthre…

社工字典生成工具 —— CeWL 使用手册

GitHub - digininja/CeWL: CeWL is a Custom Word List GeneratorCeWL is a Custom Word List Generator. Contribute to digininja/CeWL development by creating an account on GitHub.https://github.com/digininja/CeWL/ 0x01:CeWL 简介 CeWL(Cust…

MySQL 联合索引底层存储结构及索引查找过程解读

前言 大家好,我是 Lorin ,联合索引(Composite Index)又称复合索引,它包括两个或更多列。与单列索引不同,联合索引可以覆盖多个列,这有助于加速复杂查询和过滤条件的检索。联合索引的列顺序非常…

从零开始学cv-17:图像绘制基本图形

文章目录 前言一、绘制直线与箭头二、绘制矩形三、绘制圆形椭圆形 前言 随着计算机视觉技术的不断发展,OpenCV作为一款强大的开源图像处理库,受到了越来越多开发者的喜爱。本文将带领读者走进OpenCV的世界,从基础入手,详细介绍如…

冷热数据分离

优质博文:IT-BLOG-CN 一、背景 随着机票业务的快速发展,订单量持续增长对业务性能带来影响,需要进行冷热数据分离。目前机票订单模块主要使用Mysql(InnoDB)作为数据库存储,历史订单信息状态修改频率低并占用大量数据库存储空间&…

腾讯IM SDK:TUIKit发送多张图片

一、问题描述 在使用腾讯IM DEMO&#xff08;https://github.com/TencentCloud/chat-uikit-vue.git&#xff09;时发现其只支持发送一张图片&#xff1a; 二、解决方案 // src\TUIKit\components\TUIChat\message-input-toolbar\image-upload\index.vue<inputref"inp…