突破性技术！开源多模态模型—MiniGPT-5

突破性技术！开源多模态模型—MiniGPT-5

news/2024/12/26 10:28:24/文章来源:https://blog.csdn.net/weixin_57291105/article/details/134203650

多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域，但如何实现连贯的文本和相关图像是一个棘手的难题。

为了突破技术瓶颈，加州大学圣克鲁斯分校研发了MiniGPT-5模型，并提出了全新技术概念“Generative Vokens "，成为文本特征空间和图像特征空间之间的“桥梁”,实现了普通训练数据的有效对齐,同时生成高质量的文本和图像。

为了评估MiniGPT-5的效果,研究人员在多个数据集上进行了测试,包括CC3M、VIST和MMDialog。结果显示,MiniGPT-5在多个指标上都优于多个对比基线,能够生成连贯、高质量的文本和图像。

例如，在VIST数据集上,MiniGPT-5生成的图像CLIP分数高于fine-tunedStable Diffusion 2; 在人类评估中,MiniGPT-5生成的语言连贯性更好(57.18%),图像质量更高(52.06%),多模态连贯性更强(57.62%)。

在这里插入图片描述

在MMDialog数据集上,MiniGPT-5的MM相关性指标达到0.67,超过基准模型Divter的0.62。这充分证明MiniGPT-5在不同数据模式下的强大适应能力。

开源地址：https://github.com/eric-ai-lab/MiniGPT-5

论文地址：https://arxiv.org/abs/2310.02239

在这里插入图片描述

MiniGPT-5模型主要有3大创新点：1）利用多模态编码器提取文本和图像特征,代表了一种全新的文本与图像对齐技术,效果优于直接利用大语言模型生成视觉token的方法。

2）提出了无需完整图像描述的双阶段训练策略：第一阶段，专注文本与图像的简单对齐;第二阶段，进行多模态细粒度特征学习。

3）在训练中引入了“无分类器指导”技术,可有效提升多模态生成的内容质量。主要模块架构如下。

Generative Vokens

MiniGPT-5的核心创新就是提出了“Generative Vokens”技术概念，实现了大语言模型与图像生成模型的无缝对接。

具体来说,研究人员向模型的词表中加入了8个特殊的Voken词元[IMG1]-[IMG8]。这些Voken在模型训练时作为图像的占位符使用。

在输入端,图像特征会与Voken的词向量拼接,组成序列输入。在输出端,模型会预测这些Voken的位置,对应的隐状态h_voken用于表示图像内容。

在这里插入图片描述

然后,h_voken通过一个特征映射模块,转换为与Stable Diffusion文本编码器输出对齐的图像条件特征ˆh_voken。

在Stable Diffusion中,ˆh_voken作为指导图像生成的条件输入。整个pipeline实现了从图像到语言模型再到图像生成的对接。

这种通过Voken实现对齐的方式,比逆向计算要直接,也比利用图像描述更为通用。简单来说，Generative Vokens就像是一座“桥梁”,使不同模型域之间信息传递更顺畅。

双阶段训练策略

考虑到文本和图像特征空间存在一定的域差异,MiniGPT-5采用了两阶段的训练策略。

第一阶段是单模态对齐阶段：只使用单个图像-文本对的数据,如CC3M。模型学习从图像标题生成对应的Voken。同时,加入辅助的图像标题损失,帮助Voken与图像内容对齐。

第二阶段是多模态学习阶段：使用包含连续多模态样本的数据,如VIST,进行微调。设置不同的训练任务,包括生成文本、生成图像和同时生成两者。增强了模型处理多模态信息的能力。

这种分阶段策略,可以缓解直接在有限数据上训练带来的问题。先进行粗粒度对齐,再微调细粒度特征，并提升了模型的表达能力和鲁棒性。

无分类器指导

为进一步提升生成文本和图像的连贯性,MiniGPT-5还采用了“无分类器指导”的技术。

其核心思想是,在图像扩散过程中,以一定概率用零特征替换条件Voken,实现无条件生成。

在推理时,将有条件和无条件的结果作为正负样本,模型可以更好地利用两者的对比关系,产生连贯的多模态输出。这种方法简单高效,不需要引入额外的分类器,通过数据对比自然指导模型学习。

文本到图像生成模型

MiniGPT-5使用了Stable Diffusion 2.1和多模态模型MiniGPT-4作为文本到图像生成模型。可以根据文本描述生成高质量、高分辨率的图片。

Stable Diffusion使用Diffusion模型和U-Net作为主要组件。Diffusion模型可以将图片表示成噪声数据,然后逐步进行去噪和重构。

U-Net则利用文本特征作为条件,指导去噪过程生成对应的图片。相比GAN,Diffusion模型更稳定,生成效果也更清晰逼真。

在这里插入图片描述

为了准确地将生成标记与生成模型对齐，研究人员制定了一个用于维度匹配的紧凑映射模块，并结合了一些监督损失，包括文本空间损失和潜在扩散模型损失。

文本空间损失帮助模型学习标记的正确位置，而潜在扩散损失直接将标记与适当的视觉特征对齐。由于生成Vokens的特征直接由图像引导，因此，不需要图像的全面描述就能实现无描述学习。

研究人员表示,MiniGPT-5的最大贡献在于实现了文本生成和图像生成的有效集成。只需要普通的文本、图像进行预训练,就可以进行连贯的多模态生成,而无需复杂的图像描述。这为多模态任务提供了统一的高效解决方案。

本文素材来源加州大学圣克鲁斯分校论文，如有侵权请联系删除

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/179287.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

新工业革命？基于机器视觉技术分拣机器人的未来与发展

新工业革命？基于机器视觉技术分拣机器人的未来与发展

原创 | 文 BFT机器人 01 分拣机器人的应用基于机器视觉技术的分拣机器人可以将工人从繁重的劳动中解放出来，大大提高了分拣的效率，因此被广泛地应用于食品、物流以及煤矿等多个行业。 1.1 分拣机器人在水果分拣中的应用随着农业科技的发展和人民生活…

阅读更多...

SOLIDWORKS参数化设计之部分打包慧德敏学

SOLIDWORKS参数化设计之部分打包慧德敏学

参数化设计就是通过主参数来驱动整个模型的变化，类似于SOLIDWORKS的方程式中，使用全局变量来控制模型其它参数的变化，因此要做参数化就必须要确定好主参数以及变化逻辑。我们之前介绍过SOLIDWORKS参数化设计软件-SolidKits.AutoWorks&#…

阅读更多...

软件设计模式原则（二）开闭原则

软件设计模式原则（二）开闭原则

继续讲解第二个重要的设计模式原则——开闭原则~ 一.定义开闭原则(Open Closed Principle）是编程中最基础、最重要的设计原则。一个软件实体如类，模块和函数应该对扩展开放(对提供方)，对修改关闭(对使用方)。用抽象构建框架，用实…

阅读更多...

关于FastJSON序列化Bean时对get方法调用的细节

关于FastJSON序列化Bean时对get方法调用的细节

结论使用JSON.toJSONString去序列化Bean的时候 FastJSON会把Bean里面的get开头，有返回值且没有参数的方法都调用一遍。看代码 package org.example.domain;import lombok.Getter; import lombok.Setter;/*** program: parent_pro* description:* author: 渭水* c…

阅读更多...

presto插件机制揭秘：探索无限可能的数据处理舞台

presto插件机制揭秘：探索无限可能的数据处理舞台

文章目录 1. 前言2. Presto插件架构3. Plugin接口3.1 插件协议3.2 插件实现类 4. 插件加载过程4.1 PluginManager 5. 插件应用6. 总结关键词：Presto Plugin 1. 前言本文源码环境： presto: prestoDb 0.275版本在Presto框架中插件机制设计是一种非常常见…

阅读更多...

备忘录在电脑里叫什么？Win10系统自带的备忘录在哪打开？

备忘录在电脑里叫什么？Win10系统自带的备忘录在哪打开？

对于每天都需要使用电脑来办公的职场人士来说，能够随手在电脑桌面上记录工作笔记、常用工作资料、工作注意事项等内容是非常有必要的。但是如果想要实现在电脑上随手记录事情，就需要先找到一款类似于备忘录或便签软件那样的记事软件。那么备忘录在电脑…

阅读更多...

java实现pdf文件添加水印，下载到浏览器

java实现pdf文件添加水印，下载到浏览器

java实现pdf文件添加水印，下载到浏览器添加itextpdf依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.8</version> </dependency>文件下载到浏览器和指定路径 …

阅读更多...

unity 使用TriLib插件动态读取外部模型

unity 使用TriLib插件动态读取外部模型

最近在做动态加载读取外部模型的功能使用了triLib插件，废话不多说直接干货。第一步下载导入插件，直接分享主打白嫖共享，不搞花里胡哨的。链接：https://pan.baidu.com/s/1DK474wSrIZ0R6i0EBh5V8A 提取码：tado 导入后第…

阅读更多...

浅谈无源供电无线测温在线监测系统应用方案

浅谈无源供电无线测温在线监测系统应用方案

安科瑞崔丽洁摘要：无源供电无线测温在线监测系统是一种基于声表面波技术的测温技术，在变电站监测方面得到了很好的技术实践应用。本文对无源供电无线测温在线监测系统研究应用进行分析研究。关键词：设备检测；无线测温。引言在…

阅读更多...

dubbo没有找到生产者

dubbo没有找到生产者

1、没有找到生产者 com.alibaba.dubbo.rpc.RpcException: No provider available from registry 127.0.0.1:2181 for service .... , please check status of providers(disabled, not registered or in blacklist)2、查看是不是对应的providers 没有注册上去找到 zk 对应…

阅读更多...

哪里能找到可以学习的前端实战项目？

哪里能找到可以学习的前端实战项目？

前言下面是我整理的一些关于GitHub上的前端相关的项目，希望对你有所帮助，整理不易，可以的话不要吝啬你的点赞喜欢收藏哈~ 废话少说，我们直接进入正题——> 实用工具向 1.Echarts Star：55.6k Echarts提供了大量…

阅读更多...

INFINI Labs 产品更新 | Agent 全新重构，优化指标采集，支持集中配置管理，支持动态下发等功能

INFINI Labs 产品更新 | Agent 全新重构，优化指标采集，支持集中配置管理，支持动态下发等功能

INFINI Labs 产品又更新啦~ 本次更新主要有 Agent、Console、Loadgen 等产品，其中 Agent 进行全新重构升级，新版限制了 CPU 资源消耗，优化了内存，相比旧版内存使用率降低 10 倍，极大的降低了对宿主服务器造成资源占用…

阅读更多...

react-markdown支持83版本的Chrome，解决Object.hasOwn is not a function问题

react-markdown支持83版本的Chrome，解决Object.hasOwn is not a function问题

旧版浏览器支持 react-markdown用了一个ES2022的api，Object.hasOwn测试的时候一切正常，当我切换到生成环境的旧版的83的Chrome之后，发现会报Object.hasOwn is not a function这个错误。 https://github.com/remarkjs/react-markdown/issues/…

阅读更多...

自动驾驶的同学看过来：DriveLM：世界首个语言+自动驾驶全栈开源数据集

自动驾驶的同学看过来：DriveLM：世界首个语言+自动驾驶全栈开源数据集

DriveLM：世界首个语言自动驾驶全栈开源数据集，旨在借助大语言模型和海量自然语言数据集，构筑复杂场景下安全、精准、可解释的自动驾驶系统，突破现有自动驾驶推理能力上限，数据集已开源！ DriveLM提供了量化…

阅读更多...

EDA常用数字器件硬件描述

EDA常用数字器件硬件描述

EDA常用数字器件硬件描述前言在使用了一段时间EDA编程之后，来回顾一下基本的知识，看看如何实现基本的EDA常用数字器件对应的硬件描述一、组合逻辑器件描述 1. 基本的逻辑门电路与、或、非（取反）、与非、或非、异或、同或 …

阅读更多...

掌控你的Mac性能：System Dashboard Pro，一款专业的系统监视器

掌控你的Mac性能：System Dashboard Pro，一款专业的系统监视器

作为Mac用户，你是否曾经想要更好地了解你的电脑性能，以便优化其运行？是否想要实时监控系统状态，以便及时发现并解决问题？如果你有这样的需求，那么System Dashboard Pro就是你的不二之选。 System Dashboar…

阅读更多...

【数据结构】顺序表的学习

【数据结构】顺序表的学习

前言:在之前我们学习了C语言的各种各样的语法，因此我们今天开始学习数据结构这一个模块，因此我们就从第一个部分来开始学习"顺序表"。 💖 博主CSDN主页:卫卫卫的个人主页 💞 👉 专栏分类:数据结构 &#x1f…

阅读更多...

能源管理系统为什么选择零代码开发平台？

能源管理系统为什么选择零代码开发平台？

市面上有很多能源管理系统，但是零代码开发能源管理系统却非常少。那为什么推荐选择零代码开发平台呢？因为很多企业缺少技术人员，但是却仍然需要数字化工具和流程推进业务和项目，解决能源管理技术人员不懂代码的矛盾问题&#xff0…

阅读更多...

206. 反转链表、Leetcode的Python实现

206. 反转链表、Leetcode的Python实现

博客主页：🏆看看是李XX还是李歘歘 🏆 🌺每天分享一些包括但不限于计算机基础、算法等相关的知识点🌺 💗点关注不迷路，总有一些📖知识点📖是你想要的💗 ⛽️今…

阅读更多...

教师减负神器

教师减负神器

在传统的成绩管理模式中，教师需要手动输入、整理、分析成绩数据，工作量大且繁琐。这不仅耗费了教师大量的时间和精力，还容易出现错误。为了解决这个问题，我们可以通过各种代码和Excel来实现学生自助查询成绩的功能。一、建立成绩…

阅读更多...

最新文章

推荐文章