MiniGPT-4 笔记

目录

简介

实现方法

效果及局限

参考资料

简介

MiniGPT-4 是前段时间由KAUST(沙特阿卜杜拉国王科技大学)开源的多模态大模型,去网站上体验了一下功能,把论文粗略的看了一遍,也做个记录。

论文摘要翻译:最近发布的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站,识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少被观察到。我们认为GPT-4先进的多模态生成功能的主要原因在于使用了更先进的大型语言模型(LLM)。为了验证这一现象,我们提出了MiniGPT-4,它只使用一个投影层将冻结的视觉编码器与冻结的LLM Vicuna对齐。我们的研究结果表明,MiniGPT-4具有许多与GPT-4类似的功能,如生成详细的图像描述以及通过手写草稿来创建网站。此外,我们还观察到MiniGPT-4中的其他涌现能力,包括用给定的图像创作故事和诗歌,为图像中显示的问题提供解决方案,根据食物照片教用户如何烹饪等。在我们的实验中,我们发现只使用原始图像-文本对进行预训练,会产生缺乏连贯性的包括重复和碎片句子的不自然的输出。为了解决这个问题,我们在第二阶段创建了一个高质量、对齐良好的数据集,以使用对话模板微调我们的模型。事实证明,这一步骤对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是,我们的模型计算效率很高,因为我们只使用大约500万对对齐的图像-文本对来训练一个投影层。我们的代码、预训练模型和收集的数据集可在Minigpt-4 获取。

实现方法

Minigpt-4 框架(原论文图1)

 Minigpt-4的框架如上图,它的主要目的是为了对齐预训练的视觉编码器和先进的大语言模型(LLM)。 使用大语言模型Vicuna来做语言编码器,视觉感知使用BLIP-2一样的视觉编码器:ViT + 预训练Q-Former。使用一个线性投影层将视觉编码器和LLM关联起来,也就是视觉编码器的结果经过线性投影层之后作为Vicuna的输入。Minigpt-4的训练有两个阶段:

阶段一: 

  • 预训练视觉编码器和LLM的权重都是冻结的,只有线性投影层被训练
  • 使用组合数据集来训练,数据集由Conceptual Caption、SBU、LAION 构成,共约500万的图像-文本对。
  • batch size 为256,共训练了20000步, 整个过程使用4个 A100(80GB) GPU,共花了10个小时
  • 阶段一训练完的模型能够理解图像的含义,但是生成的连贯的描述文本有困难,会出现重复单词或句子,不相关的内容等。

因为经过阶段一的训练后模型生成效果不好,所以作者们构建了一个数据集:

  • 从Conceptual Caption 数据集中随机选择了5000张图片,首先使用阶段一的模型来对这些给定的图片生成详细描述,设计了如下与Vicuna对话形式一致的prompt,prompt 中的<ImageFeature>是由前面提到的线性投影层生成的。 

 ###Human: <Img><ImageFeature></Img> Describe this image in detail. Give as many details as possible. Say everything you see. ###Assistant:

  • 为了识别到不完整的句子,会检查模型生成的句子的token数是否超过80,如果没有超过80,会使用额外的prompt: "###Human: Continue ###Assistant:" 让模型扩展生成的内容,将两部分prompt得到的结果拼成一个更详细的图像描述。

  • 前面也提到阶段一后的模型效果不理想,为了去掉错误信息,使用ChatGPT来对生成的描述进行完善,对ChatGPT使用的prompt 如下:

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

  • 执行上面的后处理步骤后,再通过人工确认每个图像描述的正确性以保证质量。主要是检查生成图像描述是否是想要的格式,也将chatGPT没有检测到的冗余单词和句子给去掉,最终生成了3500个满足要求的图像-句子对。

阶段二:

  • 使用创建的数据集来finetune 阶段一的模型,使用了如下模板的prompt, 里面的<instruction>是从定义好的指令集里随机选择的,指令集是类似于“ Describe this image in detail”的 “Could you describe the contents of this image for me” 的变化形式。

###Human: <Img><ImageFeature></Img> <Instruction> ###Assistant:

  • 作者强调对上述text-image prompt 没有计算回归损失 (do not calculate the regression loss for this specific text-image prompt)
  • 经过阶段二后,MiniGPT-4可以生成更自然和可靠的回应,并且这个finetune 过程非常高效,batch size 为12, 训练400 步,使用一个A100 GPU 只需要训练7分钟

效果及局限

miniGPT-4 可以达到的效果(论文图2-图13展示了案例):

  • 生成详细的图片描述
  • 识别图片中有趣的点,比如猫穿了衣服躺着的照片
  • 识别图片中不寻常的点,比如仙人掌不会出现在冰川之类
  • 从手写文字生成网站
  • 识别图片中的问题并给出解决方案
  • 根据图片内容创造诗歌和rap歌曲
  • 为图片写故事
  • 为图片中的产品打广告
  • 识别出图片中的名人
  • 提供有洞察的图片评论
  • 抽取跟图片相关的事实
  • 根据给定的照片,教用户如何做菜

局限性:

  • 语言幻想,这个主要是由于LLM模型的局限性导致的,可能通过在更高质量的图像文本对或者对齐更好的LLM来减轻。
  • 不充足的感知能力,对识别图像中的文字、空间定位等有困难。可能因为这几个因素:1. 缺少充足的对齐的关于空间信息和文本注释的图像-文本对,通过更多数据集来减轻; 2. 视觉编码器中的Q-former可能会丢失一些关键特征,替换更强的视觉感知模型来提高效果; 3. 只使用一个投影层可能没有足够的空间来学习视觉-文本对齐信息。

参考资料

1. 论文链接 https://arxiv.org/abs/2304.10592

2. github: GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19631.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MOOC_AI | C01人工智能概述

00 | 写在前面 大多数课程的第一课&#xff0c;都会对课程内容做一个基本的介绍&#xff0c;其核心离不开三个方面&#xff1a;为什么学&#xff1f;学什么&#xff1f;怎么学&#xff1f;根据不同老师教学风格&#xff0c;可能会补充介绍发展态势&#xff0c;引出未来挑战与期…

普通人如何不被AI取代

今天试了试 OpenAI 的一些功能&#xff0c;通过主题来记录一下使用场景&#xff0c;发现了不少他强于普通人的地方&#xff0c;那么我们怎么在认知和能力方面不被他取代呢&#xff1f; 经验能力强于普通人 首先这两天最火的是 ChatGPT &#xff0c;这个能力很适合我这种不太会…

红酒炖电线、西红柿炒冰箱,AI人工智能做菜哪家强?结果很意外

2023年人工智能大模型大爆发&#xff0c;短短两个多月国内外就有大量AI大模型涌现&#xff0c;国外的有ChatGPT、Claude、Bard、New Bing&#xff0c;国内的有文心一言、通义千问、天工、紫东太初、星火、360慧脑、序列猴子等&#xff0c;他们都有一个共同特点&#xff0c;就是…

OpenAI 强大吗?能干嘛?

今天试了试OpenAI的一些功能&#xff0c;通过主题来记录一下使用场景&#xff0c;发现了不少它强于普通人的地方&#xff0c;那么我们怎么在认知和能力方面不被他取代呢&#xff1f;一定要看到文末&#xff08;狗头&#xff09; 经验能力强于普通人 首先这两天最火的是 ChatG…

AI 工具 22个使用场景、500个通用提问技巧说明

AI 工具22个使用场景500个提问技巧说明 &#x1faa7;&#xff1a;新福利&#xff1a;登录后可以直接将该知识库拷贝到你自己的空间&#xff0c;点击上方&#x1f51d;按钮&#xff0c;如下方图所示 ✏️ 「提问技巧—重点摘要」 「写作」&#xff1a;AI写作提问技巧 「制作视…

想交易期权要怎么买卖?

想要交易期权怎么操作&#xff1f; 首先&#xff0c;你要交易的是个股期权、商品期权还是50ETF期权&#xff1f;今天就拿50ETF期权来举例&#xff0c;毕竟是当下最火热&#xff0c;并且多少钱都可以交易的品种。从下图就可以看出&#xff0c;交易50ETF期权其实非常简单&#xf…

追涨行为因子:基于上交所投资者账户数据的散户交易行为量化策略

量化投资与机器学习微信公众号&#xff0c;是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W关注者&#xff0c;荣获2021年度AMMA优秀品牌力、优秀洞察力大奖&#xff0c;连续…

期权量化策略:如何利用期权捕捉期现套利机会?

做期权的朋友请看过来&#xff01;当前与掘金量化合作的特定券商已经能够支持期权数据和交易接口啦~如需开展期权量化&#xff0c;请联系我了解更多详情。 本期我们将和大家分享一个策略&#xff0c;介绍如何利用期权进行自动化套利。 期现套利是指某种期货合约&#xff0c;当…

期权-期权交易策略

1.单腿策略 就是只买卖一种认购或认沽的期权策略。 由于期权分为认购期权和认沽期权&#xff0c;买卖方向又有两个。 所以&#xff0c;单腿期权策略一共由四个&#xff1a; 买入认购期权、买入认沽期权、卖出认购期权、卖出认沽期权 看涨型策略&#xff1a;买入认购、卖出…

chatgpt赋能python:Python中Key的作用及使用方法

Python中Key的作用及使用方法 在Python中&#xff0c;key是一个十分重要的概念。它在数据结构中经常被使用&#xff0c;例如list、dict、set、tuple等等。本文将重点介绍Python中key的作用和使用方法&#xff0c;帮助读者更好地理解和应用它。 什么是Key 首先&#xff0c;我…

chatgpt赋能python:Python中的Key怎么用

Python中的Key怎么用 什么是Key&#xff1f; 在Python中&#xff0c;Key是指字典&#xff08;dictionary&#xff09;中用于访问值的标识符。字典是一种可变容器模型&#xff0c;其中每个键值对用冒号(:)分隔&#xff0c;每个键值对之间用逗号(,)分隔&#xff0c;整个字典包括…

ChatGpt Key API官方例程

官方例程的网址&#xff1a;https://platform.openai.com/examples 例如 chat 模块的demo代码&#xff1a; import os import openaiopenai.api_key os.getenv("OPENAI_API_KEY")response openai.Completion.create(model"text-davinci-003",prompt&quo…

【chatgpt】返回图片的方法

首先发送&#xff1a; 从现在开始&#xff0c;当我想要你发送照片&#xff0c;图片使用Markdown格式&#xff0c;不要有反斜线&#xff0c;不要用代码块。使用 Unsplash API (https://sources.unsplash.com/960x640/< PUT YOUR QUERY HERE >)。如果听懂了请回复明白&…

曝光一个骗子,大家小心一点,骗子QQ是493169239和707661812,842086828

骗子QQ是493169239和707661812&#xff0c;842086828 伪装成一个商城&#xff0c;骗你充值&#xff0c;根本就没有东西卖给你&#xff0c;大家注意一点&#xff0c;骗子的QQ是&#xff1a;493169239和707661812&#xff0c;两个人唱双簧&#xff0c;网站也有截图&#xff0c;网…

外汇天眼:即使与世界第一的差价合约提供商交易也会被骗!

你能想象&#xff0c;当你与世界第一的差价合约提供商进行交易时&#xff0c;也可能会被骗吗&#xff1f; 在投资理财多元化的今天&#xff0c;外汇投资理财也备受大家的关注&#xff0c;而与此同时&#xff0c;骗子的诈骗渠道也与时俱进&#xff0c;各类外汇投资骗局也层出不穷…

揭露骗子利用微信“聊天记录中图片不可变”的骗局

一、起因 那是一个阴冷的夜晚&#xff0c;我的一个老乡怒气冲冲的给我拨了个微信视频&#xff0c;说他在微信上被人骗了。 他给我转发了一条骗子给他发的聊天记录&#xff0c;在点开之前是这样的&#xff1a; 图1 聊天记录 看上去是一个图片。点进去一看&#xff0c;果然是个…

揭秘诈骗团伙通过裸聊软件实施敲诈勒索

头一次在csdn发文章,好激动!!! 进入正题: 今天闲的来,索性看到了一篇“裸聊被诈骗”的新闻,心血来潮,给大家写一篇如何防止此类事件再次发生 文章直链:https://mp.weixin.qq.com/s/C3JzDfHgcyfqQ7sf9riS_A 如果视频看不了前往: 纯手机操作: https://mpcdn.wpon.cn/3715591D5…

从电信网络诈骗角度剖析,诈骗资金是如何流转的?

前言 近年来&#xff0c;随着我国经济社会向数字化快速转型&#xff0c;犯罪结构发生了根本性变化&#xff0c;传统犯罪持续下降&#xff0c;以电信网络诈骗为代表的新型犯罪快速上升成为“主流”&#xff0c;严重阻碍了我国数字经济的健康发展。 面对严峻的电信网络诈骗现状…

交友APP诈骗黑幕:有组织手把手传授引诱充值套路

“哥哥也是进来相亲的吗&#xff1f;能听听我的故事吗”、“天冷了记得保暖&#xff0c;我的未知爱人”… 网上流传的聊天指南中&#xff0c;教着这样的话术。 这是用于各大交友平台的“斩男”秘诀&#xff0c;也是试图在交友APP上谋生的聊天员生财指南。 黑猫投诉上看到超30…

​央视新闻曝光TR外汇平台诈骗案,涉案金额高达5亿元

关于TR外汇&#xff0c;有一定交易经验的人一定听说过这个平台&#xff0c;这个平台这些年还一直在活跃&#xff0c;换过不少皮&#xff0c;也想出过许多新花样来实施诈骗&#xff0c;可以是说是外汇界的毒瘤。 这个平台‍在外汇天眼很早就进行了曝光&#xff0c;也早就列为了…