比OpenAI更快一步,最新开源的MiniGPT-4模型可让开发者提前感受GPT-4识图能力!...

a823aa59da1f946c1ed8f5c740420dc0.gif

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

迄今为止,GPT-4 凭借多模态能力已经成为 AI 领域备受关注的大模型,不过值得注意的是,OpenAI 在推出 GPT-4 时虽然引入了对图像理解的能力,但并没有在除了 Be my Eyes(针对盲人或弱视人士的应用程序和服务)应用程序之外的任何地方提供此功能。

GPT-4 对图像理解能力的示例详见:

用户:这幅画有什么好笑的地方?逐一描述它的板块。

b85784a3b6875d1d3a99960227446c78.png

图片来源:https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/

GPT-4:图片显示的是一个 "Lightning Cable "适配器的包装,有三个板块:

板块1:一部智能手机,VGA 连接器(通常用于电脑显示器的大型蓝色 15 针连接器)插在其充电端口。

板块2:"Lightning Cable "适配器的包装上有一张 VGA 接口的图片。

板块3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。

这张图片的幽默感来自于将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。

近日,来自沙特阿拉伯阿卜杜拉国王科技大学的研究团队推出了一款名为 MiniGPT-4 的新模型,以开源的形式提供了此功能。

研究人员还透露,MiniGPT-4 具有许多类似于 GPT-4 所展示的功能,下文我们也将分享相关的实例。

21a9775de4c6d6b025875ca7896d144d.png

可执行复杂的视觉语言任务的 MiniGPT-4

该团队发现尽管 GPT-4 表现出非凡的能力,但是其特殊能力背后的方法并不为众人所熟知。因此,他们提出「GPT-4 具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)」这一想法。

为了验证这一想法,他们便提出了 MiniGPT-4 模型。

根据研究团队发布的论文显示,为了构建 MiniGPT-4,研究人员使用了基于 LLaMA 构建的 Vicuna 作为语言解码器,并使用 BLIP-2 视觉语言模型作为视觉解码器。

其中,Vicuna 和 BLIP-2 都是开源的。这意味使用开源软件可以用较少钱进行训练和微调,并且没有海量数据和开销,这也是为什么这个模型加上了“mini”的前缀。

89f79b512ad6317b600f7a2a0c814dea.png

在实验中,该团队发现只对原始图像-文本对进行预训练会产生不自然的语言输出,包括重复和零散的句子,缺乏连贯性。为了解决这个问题,其在第二阶段策划了一个高质量、一致性好的数据集,利用对话模板对此模型进行微调,这一步被证明对提高模型的生成可靠性和整体可用性至关重要。

具体来看,研究团队分两个阶段训练了 MiniGPT-4 模型。

第一阶段,研究团队首先在四张 NVIDIA A100 显卡上利用了大约 500 万个对齐的图像-文本对,让 MiniGPT-4 进行了十个小时的训练。在第一阶段之后,Vicuna 能够理解图像。但是 Vicuna 的生成能力受到了很大的影响。

为了解决这个问题并提高可用性,研究人员提出了一种通过模型本身和 ChatGPT 一起创建高质量图像文本对的新方法。因此,展开了第二阶段的微调训练,该模型使用 MiniGPT-4 和 ChatGPT 之间的交互生成的 3,500 个高质量文本图像对进行了改进。ChatGPT 更正了 MiniGPT-4 生成的不正确或不准确的图像描述。

这一步显著提高了模型的可靠性和可用性,MiniGPT-4 能够连贯地和用户友好地谈论图像,并且只需要在单个 NVIDIA A100 上进行七分钟的训练。让研究人员自己都感到惊讶的是,这个阶段的计算效率很高。

1f3b3d7f6579f53c2d3a2bb0d0792fb8.png

MiniGPT-4 架构

MiniGPT-4 Vicuna 的语言模型遵循 "Alpaca 公式",使用 ChatGPT 的输出来微调 LLaMA 系列的 Meta 语言模型。据说 Vicuna 与 Google Bard 和 ChatGPT 相当,同样只需相对较小的训练工作量。

当前,该研究团队已经将 MiniGPT-4 的代码、预训练的模型和收集的数据集在 GitHub 上开源:https://minigpt-4.github.io/。

9b697c605118fa772aa617243dddb6d6.png

拥有和 GPT-4 相似的图片解析功能

正如开头所述,该研究团队推出的 MiniGPT-4 拥有和 GPT-4 相似的功能。譬如:

给它一张图,便能生成详细的图像描述:

fde479a4c1dba047a46af6bc6ca92ba2.png

也能讲出图片中搞笑、有趣的部分:「星期一通常被认为是一周中最令人恐惧的一天」。

72d2be902d625b114134ccb6ef0be695.png

还能在进一步交互中发现不寻常的内容,如:虽然仙人掌有可能在寒冷的气候条件下生长,但很少看到仙人掌生长站在冰冻的湖泊中间。此外,水面上形成的大冰晶也不是常见的现象。

于是,MiniGPT-4 给出了自己的见解:这张图片很可能是数字创作或操控的。

60eacec52919f2c0a48cdc5791b3fd1d.png

当然,和 GPT-4 演示的一样,MiniGPT-4 也能根据手绘草图生成网站:

77c666fd9a6ce9de3ea9d540bbff736d.png

识别图像中的问题并提供解决方案:

4cb94bcba406b7cf0ca428164555b327.png

以及创造诗歌或说唱歌曲的灵感:

beee120c774134eac3f96ab0ddafc943.png

此外,也能根据图片续写故事,给产品做广告,对图像展现的画面进行评论、检索与图片有关的事实,以及当给定一张准备好的菜肴照片时,该模型可以输出(可能)与之匹配的食谱或者生成一个适合视障人士的图像描述。

24c41a050cec0998729c5d6c4e5ff3e1.png

1ceb64c597fb6dc53ed6fc626ac2ed0a.png

开源类 GPT-4 模型层出不穷

鉴于 OpenAI 没有透露太多关于 GPT-4 架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法的细节,强大的 LLM 的开源 MiniGPT-4 可能在研究方面具有重要意义。

对于 MiniGPT-4 的到来,也引发了一些 HN 网友的热议,有网友表示:

在技术层面上,这个研究团队正在做一些非常简单的事情--将 BLIP2 的 ViT-L+Q-former,用一个线性层连接到 Vicuna-13B,并在一些图像-文本对的数据集上只训练这个小层。

但结果是相当惊人的。它完全打败了 Openflamingo 和甚至原始的 blip2 模型。最重要的是,它比 OpenAl 的 GPT-4 图像模态更早到达。(这是)开源人工智能的真正胜利。

也有媒体评价到,「MiniGPT-4 是开源社区在很短时间内取得快速成功的另一个案例。前几天,开源聊天机器人 OpenAssistant 推出,使用从志愿者那里收集的指导数据进行训练,并打算最终成为一个 ChatGPT 的开源平替。这表明纯 AI 模型公司的护城河可能没有那么高。在这种趋势下,对于 OpenAI 公司而言,首先应该专注于使用 ChatGPT 插件为 GPT-4 建立一个合作伙伴生态系统,而不是现在就训练 GPT-5,这是有意义的。」

事实上,除了 OpenAssistant、MiniGPT-4 之外,GitHub 上也有网友盘点了近段时间来诞生的许多开源模型(https://github.com/nichtdax/awesome-totally-open-chatgpt),如  Databricks 推出的 Dolly 模型、类 ChatGPT 的 PaLM-rlhf-pytorch、OpenChatKit 等等,为此,你认为开源大模型在此趋势下会迎来什么样的发展机遇?欢迎留言分享你的看法。

关于 MiniGPT-4 模型的更多内容可参考:

项目地址:https://minigpt-4.github.io/

GitHub地址:https://github.com/Vision-CAIR/MiniGPT-4

论文地址:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

参考:

https://the-decoder.com/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/

8874a4b55f2e2870a8944ef97bc59746.gif

☞马斯克回应特斯拉上海工厂克扣员工绩效奖;苹果版余额宝上线,年利率4.15%;Fedora 38 发布|极客头条
☞从火山引擎新品发布会,看字节的数据飞轮如何转起来?
☞ChatGPT加剧恐慌?4成AIoT开发者认为AI会产生意识 | 中国AIoT开发者报告正式发布

74a00929702321006aa1c5f95fb82e52.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21873.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌Bard大升级:支持中文,识图功能上线

出品 | OSC开源社区(ID:oschina2013) 谷歌对话式 AI 产品 Bard 昨日发布了重要更新,现在已支持更多国家 / 地区和更多语言(包括中文)。 此外还添加了 Google Lens 功能 —— 可在 prompt 中使用图像,以及新…

ChatGPT类产品和技术的产生会带来哪些影响?

2023年3月15日,GPT-4的发布再次引爆互联网,原有的自然语言理解、推理和对话能力继续增强,更引入了识图等多模态识别功能,有研究认为可以将其视为“通用性人工智能”的初步阶段。在国内,百度同类产品“文心一言“的发布…

基于GPT-4的 IDEA 神仙插件,无需魔法,亲测好用!

近日,Intellij IDEA的插件商店,悄然上线了一个新的插件——Bito,据说可以基于GPT-4和ChatGPT来写代码。短短几天,已经有50多K的下载量了。 我帮大家试用了一下,亲测好用! 根据插件介绍显示,Bito…

ChatGPT大浪潮下,AIGC已经开始改造时尚行业了

编辑 | 机器之心 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心【AIGC】技术交流群 AIGC 这股风,吹到了时尚行业,会带来哪些生产力革新? 上线五天,用户破百万&am…

硅谷银行一夜倒闭,海量创业公司遭殃,工资房租统统拿不出

金磊 发自 凹非寺量子位 | 公众号 QbitAI 一夜之间,硅谷银行倒闭了。 这家最受科技和生命科学初创公司青睐的金融机构,就这么被美国联邦存款保险公司(FDIC)宣判了“死刑”。 事件影响之大,CNBC甚至这样评价&#xff1a…

让我们一起来看看可爱的猫咪吧

我想喜欢小猫咪的人,一定非常可爱和温柔吧 前言 这个视频中的小猫咪贼可爱,然后下面的那给进度条是只小猫咪走来走去的。 然后我就想可以拿进度条做点事情,一开始想搜一搜借鉴一下,但是根本没有这种高度自定义的。唉 经历 互联…

编写猫咪相册应用 HTML

文章目录 1. 标题元素标签2. p元素用于在网站上创建一段文本3. 注释4. 页面主要部分标识标签5. 通过使用img元素来为你的网站添加图片6. 使用锚点元素(a)链接到另一个页面7. 使用 section 元素将照片内容与未来的内容分开8. 无序列表(ul)元素,列表项(li)元素在列表中…

ChatGPT|一文读懂GPT-4!

前言 大家好,今天早上一早醒来,发现各大科技圈公众号平台开始刷屏OpenAI发布的新模型GPT4.0,看这个版本号就已经知道又是一大波特性的更新。 于是立马起来开始学习! GPT-4 发布视频(2023.03.15) www.youtub…

李彦宏谈文心一言:市场反馈符合预期;OpenAI CEO 承认害怕 ChatGPT;Twitter 将开源推荐算法源码|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGPT 拿测试 offer ?!

前段时间,全网都在说GPT,听说GPT能写代码、写用例、写算法、写论文、写策划方案、写日报周报新闻稿、种草笔记、视频脚本、作诗作词作曲、处理 Excel 。 心想:这也太厉害了吧!都能帮忙写代码和写用例了,我是不是要被取…

读脑术!由大脑信号构建高清视频的方法实现啦,Stable Dinfusion还能这么用

夕小瑶科技说 分享 来源 | 量子位 作者 | 金磊 现在,AI可以把人类脑中的信息,用高清视频展示出来了! 例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来: 看到过的水中的鱼儿、草原上的马儿,也…

人工智能之深度学习常见应用方向你都了解吗?(文末福利)

本文导读 从零带你了解深度学习常见的7大应用方向,包括:数字识别、图像识别、图像分类、目标检测、人脸识别、文本分类、聊天机器人。 1. 数字识别 数字识别是计算机从纸质文档、照片或其他来源接收、理解并识别可读的数字的能力,目前比较受…

GPT-4“王炸”发布,背后的这些问题你想到了吗?

今天GPT-4发布,看了一下,主要有这几个方面的飞跃式提升: 强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。 除此之外,GPT-…

chatGPT-4论文导读:百年未有之大变局-(1)(转载)

声明:本文已征得原作者:荔枝海豹,同意后转载。 原文链接:https://zhuanlan.zhihu.com/p/628494696 本文按照以下框架讲解,阅读时间大约15分钟,对技术要求能力为三颗星。 什么是GPT,GPT4出现之…

文心一言的大众化理解

首先它是什么? 文心一言(类似于于chatgpt(由浮点参数表示的深度神经网络大模型)的本质)(英文名ERNIE Bot)(基于飞桨深度学习平台和文心知识增强大模型)为百度基于文心大…

谈谈对GPT发展的一些思考(产品角度)

滁州西涧 韦应物 独怜幽草涧边生,上有黄鹂深树鸣。 春潮带雨晚来急,野渡无人舟自横。 作者:良知犹存 转载授权以及围观:欢迎添加微信号:become_me 搬运一下朋友圈写的一些小文字,分享一波。 核心&#xf…

ChatGPT最实用的提示(Prompts)写法有哪些?

OpenAI在D站的官方服务器上有一个prompt-library的频道,这个频道用于给各路大神展示和讨论其创建的prompt。上面有各种用途的prompt,比如私人助手用于写邮件、写专业论文的、各类角色扮演的、学习技能的等等。很多回答中已经提到了不少这类prompt。 而为…

标题:ChatGPT精准指令:用自然语言控制计算机

人们一直期望能够用自己的自然语言来控制计算机,而ChatGPT就是这样一款可以实现这一愿望的智能系统。利用最新的自然语言处理技术,ChatGPT可以接受用户输入的自然语言指令,并在计算机上实现相应的操作。本文将为您详细介绍ChatGPT精准指令的原…

玩转ChatGPT:Custom instructions (vol. 1)

一、写在前面 据说GPT-4又被削了,前几天让TA改代码,来来回回好几次才成功。 可以看到之前3小时25条的限制,现在改成了3小时50条,可不可以理解为:以前一个指令能完成的任务,现在得两条指令? 可…