1.2万Star!无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站

fd5a22cf3bfa23a927a812146cce0a40.gif

©作者 | 机器之心编辑部

来源 | 机器之心

GPT-4 已经发布一个多月了,但识图功能还是体验不了。来自阿卜杜拉国王科技大学的研究者推出了类似产品——MiniGPT-4,大家可以上手体验了。

对人类来说,理解一张图的信息,不过是一件微不足道的小事,人类几乎不用思考,就能随口说出图片的含义。就像下图,手机插入的充电器多少有点不合适。人类一眼就能看出问题所在,但对 AI 来说,难度还是非常大的。

ebaa697cda31c2dbac4c9e6ed8d2f9c1.png

GPT-4 的出现,开始让这些问题变得简单,它能很快的指出图中问题所在:VGA 线充 iPhone。

其实 GPT-4 的魅力远不及此,更炸场的是利用手绘草图直接生成网站,在草稿纸上画一个潦草的示意图,拍张照片,然后发给 GPT-4,让它按照示意图写网站代码,嗖嗖的,GPT-4 就把网页代码写出来了。

但遗憾的是,GPT-4 这一功能目前仍未向公众开放,想要上手体验也无从谈起。不过,已经有人等不及了,来自阿卜杜拉国王科技大学(KAUST)的团队上手开发了一个 GPT-4 的类似产品 ——MiniGPT-4。团队研究人员包括朱德尧、陈军、沈晓倩、李祥、Mohamed H. Elhoseiny,他们均来自 KAUST 的 Vision-CAIR 课题组。

28d56c2c2970ec7f2c5aa673a2bb3926.png

论文链接:

https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

论文主页:

https://minigpt-4.github.io/

代码链接:

https://github.com/Vision-CAIR/MiniGPT-4

MiniGPT-4 展示了许多类似于 GPT-4 的能力,例如生成详细的图像描述并从手写草稿创建网站。此外,作者还观察到 MiniGPT-4 的其他新兴能力,包括根据给定的图像创作故事和诗歌,提供解决图像中显示的问题的解决方案,根据食品照片教用户如何烹饪等。

fe67ffdeae6221529676eddebc5b9c8c.png

MiniGPT-4 看图说话不在话下

MiniGPT-4 效果到底如何呢?我们先从几个示例来说明。此外,为了更好的体验 MiniGPT-4,建议使用英文输入进行测试。

首先考察一下 MiniGPT-4 对图片的描述能力。对于左边的图,MiniGPT-4 给出的回答大致为「图片描述的是生长在冰冻湖上的一株仙人掌。仙人掌周围有巨大的冰晶,远处还有白雪皑皑的山峰……」假如你接着询问这种景象能够发生在现实世界中吗?MiniGPT-4 给出的回答是这张图像在现实世界并不常见,并给出了原因。

604003c4b70251c97fa97e7bfb726af7.gif

接着,在来看看 MiniGPT-4 图片问答能力。问:「这棵植物出现了什么问题?我该怎么办?」MiniGPT-4 不但指出了问题所在,表示带有棕色斑点的树叶可能由真菌感染引起,并给出了治疗步骤: 

5150bcc6333fa15d06835d154e3e226d.gif

几个示例看下来,MiniGPT-4 看图聊天的功能已经非常强大了。不仅如此,MiniGPT-4 还能从草图创建网站。例如让 MiniGPT-4 按照左边的草稿图绘制出网页,收到指令后,MiniGPT-4 给出对应的 HTML 代码,按照要求给出了相应网站:

0ce6b88127376a2276eebd36cb9db749.gif

借助 MiniGPT-4,给图片写广告语也变得非常简单。要求 MiniGPT-4 给左边的杯子写广告文案。MiniGPT-4 精准的指出了杯子上有嗜睡猫图案,非常适合咖啡爱好者以及猫爱好者使用,还指出了杯子的材质等等:

c79fb6add92062158796eae8294a5b38.gif

MiniGPT-4 还能对着一张图片生成菜谱,变身厨房小能手:

e1047b212e165ea5e5a62f46170fd499.gif

 解释广为流传的梗图:

125233b82b1d62f79c074856ba4db307.gif

根据图片写诗:

5056d1c5d9d684455314eee8a8f2c057.gif

此外,值得一提的是,MiniGPT-4 Demo 已经开放,在线可玩,大家可以亲自体验一番(建议使用英文测试): 

41bf18e9a3421ff41ee9878ed0b5be05.png

Demo地址:

https://0810e8582bcad31944.gradio.live/

项目一经发布,便引起网友广泛关注。例如让 MiniGPT-4 解释一下图中的物体:

2a088718ac9ea96cf5c3416015f3dc6c.png

下面还有更多网友的测试体验:

b00318a8bab821b6a97e288712c17f48.png

fac75d5b5d41aa86be3243ade9d25664.png

7a9279a2fa1bc564414e74def7976d34.png

方法简介

作者认为 GPT-4 拥有先进的大型语言模型(LLM)是其具有先进的多模态生成能力的主要原因。为了研究这一现象,作者提出了 MiniGPT-4,它使用一个投影层将一个冻结的视觉编码器和一个冻结的 LLM(Vicuna)对齐。 

MiniGPT-4 由一个预训练的 ViT 和 Q-Former 视觉编码器、一个单独的线性投影层和一个先进的 Vicuna 大型语言模型组成。MiniGPT-4 只需要训练线性层,用来将视觉特征与 Vicuna 对齐。

b7e8bbe165b173ebf05396852de2a455.png

MiniGPT-4 进行了两个阶段的训练。第一个传统的预训练阶段使用大约 5 百万对齐的图像文本对,在 4 个 A100 GPU 上使用 10 小时进行训练。第一阶段后,Vicuna 能够理解图像。但是 Vicuna 文字生成能力受到了很大的影响。

为了解决这个问题并提高可用性,研究者提出了一种新颖的方式,通过模型本身和 ChatGPT 一起创建高质量的图像文本对。基于此,该研究创建了一个小而高质量的数据集(总共 3500 对)。

第二个微调阶段使用对话模板在此数据集上进行训练,以显著提高其生成可靠性和整体可用性。这个阶段具有高效的计算能力,只需要一张 A100GPU 大约 7 分钟即可完成。 

其他相关工作:

VisualGPT:

https://github.com/Vision-CAIR/VisualGPT

ChatCaptioner:

https://github.com/Vision-CAIR/ChatCaptioner

此外,项目中还使用了开源代码库包括 BLIP2、Lavis 和 Vicuna。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

·

689f4d2bcef406dade79981da3135401.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16364.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

闻达(Wenda):基于Chatglm6b的知识库+大语言模型融合项目

背景: 随着ChatGPT模型的一炮而红,大语言模型已然风靡全球,成为了全世界闪烁的焦点。目前,越来越多的研发人员投入到大语言模型的扩展开发中,闻达(Wenda)便是其中一项重要成果。 闻达源于清华大…

提示工程L1:关键原则

提示工程指南:关键原则 一、 环境配置 chatgpt使用有诸多限制,所以采用国产模型来代替,加载开源的chatGLM模型,使用ChatGLM-6b的INT8版本。 chatGLM6b在LLM匿名竞技场中的排名: import os import torch import war…

玩转系统|初遇ChatGPT,我和TA的第一次约会

最近互联网圈子有一个非常火爆的话题ChatGPT,短短一周的时间就有上百万的用户,如果你不是程序员,也许会问这到底是个什么玩意? ChatGPT是什么? ChatGPT,美国“开放人工智能研究中心”研发的聊天机器人程序 …

ChatGPT的智能性体现在哪里?就当前的发展路径而言,ChatGPT 还有更好的路可以走吗?

最近 ChatGPT 真的是太火爆了,连我儿子的小学老师都和我在微信上关于这个话题聊了很久。 ChatGPT 的智能性主要体现在它能够处理各种自然语言的问题,并且具备一定的理解、推理和生成能力。在语言理解方面,ChatGPT 可以理解语言的含义和语法结…

AI一点通: pandsAI, 给pandas 插上chatGPT的翅膀

Pandas AI 是一个Python库,通过整合生成式人工智能能力,增强了广泛使用的数据分析和处理工具Pandas。它专为与Pandas搭配设计,而非替代Pandas。 要安装该软件包,您需要安装 python 3.9 或更高版本。 pip install pandasaiPandas…

虚拟数字人重新定义金融服务形态,AI数字人助力金融业智能升级

近两年,我国虚拟数字人市场发展已初具规模,2022年上半年,我国虚拟数字人相关行业规模达750亿元,同比增长43.6%,已应用于多个领域并迅速出圈。特别是在金融行业已经初步实现落地应用,多家银行已经推出虚拟数…

【IoT】ChatGPT 与 AI 硬件

随着AI的发展,比如最近炒得很火的ChatGPT,还在持续快速迭代更新。 当然了,对于软件和算法,如果你想,每天迭代 10 个版本都可以。 包括科大讯飞的星火认知大模型最近也刚发布。 这就引出了未来一个更大的发展方向&am…

Midjourney之logo设计(建议收藏)

目录 宠物诊所的logo设计 常见的Logo类型 图形logo: 字母LOGO APP LOGO 进阶技巧 设置艺术家风格 去掉不需要的元素 ChatGPT Midjourney设计logo 聊天(国产):文心一言通义千问 绘图(国产) UI设计 ChatGP…

文旅业掀起虚拟人制作热潮,虚数字人为文旅行业打开营销新视界

近年来,多地政府陆续推出元宇宙政务大厅、文旅元宇宙、元宇宙商圈等“城市新名片”项目,从公共服务到日常生活,元宇宙与各行各业加速融合,数字经济新业态持续涌现,而作为元宇宙中最先落地的虚拟数字人,更是…

CnOpenData中国保险机构网点全集数据

一、数据简介 改革开放以来,中国保险行业飞速增长,在补偿灾害损失、维护社会安定、支持中国的经济建设等方面发挥了重要作用。整个行业的突飞猛进体现在三个方面: 一是保险机构数量增长迅速。中国保险公司的数量从1980年的1家迅速增加至200多…

ChatGPT风暴席卷全球,面对竞争普通人该如何应对被淘汰的风险?

近日,ChatGPT风暴席卷全球。据新闻报道:ChatGPT仅仅上线两个月,已获1亿月度活跃用户,成为历史上增长最快的面向消费者的应用。 特斯拉CEO马斯克也表示:ChatGPT好的吓人,我们离强大到危险的人工智能已经不…

保险公司需要中台吗?

关注ITValue,看企业级最新鲜、最具价值报道! 图片来源视觉中国 | 文章来源 BCG波士顿咨询 | “中台”一词突然在中国保险行业里火了起来。“解耦”、“API”、“微服务”、“去中心化”、“平台”……这些都成为和“中台”紧密相连的时髦词。“中台”前面…

保险机构如何保护客户信息安全?

澳大利亚医疗保险公司 Medibank 承认在近期的数据泄露事件中,有超过 390 万用户信息被曝光。 自本周二,Medibank 宣布所有客户数据都可能泄漏之后,对违规行为的调查现已确定黑客可以访问所有 Medibank、ahm和国际学生客户的个人数据&#xff…

保险后台管理系统/订单管理/保单管理/客户管理/咨询管理/保险原型/保单详情/客户详情/权限管理/部门管理/账号管理/保险系统原型/汽车保险后台管理系统/角色管理/咨询详情/axure原型/需求文档

保险后台管理系统/订单管理/保单管理/客户管理/咨询管理/保险原型/保单详情/客户详情/权限管理/部门管理/账号管理/保险系统原型/汽车保险后台管理系统/角色管理/咨询详情/axure原型/需求文档 Axure原型演示及下载地址:Untitled Documenthttps://4yyz3g.axshare.co…

国际数学日 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 14 日,在 143 年前的今天,1879 年 3 月 14 日,爱因斯坦诞辰。阿尔伯特爱因斯坦(Albert Einstein&#xff0…

通过与 GPT 对话实现零样本信息抽取

目前通用大模型取代为特定任务定制训练的专属模型的趋势逐渐显露,这种方式使AI模型应用的边际成本大幅下降。由此提出一个问题:不经过训练来实现零样本信息抽取是否可行? 信息抽取技术作为构建知识图谱的重要一环,如果完全不需要训…

ChatGPT对于数据安全的应用

数据安全分类分级与GPT的应用 文章目录 数据安全分类分级与GPT的应用前言一、ChatGPT模型二、上下文关联三、中文能力并不太好四、如何去训练一个符合心意的模型呢?总结 前言 经过两三个月的chatGPT的熟悉后,我对chatGPT的使用有了部分浅薄的经验&#…

ChatGPT,爆火背后的安全风险

随着《流浪地球2》在今年春节档的大热,影片中的“MOSS”作为“幕后主角”的话题度也大大增长,再加上近日ChatGPT作为“全能网友”的爆火,2023的开年,人工智能已经在大众面前怒刷了一波存在感。 MOSS是虚拟世界中超前的人工AI&…

AI绘画:数字时代的提示工程新兴应用

在数字时代,人们对于信息和素材的需求日益增长。随着技术的不断发展,AI绘画正逐渐成为一种应对这种需求的新兴技术。特别是在“提示工程”这一领域中,AI绘画可以发挥出更大的作用。 什么是AI绘画 AI绘画是指使用人工智能技术生成艺术作品的…

playgroundai:这款文生图AI,比文心一言更靠近真实

2023年3月16日,百度发布了文心一言,基于百度文心知识增强大模型研发。此前2022年8月19日,中国图象图形大会 CCIG 2022 在成都召开,百度就正式发布了 AI 艺术和创意辅助平台——文心一格,这是百度依托飞桨、文心大模型的…