微软发布「升级版」多模态大模型 Kosmos-2!新增局部理解能力,解锁实体级交互

夕小瑶科技说 原创
作者 | 小戏、ZenMoore

三个多月前,微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中发布了一个强大的多模态大模型 Kosmos-1,成功将感知与语言对齐,在 ChatGPT 的多轮对话与推理判断能力的基础上增加了图像识别与理解的能力,将大模型的能力从语言向视觉推进了一小步

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

而三个多月后,就在昨天,微软亚洲研究院更进一步,推出了 KOSMOS-1 的加强升级版 KOSMOS-2,相较于早期的多模态大模型,KOSMOS-2 解锁了多模态大模型的 Grounding Capability,获得了与输入进行对象级交互的能力,换言之 KOSMOS-2 可以真正将语言与视觉世界相互联系,举一个例子,如下图所示,当我输入一张图片,我希望让模型描述其中有什么时,模型并不仅仅是语言上给出一段文字说一个雪人在烤火,并且我们希望模型可以真正识别到哪里是雪人哪里是火堆,而 KOSMOS-2 则真正具有了这种不仅仅是语言上的描述,并且还可以识别图像之中实体的能力。

某种程度上说,多模态的大模型的这种能力奠定了通往具身 AI(Embodiment AI)的基础,为真正的多模态——语言、感知、行动与世界的大结合提供了启示,再来看一些例子,当用户输入“左眼的 emoji”,KOSMOS-2 可以成功定位到图片之中的心形(1),当输入有多少头牛在图片中,KOSMOS-2 不仅可以回答“Two”,还可以真正的定位到是哪两头牛(2),又如输入一张图片我们询问横幅上是什么字,KOSMOS-2 也能准确识别,并且给出定位(3)。

如果调换一下图片与语言的顺序,输入一张类似龟兔赛跑乌龟与兔子同步冲刺的图片,选中乌龟询问模型为什么 this animal (代指选中的乌龟)并不常见,KOSMOS-2 也可以有理有据的给出解释(4),代表模型可以理解框选的物体以及语言中 this 的指代,再如一个看图说话的场景,输入图片询问 what is it?KOSMOS-2 也成功定位到了画面的主体(5),或者一个框选两瓶饮料询问这两瓶饮料最大的不同,模型也能识别最大的不同在于 label,一个指柠檬,一个指西瓜。

而如果希望来一个全面的分割与解释,来看看 KOSMOS-2 是如何描述图片细节的,如下图所示,KOSMOS-2 不仅成功描述了画面内容,还为每个描述给出了定位

除了这种偏向感性的认识,来自微软的学者们还对 KOSMOS-2 的各项指标做了一系列的实验,实验分为两部分,一部分测评 KOSMOS-2 区别于 KOSMOS-1 的新能力即 Grounding Capability 的表现,另一部分则对比 KOSMOS-1 在通用的语言任务与 Perception-Language 任务展现 KOSMOS-2 的优势

作者采用了两类输入形式对 Grounding 能力进行测试,分别是 Phrase grounding 与 Referring expression comprehension。Phrase grounding 要求模型根据一个或多个短语生成出一组对应的边界框,而 Referring expression comprehension 任务则跟进一步需要模型通过给定的句子找到图片之中的实体,如下图所示:

对比传统微调模型,KOSMOS-2 表现相当亮眼,作为一种 Zero-shot 的模型,在 Phrase grounding 任务中,在指标R@1 上甚至击败了微调模型,且与其他更复杂的模型差距不大。而在 Referring expression comprehension 中,也大幅超过了对标的 Zero-shot 模型,在 RefCOCOg 中也取得了不俗的效果。

同时,作者也希望从对图像的理解出发对模型进行测评,对比之前的多模态大模型只能通过详细的文本描述将图像区域指代给模型的方法,KOSMOS-2 可以使用直接框图的模式,因此论文也希望测评模型是否真正理解了框选出的图像的内容,因此作者团队构建了一个 Referring expression generation 任务,并将 KOSMOS-2 在其中进行了实验:

在这一任务中,KOSMOS-2 的 Zero-shot 能力也让人印象深刻,并且在指标 CIDEr 上也成功击败了微调模型,取得了领先

而对比 KOSMOS-1,KOSMOS-2在一般的语言及视觉-语言多模态任务,包括图像描述(Image Captioning),视觉回答(Visual Question Answering),以及八个标准的语言任务上进行了实验:

对比 KOSMOS-1,KOSMOS-2 在获得了新的能力的同时,性能整体上与 KOSMOS-1 相当,并且在图像描述任务中还获得了一定的提升。在语言能力方面,KOSMOS-2 在 StoryCloze、HellaSwag、Winograd、Winogrande 和 PIQA 之中的性能都与 KOSMOS-1 相当,在 CB 之中有所下降但在 BoolQ 与 COPA 中有所提供,总的而言
KOSMOS-2 还是在获取新的强大能力的同时保持了自身的基础能力

那么,KOSMOS-2 是如何诞生的呢?其中一个核心就是作者构建的 Grounded 的图像文本对数据集,即 Grounded Image-Text Pairs(GRIT)。为了实现 KOSMOS-2 的 Grounding 能力,论文基于COYO-700M 和 LAION-2B 构建了一个 Grounded 图像文本对数据集,并与 KOSMOS-1 中的多模态语料库相结合进行训练。整体数据集构建分为两步,首先生成名词-短语-边界框的数据对,得到基础的训练数据,而为了使得模型获得处理复杂语言描述的能力,论文又将短语扩展为复杂的句子,从而扩展了模型的处理能力,数据集 GRIT 的整体构建过程如下图所示:

在经过两步构建之后,最终 GRIT 获得了大约 9100 万幅图像、1.15 亿个文本段落以及 1.37 亿个相关的边界数据框,在上图的表格中作者对比了 GRIT 与现存的 Grounding 数据集的规模。而基于此构建的 GRIT 数据集,KOSMOS-2 采用与 KOSMOS-1 相同的模型架构和训练目标对模型进行训练,值得注意的是,作者通过“超链接”的数据格式连接位置标记与相应的文本段落,整体训练策略与方式可以参考 KOSMOS-1 的论文。

总结与讨论

无疑,将自然语言真正的链接到视觉世界是实现智能的关键一步,而 KOSMOS-2 则有力的推进了视觉与语言更深层次的联系,实现了对象级感知图像区域的新能力,并且具有不俗的语言理解与图像识别的能力。当具身的 AI 真正进入现实世界,Grounding Capability 将是一个真正的基础能力,KOSMOS-2 的出现一定可以让一窥具身 AI 的真正曙光!

论文题目:

KOSMOS-2: Grounding Multimodal Large Language Models to the World

论文链接:

https://arxiv.org/pdf/2306.14824.pdf

项目链接:

https://aka.ms/GeneralAI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19185.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI居然能自动写论文?导师直言我都犯难了...

最近两个月以来,刷屏网络技术圈的莫过于chatGPT 莫属了!闲暇之余,自己也去注册了一个账号来看看它的魔力,毕竟也有很多博主抵挡不住其中的诱惑,好吧,我也抵挡不住,也就去开了openAI实验了一番&a…

ChatGPT 太火爆了,为什么不被开发者所欢迎?

可以说,ChatGPT是近几个月最受欢迎的话题之一,毕竟这个聊天机器人比它的前辈们“聪明”了很多,除了聊天之外,还会打草稿和编写代码,在某种程度上也能提高生产力。 记得 ChatGPT 最开始上线不久的时候,看到…

如何搭建公共聊天室

搭建公共聊天室 一、聊天室介绍 本聊天室主要运用了udp协议,应用于局域网范围之内,可以支持多个处于同一个局域网的主机在局域网内相互传递消息。本聊天室由一个服务器端和若干个客户端组成,由一台主机打开服务器端,其他主机通过…

实战:向人工智能看齐用Docker部署一个ChatGPT

文章目录 前言鉴赏chatgpt环境要求开始搭建云安装docker从docker仓库拉取chatgpt-web镜像创建容器并运行chatgpt-web创建容器启动chatgpt-web访问自己的chatgpt 总结 前言 目前GPT-4都官宣步入多模态大型语言模型领域了,大佬竟然还没有体验GPT么。作为一个资深搬砖…

ChatGPT | Poe AI—体验多个不同 AI 人工智能对话模型

近日,随着ChatGPT等AI产品不断推陈出新,问答平台Quora现也开放新的AI聊天机器人应用Poe,可供用户随意访问。用户可以向它提出问题,Poe从多种AI聊天机器人处获取答案,包括ChatGPT背后母公司OpenAI以及Anthropic等其他公…

MySQL 8.0原理与实战一网打尽,甲骨文数据库专家硬刚5年之作

一、MySQL 8.0势在必行 据权威数据库技术排名网站DB-Engines今年4月的最新数据,MySQL是全球最流行的开源数据库,没有之一。在所有数据库排名中,MySQL仅次于Oracle,“屈居”亚军之位。但大家从截图中可以看出,MySQL与O…

嵌入式音视频疑惑汇总

小小的脑袋里,大大的疑问,该文是博主在工作中遇见问题后,主要面向chatGPT学习的记录笔记 1、bypass hdr 是什么? “Bypass HDR” 是指绕过高动态范围(HDR)功能的一种设置。HDR 是指一种显示技术&#xff0…

40岁程序员谈修bug的心态问题

【CSDN 编者按】于程序员而言,如果说写代码是一种能力的体现,那么解决问题的能力也同等重要,排查问题的能力或许能决定你的职业生涯走的有多远。因此,常有人戏言,程序员不是写代码,而是在写 bug。本文作者是…

一次查找分子级Bug的经历,过程太酸爽了

“Debugging is like trying to find a needle in a haystack, except the needle is also made of hay.” Debug调试就像是在大片的干草堆中找针一样,只不过针也是由干草制成的。 在软件开发的世界里,偶尔会出现一些非常隐蔽的 Bug,这时候工…

ChatGPT 修得了别人的 Bug,修不了自己的!OpenAI 直指开源数据库 Redis 漏了底

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的火爆,超出了很多人的想象。今年初,根据 UBS(瑞士银行巨头瑞银集团)的一份报告显示,ChatGPT 推出仅两个月后,它在 2023 …

chatgpt赋能python:Python题库搜题:提高编程效率的利器

Python题库搜题:提高编程效率的利器 作为一名有10年Python编程经验的工程师,经常遇到需要快速查找解决问题的情况,而Python题库搜题是我常用的工具之一。本文将着重介绍Python题库搜题的功能和使用方法,以及如何通过优化搜索关键…

chatgpt赋能python:使用Python在SEO中找到完美数

使用Python在SEO中找到完美数 SEO是一项关键技能,它可以使网站或者博客在搜索引擎中获得更好的排名,吸引更多的访问者。Python是一门最流行的编程语言之一,它也是一个很好的SEO工具。本文将介绍如何使用Python来找到完美数,以帮助…

chatgpt赋能Python-python_jam

Python Jam:一个优秀的社区驱动Python学习平台 如果你正在寻找一个能够让你更进一步学习Python的平台,那么你可以考虑加入Python Jam社区。这是一个社区驱动的学习平台,旨在帮助Python学习者找到合适的资源和学习机会。 什么是Python Jam …

chatgpt赋能python:Python题目搜索软件:提升你的编程水平

Python题目搜索软件:提升你的编程水平 对于那些喜欢编程的人来说,学习Python是一个非常不错的选择。但是,学习Python的难度并不小,需要大量的时间和精力。一个好的学习方式是通过完成Python编程题目来加深对该编程语言的理解。但…

chatgpt赋能python:Python的题目该如何搜到答案?

Python 的题目该如何搜到答案? 如果你在学习 Python 的过程中遇到了问题,或者在工作中需要使用 Python 解决一些难题,那么你可能需要在网上搜索一些相关的题目和答案。但是,在众多的搜索结果中,究竟该如何找到最适合你…

当我跟ChatGPT说要写一本关于Python的教程书时。。。。

闲来无事,想让ChatGPT帮我列一份Python教程书的大纲。后续将尝试让ChatGPT根据这份大纲进行撰写。

chatgpt赋能python:Python描点画图详解:从基础到实战

Python描点画图详解:从基础到实战 Python是一种功能强大且易于学习的编程语言,它被广泛应用于机器学习、数据分析和可视化等领域。在数据可视化方面,Python有许多优秀的库和工具,其中最受欢迎的就是Matplotlib。我们将重点介绍如…

总结:一文搞懂chatGPT原理

目前关于chatGPT的资料过于零散,没有详尽所有知识点、系统概述的文章,因此,笔者作了这篇总结性文章。 训练过程总览 理清演化路径 预训练(pretrain) GPT-3概述 GPT 3模型的理念 GPT-3如何学习 数据集 指令微调 (Instruction Fine-Tunin…

【一文系列】一篇文章记录gpt API的使用过程(python版)

【一文系列】一篇文章记录gpt API的使用过程(python版) “一文系列”目标是仅通过一篇文章来解决一个类别问题,简洁高效,快速获取知识,提升技能。 文章目录 【一文系列】一篇文章记录gpt API的使用过程(pyt…

一个时代彻底结束了。

最近和几个大佬们吃饭,都感慨时间真的好快!85年的,如今都快40岁了。90后,也都快35了。有几个大佬经历了PC互联网时代,移动互联网时代。吃足了红利。如果是2010年开启的是移动互联网时代,那么从18年之后&…