微软发布多模态版ChatGPT!取名“宇宙一代”

41a266270814a4b179f93c3d47200a8e.jpeg

文|CoCo酱

Ludwig Wittgenstein曾说过:“我语言的局限,即是我世界的局限”。

大型语言模型(LLM)已成功地作为各种自然语言任务的通用接口,只要我们能够将输入和输出转换为文本,就可以将基于LLM的接口适应任务。尽管在自然语言处理中取得了成功的应用,但仍然难以将LLM用于处理多模态数据,例如图像和音频。

本论文提出了Kosmos-1,一种多模态大语言模型(MLLM),Kosmos-1可以感知常见模态,遵循指令和上下文学习。其目标是将视觉感知与LLM对齐,以便模型能够“看”和“说”

Kosmos和Cosmos同音,Cosmos是“宇宙”。

多模态感知能力对于LLMs至关重要,因为它可以使LLMs获得文本描述之外的常识知识,解锁多模态输入大大扩展了语言模型的应用范围,涉及多模态机器学习,文档智能和机器人等高价值领域。

概括

作者使用大规模的多模态语料库对KOSMOS-1进行了从零开始的训练,包括任意交错的文本和图像、图像标题对和文本数据。作者在各种任务上进行了评估,包括零样本、少样本和多模态思维链提示,而且不需要任何梯度更新或微调

baa61177b23334c8f14bb02ba18c8776.png

除了各种自然语言任务外,KOSMOS-1模型本身还可以处理广泛的感知密集型任务,包括视觉对话、视觉解释、视觉问答、图像标注、简单数学方程等,

MLLMs具备感知能力后,可以直接从屏幕读取信息或从收据中提取数字,实现多个API的统一。

看题作答,轻松搞定~不仅能“看懂”图像,还能对答如流,并且能进行一定的数学计算。6f601da1d69b8927d1fb8dfaf14c090f.png

甚至,看图进行连续对话功能也实现了。977e82c5bcfcc2d335bb3ca9e89efe2a.png

作者还发现,MLLMs可以从跨模态转移中受益,即从语言到多模态和从多模态到语言的知识转移。此外,作者还介绍了一个Raven IQ测试数据集,用于诊断MLLMs的非语言推理能力。

Multimodal Large Language Model (MLLM)

KKOSMOS-1是基于Transformer语言模型,通过自回归方式学习生成文本。除了文本外,其他模态转成embedding后喂给模型。该模型在多模态语料库上进行训练,包括单模态数据、交叉模态配对数据。

该框架可以灵活处理各种数据类型,只要我们可以将输入表示为向量即可。MLLMs完美地融合了两大优势:1、语言模型自然地继承了上下文学习和指令跟随的能力。2、通过在多模态语料库上训练,补齐了语言模型的多模态感知能力。

MLLMs作为通用接口,可以处理自然语言和多模态输入。对于输入格式,我们使用 <s>和</s> 来表示序列的开始和结束。特殊标记<image>和</image>表示图像嵌入的开始和结束。例如,“<s> document </s>”是一个文本输入,“<s> paragraph <image> Image Embedding </image> paragraph </s>”是一个图像文本输入。获得输入序列后,将它们输入到Transfomer的解码器中,使用Softmax分类器来生成下一个预测。

我们使用MAGNETO(Transformer的变体)作为模型的主要结构,因为它训练稳定且非常适合多模态场景,它为每个子层引入额外的layernorm,且理论上拥有更好的初始化方法。为了更好地进行长序列建模,采用了名为 XPOS 的相对位置编码技术。该方法能够更好地适应不同长度的训练和测试序列,并且能够优化注意力分辨率,从而能够更精确地捕捉位置信息。

训练数据

训练数据集包括文本语料库、图像标题对和交错的图像和文本数据。

文本语料库我们用The Pile和Common Crawl (CC)训练我们的模型。The Pile是一个用于训练大规模语言模型的大型英文文本数据集,排除了来自GitHub、arXiv、Stack Exchange和PubMed Central的数据。还使用了Common Crawl快照(2020-50和2021-04)数据集、CC-Stories和RealNews数据集。已经去重并且过滤掉了下游任务数据。

图像标题对数据集,包括英文LAION-2B、LAION-400M、COYO-700M 和Conceptual Captions。图像文本数据是从Common Crawl快照中收集的多模态数据,这是一个公开可用的网页存档,从原始2B网页中选择约71M网页,从网页的HTML中提取文本和图像。对于每个文档,我们将图像的数量限制为五个,以减少噪声和冗余。

模型细节

KKOSMOS-1模型有24层,32个注意力头,Hidden size是2048,FFN隐层是8192维,大约有1.3B个参数,使用Magneto的初始化。为了更快的收敛,图像编码模型用CLIP ViT-L/14模型。我们在训练期间冻结除最后一层外的CLIP模型参数。所以KOSMOS-1的总参数数量约为1.6B。

Batchsize大小设置为120万个token(文本语料库500万,图像标题对500万,来自文本图像交错数据200万),训练了300k步,过了约3600亿个token。

为了更好地将KOSMOS-1与人类指令对齐,我们进行语言指令微调。具体来说,我们继续使用(指令,输入和输出)格式的指令数据对模型进行训练。指令数据是纯语言的,与训练语料混合在一起。将Unnatural Instructions和FLANv2 结合起来作为我们的指令数据集。Unnatural Instructions是使用大型语言模型为各种自然语言处理任务生成指令的数据集,有68,478个指令输入输出三元组。FLANv2是一系列涵盖各种类型语言理解任务的数据集,例如阅读理解,常识推理和封闭式问答。我们从FLANv2中随机选择54k个指令示例来增强我们的指令数据集。

实验效果

我们评估了KOSMOS-1在各种类型的任务上的表现,包括:

• 语言任务:语言理解、语言生成、无OCR文本分类 

• 跨模态转移:常识推理

• 非语言推理 :智商测试 

• 视觉-语言任务:图像标注、视觉问答、网页问答 

• 视觉任务:zero-shot图像分类、带描述的zero-shot图像分类

非语言推理能力测试

非语言推理能力通常反映了个人的智商 (IQ)。模型在没有明确微调的情况下进行零样本非语言推理。RavenIQ测试类似于语言模型的上下文学习,区别在于上下文是非语言的还是语言的。为了推断出答案,模型必须识别抽象概念并识别给定图像的潜在模式。因此,IQ任务是衡量非语言情境学习能力的一个很好的测试平台。图4显示了一个示例,给定在 3 × 3 矩阵中呈现的八张图像,任务是从六个相似的候选者中识别出正确图形。

1c7ce1397d3f05b02730715f79414f5d.png f9ff34ad7132a9ef97edd3b373d28f2a.png

多模态思维链提示测试

思维链是模型发展到一定智能水平才突现出的高级能力,思维链提示允许大型语言模型生成一系列推理步骤并将复杂问题分解为多个子步骤解决。受思维链提示的启发,我们研究了KOSMOS-1的多模态思维链提示能力。

将感知语言任务分解为两个步骤:给定图像,使用提示引导模型生成描述,然后再进行问答。下面一个例子中,如果直接提问,模型给出了错误答案,但如果先提示模型:请描述下图片里的内容,然后再提问就会得到正确答案了。

b5647fa0d570c245c7876a98959a2aa6.png

视觉-语言任务测试

在zero-shot设置下,KOSMOS-1在两个图像标注数据集上取得了显着的效果。2f74a216856ad4427d8ce18c2f1a8559.pngk=2,4,8的few-shot设置下的指标4fc6ca8b82ec1f8f9227adcf57c2cf8a.png

作者还测试了图像分类、视觉问答等多个任务上的模型表现,KOSMOS-1都有显著的提升。具体任务测试有兴趣可以去看下原文。

跨模态迁移

跨模态可转移性允许模型从一种模态(如文本、图像、音频等)中学习,并将知识转移到其他模态。这种技能可以使模型在不同模态下执行各种任务。我们评估了KOSMOS-1在几个基准测试中的跨模型可转移性。

从语言到多模态的转移:仅语言指令调整

为了评估仅用语言指令调整的效果,我们使用了四个数据集进行消融研究:COCO、Flickr30k、VQAv2和VizWiz。这些数据集包括图像标注和视觉问答。评估指标为:COCO/Flickr30k的CIDEr分数和VQAv2/VizWiz的VQA准确性。6cbfb5a06de7088f863e6f91c77521d2.png

实验表明,仅语言指令调整可以显着提高模型在不同模态下的指令跟随能力。结果还表明,我们的模型可以将指令跟随能力从语言转移到其他模态。

从多模态到语言的转移:视觉常识推理

视觉常识推理任务需要理解现实世界中日常物品的属性,如颜色、大小和形状。这些任务对于语言模型来说是具有挑战性的,因为它们可能需要更多有关物体属性的信息,而这些信息在文本中并不容易获取。为了研究视觉常识能力,我们比较了KOSMOS-1和LLM在视觉常识推理任务上的零样本性能,使用纯文本作为输入,不包含任何图像。5fd740eaca66527ac9a9f3332a4b8919.png

通过对比,结果表明KOSMOS-1在三个数据集上的表现均优于LLM,相对大小数据集上提高了1.5%,记忆颜色数据集上提高了14.7%,颜色术语数据集上提高了9.7%。这表明KOSMOS-1可以从视觉知识中获益,完成相应的视觉常识推理任务,而LLM只能依靠文本知识和线索来回答视觉常识问题,这限制了其推理物体属性的能力。

结论

语言和多模态感知的大融合是实现通用人工智能的关键一步。本文提出了KOSMOS-1,一个多模态大型语言模型,它可以感知多种模态,遵循指令,并进行上下文学习。通过在多模态语料库上进行训练,实现从LLM到MLLM的转变。未来可能的工作包括提高KOSMOS-1的模型规模,并将语音能力整合到其中。此外,KOSMOS-1可以作为多模态学习的统一接口,例如,可以使用指令和示例来控制文本到图像的生成。

81240b8ba86ac8d0859ef14a8d949d8b.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2859.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

元宇宙的初认识以及未来

欢迎关注元宇宙的各位朋友 &#xff08;1&#xff09;自我介绍 本人作为不知名的三维重建小白&#xff0c;一直在想&#xff0c;三维重建除了配合车企进行无人驾驶SLAM方面的落地工程&#xff0c;还能有什么更加具有创造力的方向呢&#xff1f;AIGC和ChatGPT给我了一丝的灵感…

元宇宙与AI能否相辅相成,打造一个全新的世界观

前言 这段时间随着OpenAI 推出了ChatGPT及GPT-4架构&#xff0c;一时间各大区域几乎都被AI给刷屏了。上次被这样广泛流传的应该当属 元宇宙 了&#xff0c;元宇宙 最初被提及还是在1990年的科幻小说《雪崩》里被提出来。但是最近一段时间关于 元宇宙 的信息似乎变少了很多&…

人工智能前沿——「全域全知全能」人类新宇宙ChatGPT

&#x1f680;&#x1f680;&#x1f680;OpenAI聊天机器人ChatGPT——「全域全知全能」人类全宇宙大爆炸&#xff01;&#xff01;&#x1f525;&#x1f525;&#x1f525; 一、什么是ChatGPT?&#x1f340;&#x1f340; ChatGPT是生成型预训练变换模型&#xff08;Chat G…

还在用chatGPT聊天?《元宇宙2086》已开始用AIGC做漫画连载了!

ChatGPT 是由 OpenAI开发的一个人工智能聊天机器人程序&#xff0c;于 2022 年 11 月推出。该程序使用基于 GPT-3.5架构的大型语言模型并通过强化学习进行训练。 ChatGPT 目前仍以文字方式互动&#xff0c;而除了可以透过人类自然对话方式进行交互&#xff0c;还可以用于相对复…

ChatGPT与元宇宙营销场景结合是一种非常有效的解决方案

在当今的商业环境中&#xff0c;营销是至关重要的。然而&#xff0c;营销不仅仅是一个广告语或一个宣传活动&#xff0c;它需要更深入的思考和策略。 这是ChatGpt可以发挥其作用的地方。ChatGpt是一种强大的语言处理工具&#xff0c;它可以帮助您在元宇宙营销场景中实现语言处理…

ChatGPT引发全球狂潮,它会是下一个元宇宙吗

ChatGPT作为全新的人工智能&#xff08;AI&#xff09;语言模型&#xff0c;诞生于2022年11月30日&#xff0c;在上线两个月之后&#xff0c;ChatGPT便获得1亿月活用户。现在&#xff0c;其引发的狂潮席卷科技产业&#xff0c;围绕ChatGPT的技术军备竞赛正热火朝天&#xff0c;…

巴比特 | 元宇宙每日必读:ChatGPT抢走了元宇宙的风头?元宇宙中小公司称业务暂未受影响,投资人称仍然关注应用层的突破和创新...

摘要&#xff1a;元宇宙赛道真的进入低谷了吗&#xff1f;剁椒TMT对话多家元宇宙公司、行业投资人后发现&#xff0c;随着大厂在XR业务方面的调整&#xff0c;资本对硬件设备也变得更加谨慎。不过&#xff0c;尽管对元宇宙的悲观论调在行业中盛传&#xff0c;但是&#xff0c;中…

ChatGPT火爆,元宇宙“熄火”?别操之过急,也别敷衍了事

近期&#xff0c;在ChatGPT火爆的同时&#xff0c;元宇宙“遇冷”的消息引起关注。据科技圈流传&#xff0c;大量元宇宙聊天群一夜之间改名为ChatGPT聊天群。 ChatGPT火爆出圈导致元宇宙“熄火”&#xff0c;真的是这样吗&#xff1f;ChatGPT与元宇宙二者有怎样的底层逻辑关联&…

元宇宙虚火烧尽 日产“逆势”布局

风口总消散在新一轮的风口下。 席卷资本市场的ChatGPT令元宇宙显出明日黄花之态&#xff0c;当潮水退去&#xff0c;市场回归理性&#xff0c;身处元宇宙时代的玩家们已然走到了十字路口&#xff0c;汽车企业日产做出选择——逆势布局。 今年3月&#xff0c;日产创建汽车虚拟…

ChatGpt在元宇宙娱乐领域的应用能够带来哪些价值?

对于娱乐业来说&#xff0c;元宇宙能够带来无限的可能性&#xff0c;元宇宙公司广州华锐互动一直致力于元宇宙娱乐领域开发&#xff0c;而ChatGPT的热度持续攀升&#xff0c;我们也发现了ChatGPT在元宇宙娱乐领域可以用于许多不同的应用场景&#xff0c;包括&#xff1a; 1、聊…

飞熊观察:ChatGPT不是取代元宇宙,而是丰富元宇宙内容

随着ChatGPT近期火热&#xff0c;有人人为热点已经从元宇宙转换为ChatGPT了。他们有很多实例说明这种改变&#xff0c;如Meta全年亏损额达到137亿美元&#xff0c;疯传Meta正在准备新一轮裁员&#xff1b;如微软解散刚刚成立仅四个月的工业元宇宙团队等等。其实从笔者看来&…

【广州华锐互动】ChatGpt在元宇宙游戏领域有哪些应用场景?

游戏已经成为了许多人的娱乐方式。然而&#xff0c;如何提高游戏体验仍然是一个关键的问题。这里&#xff0c;我们介绍一种新型的技术&#xff1a;ChatGpt。 ChatGpt是一种基于自然语言处理的人工智能技术&#xff0c;可以帮助游戏开发人员制作出更加智能的游戏。它可以在元宇宙…

一分钟拥有ChatGPT!

一分钟拥有ChatGPT&#xff01; 1、打开Microsoft Edge&#xff1b; 2、选择“扩展”->“管理扩展”&#xff1b; 3、选择“获取Microsoft Edge扩展”&#xff1b; 4、在“最热门”中选择获取“WeTab-免费ChatGPT新标签页”。若“最热门”中无该插件&#xff0c;则可在搜…

ChatGPT注册找我

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

阿里版 ChatGPT 突然上线!

转自:纯洁的微笑 其实早本月初&#xff0c;就传出过不少阿里要推出类ChatGPT的消息。 前几天率先流出的天猫精灵“鸟鸟分鸟”脱口秀版GPT&#xff0c;就是基于大模型的“压缩版”&#xff0c;已经以其惊艳表现吸引了众目光。 如今“原版大菜”上桌&#xff0c;自然一点即着&a…

ChatGPT专业应用:生成Meta description

正文共 555 字&#xff0c;阅读大约需要 2 分钟 网站编辑/SEO投放必备技巧&#xff0c;您将在2分钟后获得以下超能力&#xff1a; 生成meta description Beezy评级 &#xff1a;B级 *经过简单的寻找&#xff0c; 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | L…

最新ChatGPT商业运营版网站源码+支持AI绘画+支持用户会员套餐+邀请分佣功能+支持后台一键更新+网站后台管理+永久更新!

最新ChatGPT商业运营版网站源码支持AI绘画支持用户会员套餐邀请分佣功能支持后台一键更新网站后台管理永久更新&#xff01; AI付费创作系统: 如果后续程序有新版&#xff0c;直接在后台一键更新即可&#xff01; 程序完美运行无BUG&#xff0c;独家开发&#xff0c;支持6种会员…

2023最新商业版ChatGPT网页版源码V3.9+支持用户付费/功能强大

正文: 3.9版本已经更新&#xff01; 安装教程: 搭建宝塔 解析域名 上传程序至根目录 配置数据库信息:lib/config.php 导入数据库 PHP选择:7.3 访问网页即可&#xff01; 配置APIKEY&#xff0c;登录网站后台自定义配置&#xff0c;不然网站无法使用&#xff01; 网站…

ChatGPT的评估指标有哪些?微调与上下文学习是否存在相似性?

NLP 分很多的任务&#xff0c;不同的任务有不同的指标来度量模型质量&#xff0c;比如AUC&#xff0c;Precision/Recall是分类模型的度量指标。 ChatGPT可以看作一个生成式语言模型&#xff0c;简单说就是给它输入一段文字&#xff0c;它会输出另一段文字&#xff0c;当然输出和…

火爆出圈ChatGPT——电商运营新姿态

近日&#xff0c;互联网掀起了一股ChatGPT热浪&#xff0c;它冲击着全球的互联网用户&#xff0c;将人工智能带入了全新的高度&#xff0c;ChatGPT是什么&#xff0c;它到底能够做什么&#xff1f;你是否已经洞悉这个先机了呢&#xff1f; ChatGPT是人工智能技术驱动的自然语言…