微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务

关注并星标

从此不迷路

计算机视觉研究院

07f494f69e48a9242cc68faae7dbb931.gif

34c0fb24bc06fbd0c803f7a7db5734f7.gif

74b55e85de0f1437eb6bfb8f185f46b1.png

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

从大型语言模型(LLM)到多模态大型语言模型(MLLM),微软又迈出了重要一步。

转自《机器之心》

在 NLP 领域,大型语言模型(LLM)已经成功地在各种自然语言任务中充当通用接口。只要我们能够将输入和输出转换为文本,就能使得基于 LLM 的接口适应一个任务。举例而言,摘要任务输入文档,输出摘要信息。所以,我们能够将输入文档馈入摘要型语言模型,并生成摘要。

尽管 LLM 在 NLP 任务中取得了成功的应用,但研究人员仍努力将其原生地用于图像和音频等多模态数据。作为智能的基本组成部分,多模态感知是实现通用人工智能的必要条件,无论是对于知识获取还是与现实世界打交道。更重要的是,解锁多模态输入能够极大地拓展语言模型在更多高价值领域的应用,比如多模态机器人、文档智能和机器人技术。

因此,微软团队在论文《Language Is Not All You Need: Aligning Perception with Language Models》中介绍了一个多模态大型语言模型(MLLM)——KOSMOS-1,它可以感知一般模态、遵循指令(即零样本学习)以及在上下文中学习(即少样本学习)。研究目标是使感知与 LLM 保持一致,如此一来模型能够看到(see)和说话(talk)。研究者按照 METALM(参见论文《Language models are general-purpose interfaces》 )的方式从头开始训练 KOSMOS-1。

d95c02c6b6294c8e664253b9baf135b2.png

  • 论文地址:https://arxiv.org/pdf/2302.14045.pdf

  • 项目地址:https://github.com/microsoft/unilm

如下图 1 所示,研究者将一个基于 Transformer 的语言模型作为通用接口,并将其与感知模块对接。他们在网页规模的多模态语料库上训练模型,语料库包括了文本数据、任意交错的图像和文本、以及图像字幕对。此外,研究者还通过传输纯语言数据来校准跨模态的指令遵循能力。

最终,KOSMOS-1 模型原生支持零样本和少样本学习设置下的语言、感知语言与视觉任务,具体如下表 1 所示。

bf6ddfe07119adcfb99de437ba0f077b.png

研究者在下图 2 和图 3 中展示了一些生成示例。除了各种自然语言任务,KOSMOS-1 模型能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像字幕、简单的数学方程式、OCR 和带描述的零样本图像分类。他们还根据瑞文推理测验(Raven's Progressive Matrices, RPM)建立了一个 IQ 测试基准,用来评估 MLLM 的非语言推理能力。

886f70b136e3d605bd7e21188b35709f.png

‍这些示例表明,多模态感知的原生支持为将 LLM 应用于新任务提供了新的机遇。此外与 LLM 相比,MLLM 实现了更好的常识推理性能,表明了跨模态迁移有助于知识获取。

由于 KOSMOS-1 模型的参数量为 16 亿,因此有网友表示有望在自己的电脑上运行这个多模态大模型。

5efce6d48689fabca2cd971ee8387e6f.png

KOSMOS-1:一个多模态大型语言模型

如图 1 所示,KOSMOS-1 是一个多模态语言模型,它既可以感知一般的模态、遵循指令、还能在上下文中学习并生成输出。具体来说,KOSMOS-1 的主干是一个基于 Transformer 的因果语言模型。除了文本之外,其他模态也能被嵌入并输入到该模型中,如下图中,除了语言还有视觉、语音等的嵌入。Transformer 解码器用作多模态输入的通用接口。一旦模型训练完成,KOSMOS-1 在零样本和少样本设置中也能对语言任务和多模态任务进行评估。

74a408ac02307af069abfb7f84931f75.png

Transformer 解码器以统一的方式感知模态,输入信息会被 flatten 为带有特殊 token 的序列。例如 < s > 表示序列开始、</s > 表示序列结束。特殊 token <image > 和 </image > 表示编码图像嵌入的开始和结束。

105729ce89aef96dc542940b88339812.png

嵌入模块将文本 token 和其他输入模态编码成向量表示,对于输入 token,该研究使用查找表将其映射到嵌入中。对于连续信号模态(例如,图像和音频),也可以将输入表示为离散编码。

之后,获得的输入序列嵌入会被馈送到基于 Transformer 的解码器。然后因果模型以一种自回归的方式处理序列,从而产生下一个 token。总而言之,MLLM 框架可以灵活地处理各种数据类型,只要将输入表示为向量即可。

模型训练

首先是训练数据集。数据集包括文本语料库、图像 - 字幕对、图像和文本交叉数据集。具体而言,文本语料库包括 The Pile 、Common Crawl (CC);图像 - 字幕对包括 English LAION-2B、LAION-400M、COYO-700M 以及 Conceptual Captions;图像和文本交叉多模态数据集来自 Common Crawl snapshot。

数据集有了,然后是训练设置。MLLM 组件包含 24 层、隐藏维度是 2048、8192 个 FFN 和 32 个注意力头、参数量为 1.3B。为了使模型更好的收敛,图像表示是从具有 1024 个特征维度的预训练 CLIP ViT-L/14 模型获得的。图像在训练过程中被预处理为 224×224 分辨率,此外,训练期间除了最后一层,所有的 CLIP 模型参数被冻结。KOSMOS-1 的参数总数约为 1.6B。

19ba7d6ea7d15e6e7d94ea4069e72ad0.png

实验结果

该研究进行了一系列丰富的实验来评价 KOSMOS-1 :语言任务(语言理解、语言生成、 OCR-free 文本分类);跨模态迁移(常识推理);非语言推理( IQ 测试);感知 - 语言任务(图像字幕、视觉问答、网页问答);视觉任务(零样本图像分类、带有描述的零样本图像分类)。

图像字幕。下表给出了不同模型在 COCO 和 Flickr30k 上的零样本性能。相比其他模型,KOSMOS-1 均取得了显著效果,甚至在参数量远小于 Flamingo 的基础上,性能也不错。

f59f1bf7198ddbc93d78b40fd2877956.png

下表为少样本性能对比:

24862e6a44b3da8f1195484653b5baa6.png

视觉问答。KOSMOS-1 比 Flamingo-3B 和 Flamingo-9B 模型具有更高的准确率和鲁棒性:

02ee0faf89d1de7b46f5c22ae888aba1.png

下表为少样本性能对比:

1919ae2f8c12ffd87a23d4c9a0a408b8.png

IQ 测试。瑞文推理测验是评估非语言推理最常见的测试之一。图 4 显示了一个示例。 

bd51f619ea3b7ae225bab831358922a2.png

表 6 显示了在 IQ 测试数据集上的评估结果。KOSMOS-1 能够在非语言环境中感知抽象概念模式,然后在多个选择中推理出之后的元素。据了解,这是首次有模型可以执行此类零样本 Raven IQ 测试。

7749d017644b74d849fdb363a4caf1f2.png

网页问答。网页问答旨在从网页中找到问题的答案。它要求模型既能理解文本的语义,又能理解文本的结构。结果如下:

79f8c49d38cf93df06b7370eab0eb5a9.png

多模态思维链提示。受思维链提示的启发,本文对这方面进行了实验。如图 5 本文将感知语言任务分解为两个步骤。在第一阶段给定图像,使用提示来引导模型生成符合要求的输出,以产生最终结果。

812e67539f3f45b18eae5912d52a3063.png

从表 9 可以看出,多模态思维链提示的得分为 72.9 分,比标准提示高出 5.8 分:

e5ebb6fa7f8cec0da2bddae6720cbb83.png

了解更多实验内容,请参考原论文。

© The Ending

转载请联系本公众号获得授权

6ee1bb3e52c8c65a271bc0ff51111c3c.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

2b3c6433ca766055d69a145c06172341.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • ChatGPT is fun, but not an author(有兴趣加入ChatGPT群)ChatGPT利与弊分析

  • 计算机视觉研究院亲自体验ChatGPT的感受,太疯狂了!

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)

  • LCCL网络:相互指导博弈来提升目标检测精度(附源代码)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6491.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT王炸更新!能联网获取新知识,可与5000+个应用交互,网友:太疯狂了

都说ChatGPT是AI的“iPhone时刻”&#xff0c;现在属于它的“应用商店”来了。 OpenAI刚刚又甩出一个王炸—— 宣布推出插件功能&#xff0c;赋予ChatGPT使用工具、联网、运行计算的能力。 例如在官方演示中&#xff0c;ChatGPT一旦接入数学知识引擎Wolfram Alpha&#xff0…

AudioGPT推出,音频领域都不放过,ChatGPT这是杀疯了。

3 天前 ChatGPT云炬学长 ​关注 今天和大家介绍的一个项目属于音频领域的ChatGPT的应用实践。真没想不到&#xff0c;在音频领域&#xff0c;ChatGPT都没有放过&#xff0c;ChatGPT这是杀疯了呀&#xff01; 现在的ChatGPT是一个实打实的风口&#xff0c;也希望大家跟我一起努…

四少女火爆外网,AI杀疯了!

转自&#xff1a;量子位 &#xff5c; 金磊 四位美少女&#xff0c;带着AI画画在ChatGPT的热浪中杀出了一片天地。 新“魔法”一出&#xff0c;瞬间吸引全场目光&#xff1a; 原本是一张四个闺蜜在沙滩边上的普通合影照&#xff1a; 在新魔法的加持下&#xff0c;“啪的一下”画…

ChatGPT ✖️ 前端 = 有点er意思

HOT! HOT! HOT! &#x1f525; &#x1f525; &#x1f525; ChatGPT登上了国内各大平台的热搜榜&#xff0c;应该在去年11月末的时候就有不少同学了解并使用过&#xff0c;那个时候它刚刚问世&#xff0c;在互联网圈子里有了很大的热度&#xff0c;但是对于大众来说&#xff…

干掉 Google?ChatGPT 这几天杀疯了!

点击关注公众号&#xff0c;Java干货及时送达 推荐阅读&#xff1a; Spring 旗下最牛逼的国产项目&#xff01; Spring Boot 3.0 正式发布&#xff0c;王炸&#xff01;&#xff01; 出品 | OSC开源社区&#xff08;ID&#xff1a;oschina2013) 人工智能研究公司 OpenAI 上周正…

AudioGPT推出!音频领域都不放过,ChatGPT这是杀疯了!

大家好,我是千与千寻,你们可以叫我千寻哥,算一算写ChatGPT的技术文章已经写到第四篇了! 今天和大家介绍的一个项目属于音频领域的ChatGPT的应用实践。真没想不到,在音频领域,ChatGPT都没有放过,ChatGPT这是杀疯了呀! 现在的ChatGPT是一个实打实的风口,也希望大家跟我…

用ChatGPT面试杀疯了,拿下大厂

集中投了几家公司后&#xff0c;便开始面试&#xff0c;为了节约时间&#xff0c;我选择使用Chatgpt辅助面试&#xff0c;果然是最佳私人助手&#xff0c;就像多了一个贴心秘书&#xff01; 1、将想要应聘公司的岗位要求&#xff0c;jd复制到Chatgpt 2、问模拟面试官可能问到的…

Stable Diffusion、ChatGPT爆火的背后!

整编 | Carol 参考 |《AIGC 发展趋势报告 2023》 出品 | AI科技大本营 “Generative AI&#xff08;生成式AI&#xff09;有什么社会价值&#xff1f;” 当腾讯研究院的研究员将上面这个问题输入到ChatGPT中&#xff0c;得到如下回复&#xff1a; "生成式AI是一种人工智能…

ChatGPT 火爆全球,我们能抓住的下一个风口在哪?

中国互联网行业正面临着巨大的压力和挑战&#xff0c;但也孕育着新的发展机遇。当下正值ChatGPT火爆&#xff0c;整个互联网行业充满了机遇和挑战&#xff0c;身处其中的我们能抓住什么呢&#xff1f; 思你所思&#xff0c;帮大家整理出了五大风口&#xff01;希望对大家有所帮…

爆火!ChatGPT背后的这类芯片赢麻了!

2022年底&#xff0c;由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT一夜爆火&#xff0c;席卷全球多国及地区。毋庸置疑&#xff0c;ChatGPT火爆出圈得益于高性能计算、人工智能以及半导体等行业技术的飞速发展、不断迭代和有机结合。 该产品以强大的文字处理和人机交…

揭秘ChatGPT背后的传奇崛起,探索其引爆引爆网络的隐藏故事

文章目录 前言一、ChatGPT的诞生背景二、ChatGPT的技术原理三、ChatGPT的推广策略四、ChatGPT的未来展望五、橙子送书第3期 前言 ChatGPT是一款基于人工智能技术的聊天机器人&#xff0c;它的出现引起了广泛的关注和热议。在短短的时间内&#xff0c;ChatGPT就成为了全球范围内…

Spring boot +React集成ChatGPT 智能AI

在这里插入代码片import {Button, Input, Radio,Alert,Modal } from antd; import Marquee from react-fast-marquee; import {ChromeOutlined,WifiOutlined,AimOutlined } from ant-design/icons; import React, {useEffect, useState, useRef} from react; import chatgptPn…

中文调教指南,100个提升ChatGPT输出质量的中文prompts

最近这段时间ChatGPT的风实在是太大了&#xff0c;人工智能带给大家的冲击一波又一波&#xff0c;3月27日&#xff0c;根据高盛&#xff08;Goldman Sachs&#xff09;研究报告显示&#xff0c;以ChatGPT为代表的生成式AI产品&#xff0c;将对美国和欧洲三分之二工作岗位造成影…

Wombat:93%ChatGPT性能,无需RLHF就能对齐人类的语言模型

文 | zzy 文章地址: https://arxiv.org/abs/2304.05302v1 训练代码&#xff1a; https://github.com/GanjinZero/RRHF 模型权重&#xff1a; https://huggingface.co/GanjinZero/wombat-7b-delta 各个大模型的研究测试传送门 阿里通义千问传送门&#xff1a; https://tongyi.…

史诗级的突破,如何让GPT接口调用能绕过4000 tokens 的长度限制

最近很高兴有机会较为全面深入地研究GPT / ChatGPT这一热门技术&#xff0c;学到了不少东西&#xff0c;当然也遇到不少问题&#xff0c;其中一个问题就是&#xff0c;所有的GPT模型&#xff0c;都会有输入输出长度&#xff08;加起来&#xff09;的限制这个问题&#xff0c;就…

小扎、马斯克宣战ChatGPT!Meta和推特组建顶级AI团队,硅谷硝烟四起

【导读】ChatGPT大厂混战&#xff0c;怎能少得了Meta和推特&#xff1f;近日&#xff0c;小扎和马斯克也官宣下场&#xff0c;要做自己的ChatGPT了。 ChatGPT的爆火&#xff0c;直接改变了整个硅谷大厂的格局。 微软的步步出招&#xff0c;倒逼谷歌走出固步自封的境地&#x…

牛逼,玩转 ChatGPT!

ChatGPT是一种由OpenAI开发的人工智能模型&#xff0c;它可以模拟人类的对话交流&#xff0c;对话可以涉及各种话题。使用ChatGPT可以进行各种操作&#xff0c;例如自然语言生成、文本摘要、语言翻译、文本分类、问答系统等。下面是ChatGPT网站的可用链接&#xff0c;由于网络限…

对话冯·诺依曼理论奖得主叶荫宇:ChatGPT于行业智能,更像是全科医生对专科医生|数字思考者50人...

斯坦福大学讲席教授、冯诺依曼理论奖获得者&#xff1a;叶荫宇 ▎ChatGPT包罗万象&#xff0c;更像是一个全科医生&#xff0c;而运筹学以及求解器&#xff0c;则像是专科医生。 作者丨 韩敬娴 本文首发钛媒体APP 国际市场震荡不定&#xff0c;供应链波动剧烈、芯片短缺、碳排限…

开篇词:大模型国内应用落地思考与实践

自从GPT-3发布以来&#xff0c;随着以ChatGPT为首的应用工具一夜爆火&#xff0c;人工智能似乎找到了应用层面的合适出口&#xff0c;让大众、用户和产业&#xff0c;看到了大模型人工智能所具备的应用潜力。 国内外关于大模型的研究层出不群&#xff0c;各大厂都在进行大模型…

关于ChatGPT的一切;CUDA入门之矩阵乘;PyTorch 2.0发布|AI系统前沿动态

1.截止目前&#xff0c;关于ChatGPT的一切 ChatGPT是GPT3的一大飞跃&#xff0c;就像GPT3本身是GPT2的质的飞跃一样。目前&#xff0c;关于ChatGPT的解读内容数量和种类繁多&#xff0c;让人跟上非常困难&#xff0c;容易患错失恐惧症。因此&#xff0c;作者整理了一个笔记&…