微软亚研院：Language Is Not All You Need

微软亚研院：Language Is Not All You Need

news/2024/12/25 22:08:48/文章来源:https://blog.csdn.net/Kaiyuan_sjtu/article/details/129359633

源 | 量子位

还记得这张把谷歌AI搞得团团转的经典梗图吗？

现在，微软亚研院的新AI可算是把它研究明白了。

拿着这张图问它图里有啥，它会回答：我看着像鸭子。

但如果你试图跟它battle，它就会改口：看上去更像兔子。并且还解释得条条是道：

图里有兔子耳朵。

是不是有点能看得懂图的ChatGPT内味儿了？

这个新AI名叫Kosmos-1，谐音Cosmos（宇宙）。AI如其名，本事确实不小：图文理解、文本生成、OCR、对话QA都不在话下。

甚至连瑞文智商测试题都hold住了。

而具备如此能力的关键，就写在论文的标题里：Language is not all you need。

多模态大语言模型

简单来说，Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。

在感知图片、文字等不同模态输入的同时，Kosmos-1还能够根据人类给出的指令，以自回归的方式，学习上下文并生成回答。

研究人员表示，在多模态语料库上从头训练，不经过微调，这个AI就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。

比如甩出一张猫猫图，问它这照片好玩在哪里，Kosmos-1就能给你分析：猫猫戴上了一个微笑面具，看上去就像在笑。

又比如让它看一眼MSRA用来高效训练大模型的TorchScale工具包的主页，Kosmos-1也能快速get这个库是用来干啥的。

Kosmos-1还能理解图像上下文。发一张食物的照片给它，这个AI不仅能回答你这是什么，还能在你追问如何烹饪时，给出食谱和烹调小建议。

Kosmos-1的骨干网络，是一个基于Transformer的因果语言模型。Transformer解码器作为通用接口，用于多模态输入。

用于训练的数据来自多模态语料库，包括单模态数据（如文本）、跨模态配对数据（图像-文本对）和交错的多模态数据。

值得一提的是，虽说“Language is not all you need”，但为了让Kosmos-1更能读懂人类的指示，在训练时，研究人员还是专门对其进行了仅使用语言数据的指令调整。

具体而言，就是用（指令，输入，输出）格式的指令数据继续训练模型。

实验结果

研究人员在5大类共10个任务中，测试了Kosmos-1的效果，包括：

语言任务：语言理解、语言生成、无OCR文本分类
跨模态迁移：常识推理
非语言推理：IQ测试（瑞文递进矩阵）
感知-语言任务：图像说明、视觉QA、网页QA
视觉任务：零样本图像分类、带描述的零样本图像分类

从实验结果上来看，Kosmos-1基本都hold住了。

零样本图像说明：

零样本视觉QA：

无OCR文本理解：

研究人员还提到，Kosmos-1是第一个能完成零样本瑞文智商测试的AI。

不过，跟成年人类的平均水平相比，AI的“智商”还差得有点远。随机选择的正确率为17%，而Kosmos-1经过指令调教之后，准确率为26%。

研究人员认为：

但Kosmos-1证明了多模态大模型有潜力将感知和语言结合起来，进行零样本的非语言推理。

另外，研究人员还展示了Kosmos-1处理复杂问答和推理任务的过程。关键在于多模态思维链提示。

研究人员将感知-语言任务分解为两个步骤。第一步，给定一个图像，引导模型对图像进行分析。

第二步，把模型子集分析出来的结果再喂给它，并给出任务提示，以生成最后的答案。

这项新研究来自MSRA的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。

三位一作分别是Shaohan Huang、董力和Wenhui Wang。

论文地址：
https://arxiv.org/abs/2302.14045

一起交流

想和你一起学习进步！『NewBeeNLP』目前已经建立了多个不同方向交流群（机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等），名额有限，赶紧添加下方微信加入一起讨论交流吧！（注意一定o要备注信息才能通过）

format,png

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/29677.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2023需要重点关注的四大AI方向

2023需要重点关注的四大AI方向

2023需要重点关注的四大AI方向过去10年，人工智能从实验室走向各行各业，成为一种普遍技术应用于众多领域。根据IDC的数据，2022年全球AI市场规模达到4328亿美元，增长近20%。而Precedence Research预计，到2030年&#xf…

阅读更多...

全球首个完全开源的指令跟随大模型；T5到GPT-4最全盘点

1. Dolly 2.0：世界上第一个完全开源的指令跟随LLM 两周前，Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly，其训练成本不到 30 美元。今天，他们发布了 Dolly 2.0，这是业内第一个开源的指令跟随LLM，并根…

阅读更多...

chatgpt赋能python：Python怎么绕过登录爬取数据

chatgpt赋能python：Python怎么绕过登录爬取数据

Python怎么绕过登录爬取数据在进行网站爬取时，经常会发现需要登录才能访问所需要的数据，这给我们的爬虫程序带来了一定的难度。本文就介绍一些Python绕过登录的方法，让你获取到所需的数据。 1. Session维持登录状态当我们登录一个网站时…

阅读更多...

怎么洗稿容易过稿-在线洗稿软件

怎么洗稿容易过稿-在线洗稿软件

自媒体洗稿软件即使您是一位优秀的自媒体写作人员，也难免遇到让人头疼的撰写问题，例如无法处理大量原始文本、需要手动删除冗余信息、缺少时间针对每篇文章进行深入修改等问题。但是，现在有了我们的一款自媒体洗稿软件，您再也不需…

阅读更多...

洗稿用什么软件-洗稿软件免费

洗稿用什么软件-洗稿软件免费

洗稿文章的主要优势洗稿文章的主要优势在于提高文章的质量和效率。以下是洗稿文章的几个主要优势： 优化结构和语言洗稿可以删除冗余、无用和重复的内容，同时对文章的结构和语言进行优化，提高文章的可读性和吸引力。这可以使文章更加专业…

阅读更多...

洗稿伪原创工具-洗稿生成器

洗稿伪原创工具-洗稿生成器

chatgpt快速洗稿一篇文章做自媒体创作的人都知道，文案创作是一件十分耗时间和精力的事情，而且要做好一篇文章，还需要考虑排版、语法和语气等问题。为了让自媒体写作更简单、更快速，我们推出了一款名为ChatGPT的快速洗稿软件&…

阅读更多...

chatgpt赋能python：PythonReadline遍历:如何准确高效地读取大文件

chatgpt赋能python：PythonReadline遍历:如何准确高效地读取大文件

Python Readline遍历: 如何准确高效地读取大文件简介在Python编程中，读取大型文本和数据文件是一项常见的任务。通常，Python在读取文件时，会一次性将整个文件读入内存中，这在读取小型文件时是非常有效的，但当文件较…

阅读更多...

chatgpt赋能python：Python文件调用指南

chatgpt赋能python：Python文件调用指南

Python文件调用指南在Python编程中，经常需要使用文件进行数据读取和写入，所以掌握文件读写操作是非常重要的。本文将介绍如何在Python中调用文件，并给出一些使用技巧。 1. Python如何打开文件可以使用Python内置的open()函数打开文件。o…

阅读更多...

chatgpt赋能python：Python文件句柄全面解析

chatgpt赋能python：Python文件句柄全面解析

Python文件句柄全面解析在 Python 中，文件被视为 I/O（输入/输出）操作的基础，文件句柄是与文件进行交互的重要方式之一。本文将从以下方面介绍和解析 Python 文件句柄： 什么是文件句柄？如何创建文件句柄&…

阅读更多...

chatgpt赋能python：Python文件读取入门指南

chatgpt赋能python：Python文件读取入门指南

Python文件读取入门指南 Python是一门强大的编程语言，能够处理各种各样的数据类型，其中文件也不例外。文件是计算机与外部世界进行信息交换的基础，使用Python读取和处理文件是我们在日常编程中必须掌握的技能。在这篇文章中，我…

阅读更多...

【Go】从文件读取json

【Go】从文件读取json

在Go语言中，可以使用标准库中的 encoding/json 包来将 JSON 数据解析为 Go 中的结构体。下面是一个简单的示例代码，演示了如何从 JSON 文件中读取数据并将其解析为结构体： package mainimport ("encoding/json""fmt"&q…

阅读更多...

chatgpt赋能python：Python读取目录下文件和文件夹：一个便捷的文件管理解决方案

chatgpt赋能python：Python读取目录下文件和文件夹：一个便捷的文件管理解决方案

Python 读取目录下文件和文件夹：一个便捷的文件管理解决方案在现代计算机领域中，文件和文件夹是我们经常需要处理的基本单元。在Python编程中，我们通常需要迭代目录中的文件和文件夹，以便对它们进行操作。幸运的是，P…

阅读更多...

自然人如何开发票-以广西为例

自然人如何开发票-以广西为例

个人没有开办企业，没有营业执照的情况能不能开发票呢。例如张三开了一家淘宝店，顾客在他这买了产品，想要张三给他开发发票，如果张三开不了发票，那人家就不要了。那这张三亏大了啊。于是想问，个人能不能开发…

阅读更多...

医药交易平台如何保证税务合规？

医药交易平台如何保证税务合规？

伴随着我国社会经济的快速发展，居民对自身健康的关注程度与医疗保健意识在不断提高，再加上社会保障制度、公共卫生体系等的不断完善，以及在互联网的助力下，为医药经济的发展提供了良好的市场和机遇。特别是我国人口数量持续增长且…

阅读更多...

内蒙古自治区律师事务所排名情况

内蒙古自治区律师事务所排名情况

内蒙古经济长期稳定增长，为内蒙古律师事务所的崛起带来了突破性历史机遇。随着时代的发展，行业发展规模已趋于稳定，律师业的竞争亦趋于成熟，截止2022年3月14日，根据官方公布数据显示内蒙古自治区共有777家律师事务所&a…

阅读更多...

高企税务核查内容有哪些？

高企税务核查内容有哪些？

企业在通过高新技术企业认定后并不是就万事大吉了，在享受各项优惠政策及补贴时，还需注意应对税务部门的核查!高新技术企业该如何应对税务核查，需要准备哪些材料，一般核查哪些内容?今天这篇文章为总结了高新技术企业税务核查要点!…

阅读更多...

拥抱AI，迎接未来

拥抱AI，迎接未来

AI 从未离我们这么近。chatGPT 横空出世，5天达到1百万用户，两个月达到1亿用户。相比之下，Instagram 用了2年半的时间才到1亿用户。拥抱AI，迎接未来很多孩子开始谈论AI。为了带领孩子们迎接新趋势，我们开始更新Python…

阅读更多...

WebTab- 一个提高工作效率的插件

WebTab- 一个提高工作效率的插件

最近真的被这个破学校逼疯了，数不清的破文档，像依托答辩，无从下手， 还好有他，我们的 WebTab ,内置的chatgpt，让我注水课设，游刃有余现在，我要从0开始教你如何下载并使用这款好用的插…

阅读更多...

独享手工账号，有售后保证

独享手工账号，有售后保证

阅读更多...

手工独享账号，写程序直接飞起

手工独享账号，写程序直接飞起

阅读更多...

最新文章

推荐文章