英伟达发布NVLM 1.0:屠榜多模态任务,纯文本性能逆势提升

前沿科技速递🚀

随着文本大模型的发展,解码器架构已经成为文本处理任务的标准。然而,现有的多模态大模型架构却尚未统一,不同模型在选择 LLM 主干、视觉编码器以及训练数据上存在较大差异,且无法直接进行对比研究。为了解决这些问题,英伟达研究团队推出了 NVLM 1.0,通过创新的模型设计和数据处理方法,极大提升了多模态推理能力和训练效率。

来源:传神社区

01 模型简介

英伟达最近推出了NVLM 1.0,这是一款多模态大型语言模型,在视觉-语言任务上表现出色,能够与最强的闭源模型(如GPT-4o)以及开源模型(如LLaMA 3-V 405B 和 InternVL 2)相媲美。值得关注的是,NVLM 1.0 不仅在多模态任务中表现优异,甚至在纯文本任务上也有所突破。经过多模态训练后,NVLM 1.0 在文本任务中的表现相比其基础语言模型(LLM)主干有明显提升,特别是在数学和代码生成基准测试中,平均准确率提高了 4.3 个百分点。

NVLM 1.0 在处理多模态任务时,能够高效处理包括文本、图像和高分辨率视觉输入等多种形式的数据,大幅提升了 OCR、视觉问答(VQA)、文档理解等复杂任务的性能。同时,研究团队深入比较了纯解码器模型与交叉注意力模型的优缺点,提出了一种全新的架构设计,进一步优化了高分辨率图像处理的效率,确保了模型在纯文本任务中的表现不仅不下降,反而有所提高。

图片

02 核心架构:三大模型设计

NVLM 1.0 包含三种不同的架构,分别是解码器模型(NVLM-D)、交叉注意力模型(NVLM-X)和混合模型(NVLM-H)。每种架构针对不同的任务需求进行优化:

  • NVLM-D:解码器架构该模型采用解码器架构,视觉信息通过多层感知机(MLP)转换为文本嵌入,并统一输入到LLM(大语言模型)中进行处理。解码器架构的特点是可以将所有输入(无论是图像还是文本)作为统一的token进行处理,因此特别适合OCR任务,能够准确识别图像中的文字信息。

  • NVLM-X:交叉注意力架构NVLM-X采用交叉注意力机制,在处理图像信息时通过专门的注意力层来读取视觉编码器的输出。该架构在处理高分辨率图像和视觉推理任务时效率更高,特别适合处理复杂的视觉问答、图表分析以及文档理解任务。

  • NVLM-H:混合架构NVLM-H结合了解码器和交叉注意力的优势,文本和缩略图通过解码器的自注意力机制处理,而详细的图像信息则通过交叉注意力机制处理。这种设计不仅保持了高效的计算性能,还增强了模型在高分辨率图像任务中的表现,是一个平衡性能和计算效率的最佳方案。

图片

03 评测结果

为了评估NVLM 1.0在多模态任务中的表现,NVIDIA团队对模型进行了多项基准测试,涵盖了视觉语言任务和文本任务。以下是NVLM 1.0的主要评测结果:

1. OCR任务

NVLM-D在OCR相关的任务(如OCRBench测试)中表现尤为突出,取得了全场最高得分。无论是文档图像中的文本识别,还是复杂场景中的字符识别,NVLM-D均展现出了强大的准确性和鲁棒性。

2. 多模态推理任务

NVLM-H在多模态推理任务(如MathVista和MMMU测试)中表现优异,特别是在几何图形、函数图和表格等场景下的数学推理任务中取得了领先的成绩。这表明,NVLM 1.0不仅能够处理简单的视觉任务,还具备了处理复杂推理问题的能力。

3. 视觉问答(VQA)

在自然图像理解和视觉问答任务(如VQAv2和TextVQA测试)中,NVLM-X取得了与当前最先进的模型相当的成绩。模型能够精准理解图像中的内容,并根据上下文生成准确的答案,展示了卓越的视觉感知和语言生成能力。

4. 文本任务

值得一提的是,NVLM 1.0在多模态训练过程中,不仅没有牺牲文本生成和推理任务的性能,反而在数学推理和代码生成等任务中展现了比基础语言模型更强的表现。这得益于NVLM 1.0在训练过程中加入了高质量的纯文本数据以及大量的多模态数学推理数据,从而提升了模型的跨模态推理能力。

图片

04 实例评测

为了验证NVLM 1.0在多模态任务中的实际表现,对模型的多项任务处理能力进行了测试,涵盖排序算法理解、市场份额分析、驾驶辅助决策等多领域任务。以下为详细的实例评测结果:

图片

图片

图片

05 模型下载

传神社区:

模型权重还未发布,尽请期待~

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/432391.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

凤凰模拟器V6中无人机如何设置“有头模式”

凤凰模拟器是一款专为航模新手设计的飞行模拟器,它能够模拟大疆无人机、各种穿越机、固定翼等多种飞行器,提供逼真的飞行体验。该软件的操作简单易懂,适合新手练习使用。 一般来说,打开凤凰模拟器,选择好机型&#xf…

vscode 配置django

创建运行环境 使用pip安装Django:pip install django。 创建一个新的Django项目:django-admin startproject myproject。 打开VSCode,并在项目文件夹中打开终端。 在VSCode中安装Python扩展(如果尚未安装)。 在项…

鸿蒙HarmonyOS开发:一次开发,多端部署(界面级)天气应用案例

文章目录 一、布局简介二、典型布局场景三、侧边栏 SideBarContainer1、子组件2、属性3、事件 四、案例 天气应用1、UX设计2、实现分析3、主页整体实现4、具体代码 五、运行效果 一、布局简介 布局可以分为自适应布局和响应式布局,二者的介绍如下表所示。 名称简介…

Golang | Leetcode Golang题解之第421题数组中两个数的最大异或值

题目: 题解: const highBit 30type trie struct {left, right *trie }func (t *trie) add(num int) {cur : tfor i : highBit; i > 0; i-- {bit : num >> i & 1if bit 0 {if cur.left nil {cur.left &trie{}}cur cur.left} else …

leetcode-189:轮转数组

给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1,2,3,4,5,6] 向右轮转 2 步: [6,7,1,2,3,4,5] 向右轮转 3 步: [5,6,7,1,2,3,4…

前端框架对比与选择

🤖 作者简介:水煮白菜王 ,一位资深前端劝退师 👻 👀 文章专栏: 前端专栏 ,记录一下平时在博客写作中,总结出的一些开发技巧✍。 感谢支持💕💕💕 目…

详细分析SpringMvc中HandlerInterceptor拦截器的基本知识(附Demo)

目录 前言1. 基本知识2. Demo3. 实战解析 前言 对于Java的基本知识推荐阅读: java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)【Java项目】实战CRUD的功能整理(持续更新) 1. 基本知识 HandlerInter…

量化交易四大邪术之三:春去花还在

网络相传亚洲有四大邪术,日本化妆,韩国整容,泰国变X,Z国PS。 这些都是让人在颜值上看起来很美,类似地,在量化交易领域,也有四大邪术能让净值曲线看起来很美,之前已经说了“般若波罗蜜…

CSS clip-path 属性的使用

今天记录一个css属性clip-path,首先介绍下这个属性。 clip-path 是CSS中的一个神奇属性,它能够让你像魔术师一样,对网页元素施展“裁剪魔法”——只展示元素的一部分,隐藏其余部分。想象一下,不用依赖图片编辑软件&am…

Python--类【详细教程】

类的介绍 面向对象编程(object-oriented programming,OOP)是最有效的软件编写方法之⼀。在面向对象编程中,你编写表示现实世界中的事物的类(class),并基于这些类来创建对象(object&…

C语言 | Leetcode C语言题解之第436题寻找右区间

题目: 题解: typedef struct {int start;int index; } Node;int cmp(const void *pa, const void *pb) {return ((Node *)pa)->start - ((Node *)pb)->start; }int* findRightInterval(int** intervals, int intervalsSize, int* intervalsColSiz…

四川财谷通信息技术有限公司抖音小店强势引领电商

在数字经济蓬勃发展的今天,短视频与直播电商已成为推动消费增长的重要引擎,而抖音平台更是以其庞大的用户基础、精准的算法推荐和创新的商业模式,成为了众多商家争相入驻的蓝海市场。在这片充满活力的电商沃土上,四川财谷通信息技…

GPS冷启动定位不准问题

1.使用模块 EG800K 2.定位不准问题 应用场景:由于低功耗设备,需要GPS定位,设备的功耗会很高,因此每次定位完成后必须将模块的电源断开。 定位不准原因: 1.每次设备从供电,到定位成功,需要3…

【文心智能体】 旅游手绘手帐 开发分享 零代码 手绘风景 记录行程和心情 旅游攻略

旅游手绘手帐,点击文心智能体平台AgentBuilder | 想象即现实 目录 背景 创作灵感 开发历程 一、基础配置 二、高级配置 三、引导示例(提示词) 四、prompt(提示词)优化 期待优化 背景 这个智能体是一个零代码…

CSS中的字体样式、文本样式、列表样式以及背景和渐变

一、字体样式和文本样式 1.span标签 span标签的作用&#xff1a;能让某几个文字或者是词语凸显出来 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-…

在深度学习中,是否应该打破正负样本1:1的迷信思想?

Q&#xff1a;是否应该打破正负样本 1:1 的迷信思想&#xff1f;A&#xff1a;是的&#xff0c;类别不平衡的比例只是表象&#xff0c;并非本质。 Q&#xff1a;当训练集和测试集分布匹配&#xff0c;但正负样本比例仍然悬殊&#xff0c;是否有必要再引入处理不平衡样本的策略…

新峰商城之订单处理流程

订单处理是电商系统中的重要模块&#xff0c;从用户单击提交订单并成功生成订单开始&#xff0c;包括订单支付成功、订单信息确认、订单出库、到确认收货的正常订单流程。也包括了订单取消、订单退款等其它异常流程。 一、订单处理流程 正常流程&#xff1a; 订单生成后&…

Git - 初识版本库

版本库也叫仓库&#xff0c;英文名 repository。 ‍ 创建版本库 之前我们说了版本库的概念&#xff1a; 存储版本的地方&#xff08;存放各个版本之间差异的地方&#xff09;&#xff0c;通常称为版本库。通常版本库是以文件&#xff08;夹&#xff09;的形式存放在磁盘上&a…

处理RabbitMQ连接和认证问题

在使用RabbitMQ进行消息队列管理时&#xff0c;我们可能会遇到各种连接和认证问题。本文将介绍如何诊断和解决这些问题&#xff0c;并通过使用RabbitMQ的管理端进行登录验证来确保配置正确。 1. 问题概述 在最近的一次部署中&#xff0c;我们遇到了两个主要问题&#xff1a; …

成为谷歌开发者专家(GDE)的经历

大家好&#xff0c;我是张海龙(Jason)。经过一年多的准备&#xff0c;GDE申请 终于正式成功通过面试&#xff0c;成为了国内第一位Firebase GDE。下面对整个过程做个总结&#xff0c;希望对大家有所帮助。 1.什么是 GDE&#xff1f; Google Developers上面有详细的说明&#x…