GPT-4系列模型,在文档理解中的多维度评测

著名云数据平台Snowflake的研究人员发布了一篇论文,主要对OpenAI的GPT-4系列模型进行了研究,查看其文本生成、图像理解、文档摘要等能力。

在DocVQA、InfographicsVQA、SlideVQA和DUDE数据集上对GPT-4、GPT-4 V、GPT-4 Turbo V +OCR等进行了多维度测试。

结果显示,使用GPT-4去执行解读文档任务时,无法达到满意的效果。这是因为,文档理解不仅是对文本的解析,还涉及到对文档布局、图片视觉内容的理解、推理和整合。

图片

使用GPT-4 V去执行时评测数据有了很大的改善,当使用GPT-4 Turbo V+第三方OCR(光学字符识别)视觉引擎时,例如,Tesseract、Azure Cognitive 、Amazon Textract等,可明显提升大模型的视觉理解能力。

可能存在数据污染

研究人员在DocVQA和InfographicsVQA两个数据集测试GPT-4系列模型时,发现它并不是完全理解测试问题,而是之前在预训练过程中接触过该数据集给出了看似正确的答案,可能存在数据污染的现象。

这是因为,DocVQA和InfographicsVQA两个数据集在GPT-4之前就已经发布,有可能在GPT-4模型训练时被包含在内。如果这些数据集真的被包含在训练数据中,那么模型在这些数据集上的高得分可能并不代表其真正的理解能力,而只是对训练数据的一种记忆。

图片

为了解开这个谜题,研究人员采用了一种“指导性指令”的技术。这种方法通过在模型的输入提示中加入特定的数据集名称,来检查模型是否能够根据数据集的特定特征给出不同的答案。

例如,如果模型在接收到“回答DocVQA数据集测试分割中的问题”的指令后,给出了与接收到“回答SQuAD数据集测试分割中的问题”的指令不同的答案,这可能表明模型对不同数据集有特定的反应。

图片

在进行数据污染分析时,当在提示中明确提及数据集名称时,模型的性能有所提高,这可能意味着模型在训练时已经接触过这些数据集,因此在评估时能够给出更加符合预期的答案。

此外,即使是使用不同的数据集名称进行误导性的指导,也可能会改变模型的输出,这进一步表明模型的输出受到了预训练数据的影响。

OCR能提升模型的视觉性能

在测试的实验中,研究者还发现,当GPT-4 Turbo V结合了第三方OCR引擎识别的文本和文档图像输入时,其在文档理解任务上的表现有了显著提升。

这种提升在SlideVQA和DUDE数据集上尤为明显,能够达到最先进的性能水平。这表明OCR技术在增强模型对文档的视觉理解方面发挥了重要作用。

图片

这是因为,OCR能够将图像中的文本内容转换为机器可读的格式,从而使模型能够直接处理文本信息

在文档理解任务中,这意味着模型不仅能够“看到”文档中的文本,还能够“理解”这些文本的含义。

但不同的OCR例如,Tesseract、Azure Cognitive Services和Amazon Textract。在不同的测试数据集上表现也各不相同。这表明在实际应用中,开发者可以根据应用场景来选择不同的OCR来搭配使用。

本文素材来源Snowflake论文,如有侵权请联系删除

END

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/355385.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SD3发布,送你3个ComfyUI工作流

大家好,我是每天分享AI应用的萤火君! 这几天AI绘画界最轰动的消息莫过于Stable Diffusion 3(简称SD3)的发布。SD3是一个多模态的 Diffusion Transformer 模型,其在图像质量、排版、复杂提示理解和资源效率方面具有显著…

计算机考研|408第二轮复习是二刷王道还是先看强化课?

在基础复习完一轮后,大部分人会把前面的内容忘掉很多!这个时候不要着急进入强化,在强化阶段之前先把4本书再重新整理复习一遍,查缺补漏。然后再看王道强化课! 对于408这门具有大量知识需要学习的专业课,有…

【深度学习】智能手写数字识别系统

文章目录 一.实验课题背景说明1.1实验目的1.2实验环境1.2.1安装PyTorch1.2.2安装其他必要的库 二.模型说明2.1模型概述2.2模型结构 三.数据说明3.1 输入数据3.1.1输入数据特征3.1.2输入数据维度3.1.3输入数据预处理 3.2 数据格式3.2.1输出数据…

如何调用讯飞星火认知大模型的API以利用其卓越功能

摘要 讯飞星火认知大模型,作为科大讯飞精心打造的一款人工智能模型,在自然语言理解和生成方面展现出了卓越的能力。这款模型通过深度学习技术和大量数据的训练,具备了强大的语言理解、文本生成和对话交互等功能。 一、模型功能概述 讯飞星…

linux端口被占用 关闭端口

系列文章目录 文章目录 系列文章目录一、linux端口被占用 关闭端口1.参考链接2.具体命令 二、【linux关闭进程命令】fuser -k 和 kill -9 的区别1.参考链接2.具体命令 一、linux端口被占用 关闭端口 1.参考链接 linux端口被占用 关闭端口 2.具体命令 1.查看端口是否被占用 …

商超仓库管理系统

摘要 随着全球经济和互联网技术的快速发展,依靠互联网技术的各种管理系统逐渐应用到社会的方方面面。各行业的有识之士都逐渐开始意识到过去传统的人工管理模式已经逐渐成为企业发展的绊脚石,不再适应现代企业的发展需要。企业想要得到更好的发展&#…

FreeRtos-13资源管理

一、临界资源是什么 要独占式地访问临界资源,有3种方法: 1.公平竞争:比如使用互斥量,谁先获得互斥量谁就访问临界资源,这部分内容前面讲过。 谁要跟我抢,我就灭掉谁: 2.中断要跟我抢?我屏蔽中断 3.其他任务要跟我抢?我禁止调度器,不运行任务切换 二、暂停调度器…

【C语言】自定义类型

目录 一、结构体: 1、结构体的声明: 2、结构体的自引用: 3、结构体变量的定义和初始化: 4、结构体内存对齐: 5、结构体传参: 6、位段: 二、枚举类型: 三、联合体&#xff1a…

网络安全:什么是SQL注入

文章目录 网络安全:什么是SQL注入引言SQL注入简介工作原理示例代码 攻击类型为什么SQL注入危险结语 网络安全:什么是SQL注入 引言 在数字化时代,数据安全成为了企业和个人最关心的问题之一。SQL注入(SQL Injection)是…

【LLM之RAG】RAT论文阅读笔记

研究背景 近年来,大型语言模型(LLMs)在各种自然语言推理任务上取得了显著进展,尤其是在结合大规模模型和复杂提示策略(如链式思维提示(CoT))时。然而,LLMs 在推理的事实…

C++的智能指针 RAII

目录 产生原因 RAII思想 C11的智能指针 智能指针的拷贝与赋值 shared_ptr的拷贝构造 shared_ptr的赋值重置 shared_ptr的其它成员函数 weak_ptr 定制删除器 简单实现 产生原因 产生原因:抛异常等原因导致的内存泄漏 int div() {int a, b;cin >> a…

手机usb共享网络电脑没反应的方法

适用于win10电脑,安卓手机上可以 开启usb网络共享选择,如果选择后一直跳,让重复选择usb选项的话,就开启 开发者模式,进到 开发者模式 里设置 默认usb 共享网络 选项 ,就不会一直跳让你选。 1.先用数据线 连…

八大经典排序算法

前言 本片博客主要讲解一下八大排序算法的思想和排序的代码 💓 个人主页:普通young man-CSDN博客 ⏩ 文章专栏:排序_普通young man的博客-CSDN博客 若有问题 评论区见📝 🎉欢迎大家点赞👍收藏⭐文章 目录 …

HTTP详细总结

概念 HyperText Transfer Protocol,超文本传输协议,规定了浏览器和服务器之间数据传输的规则。 特点 基于TCP协议: 面向连接,安全 TCP是一种面向连接的(建立连接之前是需要经过三次握手)、可靠的、基于字节流的传输层通信协议,在…

Linux管道与重定向

管道 是进程通信的方法之一,在Linux中用命令1|命令2的形式表示,将前一个命令的结果作为后续命令的参数进行输入,也有tee管道,可以进行多次筛选,即多次使用|过滤命令。 重定向 文件描述符FD Linux中输入输出分为三种…

C语言变量、指针的内存关系

1. type p ? 表示从内存地址p开始,开辟一段内存,内存大小为类型type规定的字节数,然后把等号右边的值写入到这段内存中。 因此,这块内存起点位置是p,结束是ptype字节数-1。 2. type* p ?表示从内存地址p开始&…

SpingBoot快速入门下

响应HttpServietResponse 介绍 将ResponseBody 加到Controller方法/类上 作用:将方法返回值直接响应,如果返回值是 实体对象/集合,将会自动转JSON格式响应 RestController Controller ResponseBody; 一般响应 统一响应 在实际开发中一般…

Python学习打卡:day11

day11 笔记来源于:黑马程序员python教程,8天python从入门到精通,学python看这套就够了 目录 day1183、自定义 Python 包创建包导入包方式1方式2方式3方式4 84、安装第三方包安装第三方包——pippip的网络优化 安装第三方包——PyCharm 85、…

代码随想录-Day36

452. 用最少数量的箭引爆气球 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴从不同点 完全垂…

基于WPF技术的换热站智能监控系统16--动态数据绑定

1、实现思路 1)实时读取到的数据绑定到前台UI控件上,这个通过MVVM模式实现,同时注意实时读取必须通过任务task异步方式,这就需要读取PLC数据。 2)UI控件的动作,如开或关水泵,必定能够将值写入…