大模型日报|7 篇必读的大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.上交大团队新研究:像专家一样大规模提升预训练数据质量

大语言模型(LLM)的预训练历来依赖于人类专家为提高语料库质量而精心设计的启发式方法,迄今为止已开发出大量规则。然而,这些规则缺乏灵活性,无法有效解决单个示例的独特性问题。同时,对于人类专家来说,对每个示例应用量身定制的规则也是不切实际的。

来自上海交通大学和 Sea AI Lab 的研究团队证明了即使是参数少至 0.3B 的小语言模型,也能表现出与人类专家相当的数据提炼能力。他们提出了 Programming Every Example (ProX),这是一个新颖的框架,它将数据提炼视为一项编程任务,使模型能够通过生成和执行细粒度操作(如字符串规范化)来精炼语料库。实验结果表明,在各种下游基准测试中,经过 ProX 精选数据预训练的模型优于原始数据或经过其他选择方法过滤的数据 2% 以上。它的有效性跨越了各种模型规模和预训练语料库,包括 C4、RedPajama-V2 和 FineWeb。

此外,ProX 在特定领域的持续预训练方面也表现出了巨大的潜力:在没有特定领域设计的情况下,ProX 在 OpenWebMath 上改进训练的模型优于人工创建的基于规则的方法,平均准确率比 Mistral-7B 提高了 7.6%,Llama-2-7B 提高了 14.6%,CodeLlama-7B 提高了 20.3%,所有这些都是在 10B Token 范围内实现的,可与在 200B Token 范围内训练的 Llemma-7B 等模型相媲美。进一步的分析表明,ProX 极大地节省了训练 FLOP,为高效的 LLM 预训练提供了一条有前景的道路。

论文链接:
https://arxiv.org/abs/2409.17115
GitHub 地址:
https://github.com/GAIR-NLP/ProX

2.SOTA 多模态模型的开放权重和开放数据

当今最先进的多模态模型仍然是专有的。最强的开放权重模型在很大程度上依赖于专有 VLM 的合成数据来实现良好的性能,从而有效地将这些封闭模型提炼为开放模型。因此,对于如何从零开始建立性能卓越的 VLM,社会仍然缺乏基础知识。

来自艾伦人工智能研究所和华盛顿大学的研究团队推出了一个新的 VLM 系列——Molmo,在其开放性级别中处于 SOTA。他们的关键创新在于一个新颖、高度详细的图像标题数据集,该数据集完全由使用语音描述的人类标注员收集而来。为了实现广泛的用户交互,他们还推出了一个用于微调的多样化数据集,其中包括实用问答和创新的二维指向数据。他们的方法能否取得成功,取决于对模型架构细节的精心选择、经过微调的训练管道,最关键的是他们新收集的数据集的质量,所有这些数据集都将发布。

Molmo 系列中 BIC 的 72B 参数模型不仅在开放权重和数据模型方面优于其他同类产品,而且在学术基准和人类评估方面也优于 GPT-4o、Claude 3.5 和 Gemini 1.5 等专有系统。

论文链接:
https://arxiv.org/abs/2409.17146
项目地址:
https://molmo.allenai.org/

3.视觉大语言模型的统一幻觉缓解框架

幻觉是视觉大语言模型(LVLMs)的一个常见问题,而且难以消除。带有幻觉的生成与图像内容部分不一致。为了缓解幻觉问题,目前的研究要么侧重于模型推理过程,要么侧重于模型生成结果,但它们设计的解决方案有时不能恰当地处理各种类型的查询以及生成时对这些查询产生的幻觉。

为了准确处理各种幻觉,德克萨斯大学达拉斯分校团队提出了一个缓解幻觉的统一框架——Dentist。其核心步骤是首先对查询进行分类,然后根据分类结果执行不同的幻觉缓解过程,就像牙医首先观察牙齿然后制定计划一样。在一个简单的部署中,Dentist 就能将查询分类为感知或推理,并轻松减轻答案中可能出现的幻觉,这在实验中已得到证实。

在 MMbench 上,与基线 InstructBLIP/LLaVA/VisualGLM 相比,他们在粗感知视觉问答(VQA)任务 Image Quality 上的准确率分别提高了 13.44%/10.2%/15.8%。

论文链接:
https://arxiv.org/abs/2409.16494

4.北航团队提出大语言模型长文本生成评估基准 HelloBench

近年来,大语言模型(LLM)在各种任务(如长文本理解)中表现出了卓越的能力,并提出了许多基准。然而,北京航空航天大学研究团队及其合作者注意到,长文本生成能力并没有得到很好的研究。因此,他们提出了分层长文本生成基准——HelloBench,这是一个全面、实用、开放的基准,用于评估 LLM 在生成长文本方面的性能。

根据布鲁姆分类法,HelloBench 将长文本生成任务分为五个子任务:开放式问答、总结、聊天、文本补全和启发式文本生成。此外,他们还提出了分层长文本评估——HelloEval,这是一种与人工对齐的评估方法,可显著减少人工评估所需的时间和精力,同时保持与人工评估的高度相关性。他们对大约 30 种主流 LLM 进行了广泛的实验,发现目前的 LLM 缺乏长文本生成能力。

具体来说,首先,无论指令是否包含显式或隐式长度限制,大多数 LLM 无法生成长度超过 4000 字的文本。其次,虽然有些 LLM 可以生成更长的文本,但也存在许多问题(如严重重复和质量下降)。第三,为了证明 HelloEval 的有效性,他们将 HelloEval 与传统度量方法(如 ROUGE、BLEU等)和 LLM-as-a-Judge 方法进行了比较,结果表明 HelloEval 与人工评估的相关性最高。

论文链接:
https://arxiv.org/abs/2409.16191
GitHub 地址:
https://github.com/Quehry/HelloBench

5.OmniBench:迈向通用全语言模型的未来

多模态大语言模型(MLLM)的最新进展旨在整合和解释不同模态的数据。然而,这些模型同时处理和推理多种模态的能力仍未得到充分探索,部分原因是缺乏全面的模态基准。

来自 M-A-P 的研究团队及其合作者提出了一个新的基准——OmniBench,旨在严格评估模型同时识别、解释和推理视觉、声音和文本输入的能力。他们将能够进行这种三模态处理的模型定义为全语言模型(OLM)。OmniBench 以高质量的人工标注为特色,确保准确的响应需要综合理解和推理所有三种模态。

研究结果表明:i)大多数 OLM 在三模态上下文的指令遵循和推理能力方面具有严重的局限性;ii)即使在提供图像或/和音频的替代文本表示时,大多数基线模型的表现也很差(准确率低于 50%)。

这些结果表明,在现有的 MLLM 训练范式中,从文本、图像和音频中构建一致上下文的能力往往被忽视。他们主张未来的研究应专注于开发更强大的三模态整合技术和训练策略,以提高不同模态的 OLM 性能。

论文链接:
https://arxiv.org/abs/2409.15272
项目地址:
https://m-a-p.ai/OmniBench/

6.Google DeepMind 推出鲁棒奖励模型 RRM

奖励模型(RM)在使大语言模型(LLM)符合人类偏好方面发挥着关键作用。然而,传统的奖励模型训练依赖于与特定提示相关的应答对,很难将提示驱动的偏好与应答长度和格式等与提示无关的因素区分开来。

在这项工作中,来自 Google DeepMind 的研究团队及其合作者揭示了当前 RM 训练方法的一个基本局限,即 RM 在确定偏好时无法有效区分上下文信号和无关人工痕迹。为了解决这个问题,他们提出了一个因果框架,该框架可以学习独立于这些人工痕迹的偏好,并提出了一种新颖的数据增强技术,旨在消除这些人工痕迹。广泛的实验表明,他们的方法成功地过滤了不需要的人工痕迹,产生了一个鲁棒奖励模型(RRM)。

在 RewardBench 上,他们的 RRM 提高了在 Gemma-2-9b-it 上训练的成对奖励模型的性能,准确率从 80.61% 提高到 84.15%。此外,他们还使用 RM 和 RRM 训练了两种 DPO 策略,结果表明 RRM 显著提高了 DPO 对齐策略的性能,将 MT-Bench 分数从 7.27 提高到 8.31,将 AlpacaEval-2 中的长度控制胜率从 33.46% 提高到 52.49%。

论文链接:
https://arxiv.org/abs/2409.13156

7.大模型的视觉提示新技术 Attention Prompting on Image

与大语言模型(LLM)相比,视觉大语言模型(LVLM)也可以接受图像作为输入,从而展现出更有趣的新兴能力,并在各种视觉语言任务中表现出令人印象深刻的性能。受 LLM 中的文本提示的启发,人们探索了视觉提示技术,以增强 LVLM 感知视觉信息的能力。然而,以往的视觉提示技术只处理视觉输入,而不考虑文本查询,从而限制了模型按照文本指令完成任务的能力。

为了填补这一空白,新加坡国立大学团队提出了一项新提示技术——Attention Prompting on Image,该技术只需在原始输入图像上简单叠加一个文本查询引导的注意力热图,就能有效增强 LVLM 在各种任务中的能力。具体来说,他们通过 CLIP 等辅助模型,根据文本查询为输入图像生成注意力热图。然后,热图只需乘以原始图像的像素值,即可获得 LVLM 的实际输入图像。

在各种视觉语言基准上进行的大量实验验证了该技术的有效性。例如,在 MM-Vet 和 LLaVA-Wild 基准测试中,图像注意力提示技术分别将 LLaVA-1.5 提高了 3.8% 和 2.9%。

论文链接:
https://arxiv.org/abs/2409.17143

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/443064.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringSession;基于Redis的SpringSession实现;实现session共享的三种方式

一,SpringSession简介 是SpringCloud下管理session的框架,在微服务架构中,由于应用了分布式的思想,session无法做到内存中互通,需要一个框架来实现各个微服务中session数据共享,SpringSession解决了这个问题…

城市交通场景分割系统源码&数据集分享

城市交通场景分割系统源码&数据集分享 [yolov8-seg-C2f-Faster&yolov8-seg-GhostHGNetV2等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Glob…

信创一定要了解的知识

什么是信创 定义 信创,全称为信息技术应用创新产业,旨在发展国产信息产业,减少对国外技术的依赖,实现软硬件的国产替代化。信创产业是数字经济的关键支撑,涵盖从基础硬件到应用软件的全产业链。 产业范畴 信创产业…

C0015.Clion中开发C++时,连接Mysql数据库方法

安装mysql数据库 CMakeLists.txt中配置mysql数据库 # 先指定mysql数据库的安装位置 include_directories("C:/Program Files/MySQL/MySQL Server 8.0/include") link_directories("C:/Program Files/MySQL/MySQL Server 8.0/lib") link_libraries(libmysq…

AI会计师——让AI+成就价值财务

摘要:用友携手CCTV-10联合策划《AI会计师》专题节目 目录 Part1 数智化凭证采集 Part2 智能月结 Part3 税务风险管控 Part1 数智化凭证采集 AI会计师,源自对大数据、人工智能、云计算等前沿技术的深度融合。它不仅仅是一款软件,更是企业智能…

Python基础之List列表用法

1、创建列表 names ["张三","李四","王五","Mary"] 2、列表分片 names[1]:获取数组的第2个元素。 names[1:3]:获取数组的第2、第3个元素。包含左侧,不包含右侧。 names[:3]等同于names[0:3]&…

大模型推理框架llama.cpp开发流程和常用函数介绍

llama.cpp是一个高性能的CPU/GPU大语言模型推理框架,适用于消费级设备或边缘设备。开发者可以通过工具将各类开源大语言模型转换并量化成gguf格式的文件,然后通过llama.cpp实现本地推理。经过我的调研,相比较其它大模型落地方案,中…

AI时代的直播革命!洞察数字化趋势,从今日开启你的AIGC旅程!

AI时代的直播革命!洞察数字化趋势,从今日开启你的AIGC旅程! 在AI技术日新月异的今天,直播行业正经历着一场前所未有的革命。这场革命不仅深刻改变了内容创作、传播与消费的方式,更预示着未来数字化时代娱乐与商业互动的…

PCL 计算点云AABB包围盒(惯性矩阵)

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.1.1 计算AABB包围盒 2.1.2 可视化点云与AABB包围盒 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长…

Java 集合实现类

Java 集合实现类 ​ Java 提供了一套实现了 Collection 接口的标准集合类。其中一些是具体类,这些类可以直接拿来使用,而另外一些是抽象类,提供了接口的部分实现 序号类描述1AbstractCollection 实现了大部分的集合接口。2AbstractList 继承…

【EXCEL数据处理】000021 案例 保姆级教程,附多个操作案例。EXCEL文档安全性设置。

前言:哈喽,大家好,今天给大家分享一篇文章!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 【EXCEL数据处理】000021 案例 保姆级教程,附多个操作案例。…

算法:双指针系列(一)

双指针系列 一、移动零(一)题目分析(二)代码展示二、复写零(一)题目分析(二)代码展示三、快乐数(一)题目分析(二)代码展示 一、移动零…

【C++】模拟实现hash_table(哈希表)

🦄个人主页:修修修也 🎏所属专栏:实战项目集 ⚙️操作环境:Visual Studio 2022 目录 一.了解项目功能 二.逐步实现项目功能模块及其逻辑详解 📌实现HashNode类模板 🎏构造HashNode类成员变量 🎏实现HashNode类构造函数…

Python【修炼2】

欢迎来到Cefler的博客😁 🕌博客主页:折纸花满衣 🏠个人专栏:Python 目录 👉🏻map👉🏻lambda👉🏻datetime日期输出格式 👉&#x1f3fb…

Pikachu-PHP反序列化

从后端代码可以看出,拿到序列化后的字符串,直接做反序列化;并且在前端做了展示; 如果虚拟化后的字符串,包含alert 内容,反序列化后,就会弹出窗口 O:1:"S":1:{s:4:"test";s…

使用Provide和Inject设计Vue3插件

使用provide和inject的Vue依赖项注入非常适合构建Vue3插件或避免prop多层传递。 尽管不经常使用它,但是您可以仅使用两个内置方法来实现依赖项注入:provide和inject。 查看Composition API文档,在Vue 3.0中,使用Provide和Inject进…

Navicat下载安装

官网地址:Navicat | Download Navicat Premium 14-day trial versions for Windows, macOS and Linux 1、进入官网下载地址,根据需求进行下载 2、双击安装程序,点击【下一步】 3、选择【我同意】,点击下一步 4、自定义安装路径&a…

Linux基于CentOS学习【进程状态】【进程优先级】【调度与切换】【进程挂起】【进程饥饿】

目录 进程状态 状态决定了什么 进程等待方式——队列 进程状态的表现 挂起状态 基于阻塞的挂起——阻塞挂起 swap分区 进程状态表示 Z僵尸状态 进程的优先级 什么是进程的优先级 为什么会有进程的优先级 进程饥饿 Linux的调度与切换 切换 调度 queue [ 140 ]&am…

使用本地模型根据对话对客户进行画像

基于ollama部署本地模型,如:qwen2.5。通过迭代提示词实现客户画像的生成,根据具体需求,通过迭代提示词可以达成目标。输出的结果可以要求JSON格式输出,当前模型JSON的解析准确率比较高,在输出的content中&a…

【可视化大屏】将柱状图引入到html页面中

到这里还是用的死数据&#xff0c;先将柱状图引入html页面测试一下 根据上一步echarts的使用步骤&#xff0c;引入echarts.js后需要初始化一个实例对象&#xff0c;所以新建一个index.js文件来进行创建实例化对象和配置数据信息等。 //在index.html引入<script src"j…