大模型日报｜7 篇必读的大模型论文

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

1.上交大团队新研究：像专家一样大规模提升预训练数据质量

大语言模型（LLM）的预训练历来依赖于人类专家为提高语料库质量而精心设计的启发式方法，迄今为止已开发出大量规则。然而，这些规则缺乏灵活性，无法有效解决单个示例的独特性问题。同时，对于人类专家来说，对每个示例应用量身定制的规则也是不切实际的。

来自上海交通大学和 Sea AI Lab 的研究团队证明了即使是参数少至 0.3B 的小语言模型，也能表现出与人类专家相当的数据提炼能力。他们提出了 Programming Every Example (ProX)，这是一个新颖的框架，它将数据提炼视为一项编程任务，使模型能够通过生成和执行细粒度操作（如字符串规范化）来精炼语料库。实验结果表明，在各种下游基准测试中，经过 ProX 精选数据预训练的模型优于原始数据或经过其他选择方法过滤的数据 2% 以上。它的有效性跨越了各种模型规模和预训练语料库，包括 C4、RedPajama-V2 和 FineWeb。

此外，ProX 在特定领域的持续预训练方面也表现出了巨大的潜力：在没有特定领域设计的情况下，ProX 在 OpenWebMath 上改进训练的模型优于人工创建的基于规则的方法，平均准确率比 Mistral-7B 提高了 7.6%，Llama-2-7B 提高了 14.6%，CodeLlama-7B 提高了 20.3%，所有这些都是在 10B Token 范围内实现的，可与在 200B Token 范围内训练的 Llemma-7B 等模型相媲美。进一步的分析表明，ProX 极大地节省了训练 FLOP，为高效的 LLM 预训练提供了一条有前景的道路。

论文链接：
https://arxiv.org/abs/2409.17115
GitHub 地址：
https://github.com/GAIR-NLP/ProX

2.SOTA 多模态模型的开放权重和开放数据

当今最先进的多模态模型仍然是专有的。最强的开放权重模型在很大程度上依赖于专有 VLM 的合成数据来实现良好的性能，从而有效地将这些封闭模型提炼为开放模型。因此，对于如何从零开始建立性能卓越的 VLM，社会仍然缺乏基础知识。

来自艾伦人工智能研究所和华盛顿大学的研究团队推出了一个新的 VLM 系列——Molmo，在其开放性级别中处于 SOTA。他们的关键创新在于一个新颖、高度详细的图像标题数据集，该数据集完全由使用语音描述的人类标注员收集而来。为了实现广泛的用户交互，他们还推出了一个用于微调的多样化数据集，其中包括实用问答和创新的二维指向数据。他们的方法能否取得成功，取决于对模型架构细节的精心选择、经过微调的训练管道，最关键的是他们新收集的数据集的质量，所有这些数据集都将发布。

Molmo 系列中 BIC 的 72B 参数模型不仅在开放权重和数据模型方面优于其他同类产品，而且在学术基准和人类评估方面也优于 GPT-4o、Claude 3.5 和 Gemini 1.5 等专有系统。

论文链接：
https://arxiv.org/abs/2409.17146
项目地址：
https://molmo.allenai.org/

3.视觉大语言模型的统一幻觉缓解框架

幻觉是视觉大语言模型（LVLMs）的一个常见问题，而且难以消除。带有幻觉的生成与图像内容部分不一致。为了缓解幻觉问题，目前的研究要么侧重于模型推理过程，要么侧重于模型生成结果，但它们设计的解决方案有时不能恰当地处理各种类型的查询以及生成时对这些查询产生的幻觉。

为了准确处理各种幻觉，德克萨斯大学达拉斯分校团队提出了一个缓解幻觉的统一框架——Dentist。其核心步骤是首先对查询进行分类，然后根据分类结果执行不同的幻觉缓解过程，就像牙医首先观察牙齿然后制定计划一样。在一个简单的部署中，Dentist 就能将查询分类为感知或推理，并轻松减轻答案中可能出现的幻觉，这在实验中已得到证实。

在 MMbench 上，与基线 InstructBLIP/LLaVA/VisualGLM 相比，他们在粗感知视觉问答（VQA）任务 Image Quality 上的准确率分别提高了 13.44%/10.2%/15.8%。

论文链接：
https://arxiv.org/abs/2409.16494

4.北航团队提出大语言模型长文本生成评估基准 HelloBench

近年来，大语言模型（LLM）在各种任务（如长文本理解）中表现出了卓越的能力，并提出了许多基准。然而，北京航空航天大学研究团队及其合作者注意到，长文本生成能力并没有得到很好的研究。因此，他们提出了分层长文本生成基准——HelloBench，这是一个全面、实用、开放的基准，用于评估 LLM 在生成长文本方面的性能。

根据布鲁姆分类法，HelloBench 将长文本生成任务分为五个子任务：开放式问答、总结、聊天、文本补全和启发式文本生成。此外，他们还提出了分层长文本评估——HelloEval，这是一种与人工对齐的评估方法，可显著减少人工评估所需的时间和精力，同时保持与人工评估的高度相关性。他们对大约 30 种主流 LLM 进行了广泛的实验，发现目前的 LLM 缺乏长文本生成能力。

具体来说，首先，无论指令是否包含显式或隐式长度限制，大多数 LLM 无法生成长度超过 4000 字的文本。其次，虽然有些 LLM 可以生成更长的文本，但也存在许多问题（如严重重复和质量下降）。第三，为了证明 HelloEval 的有效性，他们将 HelloEval 与传统度量方法（如 ROUGE、BLEU等）和 LLM-as-a-Judge 方法进行了比较，结果表明 HelloEval 与人工评估的相关性最高。

论文链接：
https://arxiv.org/abs/2409.16191
GitHub 地址：
https://github.com/Quehry/HelloBench

5.OmniBench：迈向通用全语言模型的未来

多模态大语言模型（MLLM）的最新进展旨在整合和解释不同模态的数据。然而，这些模型同时处理和推理多种模态的能力仍未得到充分探索，部分原因是缺乏全面的模态基准。

来自 M-A-P 的研究团队及其合作者提出了一个新的基准——OmniBench，旨在严格评估模型同时识别、解释和推理视觉、声音和文本输入的能力。他们将能够进行这种三模态处理的模型定义为全语言模型（OLM）。OmniBench 以高质量的人工标注为特色，确保准确的响应需要综合理解和推理所有三种模态。

研究结果表明：i）大多数 OLM 在三模态上下文的指令遵循和推理能力方面具有严重的局限性；ii）即使在提供图像或/和音频的替代文本表示时，大多数基线模型的表现也很差（准确率低于 50%）。

这些结果表明，在现有的 MLLM 训练范式中，从文本、图像和音频中构建一致上下文的能力往往被忽视。他们主张未来的研究应专注于开发更强大的三模态整合技术和训练策略，以提高不同模态的 OLM 性能。

论文链接：
https://arxiv.org/abs/2409.15272
项目地址：
https://m-a-p.ai/OmniBench/

6.Google DeepMind 推出鲁棒奖励模型 RRM

奖励模型（RM）在使大语言模型（LLM）符合人类偏好方面发挥着关键作用。然而，传统的奖励模型训练依赖于与特定提示相关的应答对，很难将提示驱动的偏好与应答长度和格式等与提示无关的因素区分开来。

在这项工作中，来自 Google DeepMind 的研究团队及其合作者揭示了当前 RM 训练方法的一个基本局限，即 RM 在确定偏好时无法有效区分上下文信号和无关人工痕迹。为了解决这个问题，他们提出了一个因果框架，该框架可以学习独立于这些人工痕迹的偏好，并提出了一种新颖的数据增强技术，旨在消除这些人工痕迹。广泛的实验表明，他们的方法成功地过滤了不需要的人工痕迹，产生了一个鲁棒奖励模型（RRM）。

在 RewardBench 上，他们的 RRM 提高了在 Gemma-2-9b-it 上训练的成对奖励模型的性能，准确率从 80.61% 提高到 84.15%。此外，他们还使用 RM 和 RRM 训练了两种 DPO 策略，结果表明 RRM 显著提高了 DPO 对齐策略的性能，将 MT-Bench 分数从 7.27 提高到 8.31，将 AlpacaEval-2 中的长度控制胜率从 33.46% 提高到 52.49%。

论文链接：
https://arxiv.org/abs/2409.13156

7.大模型的视觉提示新技术 Attention Prompting on Image

与大语言模型（LLM）相比，视觉大语言模型（LVLM）也可以接受图像作为输入，从而展现出更有趣的新兴能力，并在各种视觉语言任务中表现出令人印象深刻的性能。受 LLM 中的文本提示的启发，人们探索了视觉提示技术，以增强 LVLM 感知视觉信息的能力。然而，以往的视觉提示技术只处理视觉输入，而不考虑文本查询，从而限制了模型按照文本指令完成任务的能力。

为了填补这一空白，新加坡国立大学团队提出了一项新提示技术——Attention Prompting on Image，该技术只需在原始输入图像上简单叠加一个文本查询引导的注意力热图，就能有效增强 LVLM 在各种任务中的能力。具体来说，他们通过 CLIP 等辅助模型，根据文本查询为输入图像生成注意力热图。然后，热图只需乘以原始图像的像素值，即可获得 LVLM 的实际输入图像。

在各种视觉语言基准上进行的大量实验验证了该技术的有效性。例如，在 MM-Vet 和 LLaVA-Wild 基准测试中，图像注意力提示技术分别将 LLaVA-1.5 提高了 3.8% 和 2.9%。

论文链接：
https://arxiv.org/abs/2409.17143