长视频生成、尝试性检索、任务推理

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

COMAL:AConvergent Meta-Algorithm for Aligning LLMs with General Preferences

许多对齐方法，包括基于人类反馈的强化学习（RLHF），依赖于布拉德利-特里（Bradley-Terry）奖励假设，然而这一假设无法充分捕捉人类偏好的全范围。为了实现与一般偏好的稳健对齐，本文将对齐问题建模为一个二人零和博弈，其中纳什均衡策略能够保证在对抗任何竞争策略时的胜率达到50%。然而，以往用于寻找纳什策略的算法要么发散，要么收敛到修改后的博弈中的纳什策略，即使在简单的合成环境中，也无法保持对所有其他策略的50%胜率保证。本文提出了一种用于语言模型与一般偏好对齐的元算法——收敛性元对齐算法（Convergent Meta Alignment Algorithm, COMAL），其灵感来源于博弈论中的收敛算法。理论上，本研究证明该元算法在最终迭代中能够收敛到精确的纳什策略。此外，该元算法简单易用，可以与许多现有的针对RLHF和偏好优化的方法相结合，且仅需进行最小的改动。实验结果表明，当与现有的偏好策略优化方法结合时，所提出的框架能够有效发挥作用。

文章链接：

https://arxiv.org/pdf/2410.23223

Why Fine-grained Labels in Pretraining Benefit Generaliza tion?

近期研究表明，使用细粒度标注数据对深度神经网络进行预训练，随后在下游任务中使用粗粒度标注数据进行微调，通常比仅使用粗粒度标注数据进行预训练获得更好的泛化性能。尽管有大量的实证研究支持这一现象，但其理论依据仍然是一个未解决的问题。本文通过引入“层次多视图”结构来约束输入数据分布，填补了这一空白。在该框架下，本文证明了：1）粗粒度预训练仅能使神经网络很好地学习到共同特征，而2）细粒度预训练则有助于网络在学习共同特征的同时，还能够学习到稀有特征，从而在困难的下游测试样本上提高准确性。

文章链接：

https://arxiv.org/pdf/2410.23129

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

人类拥有互补的学习系统，能够将对一般世界动态的缓慢学习与从新体验中快速存储情景记忆相结合。然而，以往的视频生成模型主要关注通过大量数据预训练实现的缓慢学习，忽略了对情景记忆存储至关重要的快速学习阶段。这种忽视导致在生成较长视频时，时间上相隔较远的帧之间会出现不一致，因为这些帧超出了模型的上下文窗口范围。为此，本文提出了SLOWFAST-VGEN，这是一个用于行为驱动的长视频生成的新型双速学习系统。该方法结合了一个用于缓慢学习世界动态的掩码条件视频扩散模型，以及一个基于时间LoRA模块的推理时快速学习策略。具体而言，快速学习过程会根据局部输入和输出更新其时间LoRA参数，从而高效地将情景记忆存储在其参数中。本文进一步提出了一种慢-快学习循环算法，将内部快速学习循环无缝整合到外部缓慢学习循环中，使模型能够回忆起之前的多情景体验，以实现具有上下文感知能力的技能学习。为了促进对近似世界模型的缓慢学习，作者收集了一个包含20万段视频的大型数据集，这些视频附带语言行为注释，涵盖了广泛的情景。大量实验表明，SLOWFAST-VGEN在行为驱动的视频生成的各种指标上均优于基线模型，其FVD得分为514，而基线模型为782，并且在较长视频中保持了更好的一致性，平均场景切换次数为0.37，相比之下基线模型为0.89。此外，慢-快学习循环算法在长视野规划任务中也显著提升了性能。

文章链接：

https://arxiv.org/pdf/2410.23277

Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval

大语言模型（LLMs）的幻觉问题正通过允许其搜索信息并将其回答基于真实来源来逐步缓解。然而，LLMs在提出正确的搜索查询时常常面临困难，尤其是在处理复杂或间接的主题时。鉴于LLMs可以通过尝试不同的查询来学习搜索相关事实，并对成功检索到相关信息的查询赋予更高的权重，本文提出了一种名为“通过尝试学习检索”（Learning to Retrieve by Trying, LeReT）的强化学习框架。该框架通过探索搜索查询并利用基于偏好的优化方法来提升查询质量。LeReT能够将检索准确率提升多达29%，并将下游生成器的评估指标提升17%。LeReT的简单性和灵活性使其能够应用于任意现成的检索器，并使其成为改进通用LLM流程的有前景的技术。

文章链接：

https://arxiv.org/pdf/2410.23214

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

近年来，强化学习（RL）领域出现了一种趋势，即通过序列建模在大规模数据集上离线训练大型动作模型。现有的模型主要基于Transformer架构，从而实现了强大的智能体。然而，由于推理速度较慢，基于Transformer的方法在实时应用（例如机器人技术）中并不实用。最近，提出了一些现代循环架构，例如xLSTM和Mamba，这些架构在训练过程中具有与Transformer架构类似的并行化优势，同时提供了快速推理的能力。在本研究中，作者探讨了这些现代循环架构在大型动作模型中的适用性，并提出了一种以xLSTM为核心、具有线性时间推理复杂度和自然序列长度外推能力的大型循环动作模型（LRAM）。在来自6个领域的432个任务上的实验表明，LRAM在性能和速度方面与Transformer相当。

文章链接：

https://arxiv.org/pdf/2410.22391

Project MPG: towards a generalized performance benchmark for LLM capabilities

目前存在大量用于评估大语言模型（LLM）的基准测试任务，但在决策过程中，尤其是对于非专业人士来说，一个单一的数字往往是更具可操作性的信息。然而，目前尚未有一种非基于Elo评分系统的聚合方法，而Elo系统可能成本高昂或耗时较长。鉴于此，本文提出了一种用于聚合一般基准测试空间中模型性能的方法，称为“MPG项目”，即“Model Performance and Goodness”（模型性能与优劣）。这一名称也隐喻性地引用了一个广为人知但并不准确且粗糙的汽车性能指标。在此框架下，本文创建了两个数字指标：一个“优劣”数字（答案准确性）和一个“速度”数字（成本或每秒查询次数，QPS）。通过将不同模型相互比较，本文根据这一通用指标以及子领域呈现了模型的排名。研究发现，本文的得分与Chatbot Arena的得分之间存在显著的皮尔逊相关性，甚至在相关性上优于MMLU排行榜与Chatbot Arena之间的相关性。

文章链接：

https://arxiv.org/pdf/2410.22368

Image2Struct: Benchmarking Structure Extraction for Vision-Language Models

本文介绍了Image2Struct，这是一个用于评估视觉-语言模型（VLMs）从图像中提取结构能力的基准测试。该基准测试具备以下特点：1）涵盖真实世界的应用场景；2）完全自动化，无需人工判断；3）基于可更新的数据流。在Image2Struct中，视觉-语言模型被提示从输入图像（例如网页截图）中生成底层结构（例如LaTeX代码或HTML）。生成的结构随后被渲染以产生输出图像（例如渲染后的网页），并与输入图像进行比较以生成相似性评分。这种往返评估方法使得我们能够定量评估视觉-语言模型在具有多种有效结构的任务上的表现。

本文构建了一个数据管道，能够在执行时从活跃的在线社区下载最新数据，并在无需人工干预的情况下对视觉-语言模型进行评估。本文引入了三个领域（网页、LaTeX和乐谱），并采用五种图像度量方法（像素相似性、Inception向量之间的余弦相似性、学习到的感知图像块相似性、结构相似性指数和地球移动相似性），以实现图像对之间的高效自动比较。本文在14种突出的视觉-语言模型上对Image2Struct进行了评估，发现评分差异较大，表明Image2Struct能够区分不同视觉-语言模型的性能。此外，不同领域的最高评分差异显著（例如，乐谱上的评分为0.402，而LaTeX公式上的评分为0.830），这表明Image2Struct包含不同难度的任务。