长视频生成、尝试性检索、任务推理 | Big Model Weekly 第56期

点击蓝字

78956f8571c5d504ec0c8d0aa4eaa81e.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

COMAL:AConvergent Meta-Algorithm for Aligning LLMs with General Preferences

许多对齐方法,包括基于人类反馈的强化学习(RLHF),依赖于布拉德利-特里(Bradley-Terry)奖励假设,然而这一假设无法充分捕捉人类偏好的全范围。为了实现与一般偏好的稳健对齐,本文将对齐问题建模为一个二人零和博弈,其中纳什均衡策略能够保证在对抗任何竞争策略时的胜率达到50%。然而,以往用于寻找纳什策略的算法要么发散,要么收敛到修改后的博弈中的纳什策略,即使在简单的合成环境中,也无法保持对所有其他策略的50%胜率保证。本文提出了一种用于语言模型与一般偏好对齐的元算法——收敛性元对齐算法(Convergent Meta Alignment Algorithm, COMAL),其灵感来源于博弈论中的收敛算法。理论上,本研究证明该元算法在最终迭代中能够收敛到精确的纳什策略。此外,该元算法简单易用,可以与许多现有的针对RLHF和偏好优化的方法相结合,且仅需进行最小的改动。实验结果表明,当与现有的偏好策略优化方法结合时,所提出的框架能够有效发挥作用。

27580459d5d30cda2c3632b5de908f05.png

5f4341c17d446782d9e050ce0f35b019.png

cb48dec81ff07cc7ecf76681f55bfd1e.png

文章链接:

https://arxiv.org/pdf/2410.23223

02

Why Fine-grained Labels in Pretraining Benefit Generaliza tion?

近期研究表明,使用细粒度标注数据对深度神经网络进行预训练,随后在下游任务中使用粗粒度标注数据进行微调,通常比仅使用粗粒度标注数据进行预训练获得更好的泛化性能。尽管有大量的实证研究支持这一现象,但其理论依据仍然是一个未解决的问题。本文通过引入“层次多视图”结构来约束输入数据分布,填补了这一空白。在该框架下,本文证明了:1)粗粒度预训练仅能使神经网络很好地学习到共同特征,而2)细粒度预训练则有助于网络在学习共同特征的同时,还能够学习到稀有特征,从而在困难的下游测试样本上提高准确性。

5729e4eaebfe5f2dbfd487c5bfb3d11a.png

1b08d8ce97f4fee1080e43e5a2f92ac2.png

1b398fc0de058d00f774c87e39a07148.png

9b8c4d2ea1b8708845d11bf399075b7c.png

文章链接:

https://arxiv.org/pdf/2410.23129

03

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

人类拥有互补的学习系统,能够将对一般世界动态的缓慢学习与从新体验中快速存储情景记忆相结合。然而,以往的视频生成模型主要关注通过大量数据预训练实现的缓慢学习,忽略了对情景记忆存储至关重要的快速学习阶段。这种忽视导致在生成较长视频时,时间上相隔较远的帧之间会出现不一致,因为这些帧超出了模型的上下文窗口范围。为此,本文提出了SLOWFAST-VGEN,这是一个用于行为驱动的长视频生成的新型双速学习系统。该方法结合了一个用于缓慢学习世界动态的掩码条件视频扩散模型,以及一个基于时间LoRA模块的推理时快速学习策略。具体而言,快速学习过程会根据局部输入和输出更新其时间LoRA参数,从而高效地将情景记忆存储在其参数中。本文进一步提出了一种慢-快学习循环算法,将内部快速学习循环无缝整合到外部缓慢学习循环中,使模型能够回忆起之前的多情景体验,以实现具有上下文感知能力的技能学习。为了促进对近似世界模型的缓慢学习,作者收集了一个包含20万段视频的大型数据集,这些视频附带语言行为注释,涵盖了广泛的情景。大量实验表明,SLOWFAST-VGEN在行为驱动的视频生成的各种指标上均优于基线模型,其FVD得分为514,而基线模型为782,并且在较长视频中保持了更好的一致性,平均场景切换次数为0.37,相比之下基线模型为0.89。此外,慢-快学习循环算法在长视野规划任务中也显著提升了性能。

ae32e5d2f95387dda3a7a9acb74ca29f.png

5a2300379be3a53a228aa749ca1f8646.png

4d3eceeddf547053c842a4a532254924.png

e055b04421c14ed3edc6170e209cab34.png

文章链接:

https://arxiv.org/pdf/2410.23277

04

Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval

大语言模型(LLMs)的幻觉问题正通过允许其搜索信息并将其回答基于真实来源来逐步缓解。然而,LLMs在提出正确的搜索查询时常常面临困难,尤其是在处理复杂或间接的主题时。鉴于LLMs可以通过尝试不同的查询来学习搜索相关事实,并对成功检索到相关信息的查询赋予更高的权重,本文提出了一种名为“通过尝试学习检索”(Learning to Retrieve by Trying, LeReT)的强化学习框架。该框架通过探索搜索查询并利用基于偏好的优化方法来提升查询质量。LeReT能够将检索准确率提升多达29%,并将下游生成器的评估指标提升17%。LeReT的简单性和灵活性使其能够应用于任意现成的检索器,并使其成为改进通用LLM流程的有前景的技术。

983b9aa8dde67113b070e9c42b93b4a5.png

edaeab3db06e6a1fddedaa9f779604f7.png

81867243eb03d148373d0efc8f5e09ac.png

85f9c3cbe0455a1b9dae14a48a5da7ae.png

3b1c0e37fdcb9a4073843b8132b094f9.png

c06ce439d342110feaf5b0e4533fcc16.png

文章链接:

https://arxiv.org/pdf/2410.23214

05

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

近年来,强化学习(RL)领域出现了一种趋势,即通过序列建模在大规模数据集上离线训练大型动作模型。现有的模型主要基于Transformer架构,从而实现了强大的智能体。然而,由于推理速度较慢,基于Transformer的方法在实时应用(例如机器人技术)中并不实用。最近,提出了一些现代循环架构,例如xLSTM和Mamba,这些架构在训练过程中具有与Transformer架构类似的并行化优势,同时提供了快速推理的能力。在本研究中,作者探讨了这些现代循环架构在大型动作模型中的适用性,并提出了一种以xLSTM为核心、具有线性时间推理复杂度和自然序列长度外推能力的大型循环动作模型(LRAM)。在来自6个领域的432个任务上的实验表明,LRAM在性能和速度方面与Transformer相当。

c1d299aedb6520c9d646c05673d9ab6f.png

b551fb31766416c0edba6de057aa87cf.png

08a9f4a37a249801cd50196c715ab651.png

b76e382b8f3bc2f47888d07162e80e95.png

1af5d97318bb7428ca2ae27b440772a1.png

文章链接:

https://arxiv.org/pdf/2410.22391

06

Project MPG: towards a generalized performance benchmark for LLM capabilities

目前存在大量用于评估大语言模型(LLM)的基准测试任务,但在决策过程中,尤其是对于非专业人士来说,一个单一的数字往往是更具可操作性的信息。然而,目前尚未有一种非基于Elo评分系统的聚合方法,而Elo系统可能成本高昂或耗时较长。鉴于此,本文提出了一种用于聚合一般基准测试空间中模型性能的方法,称为“MPG项目”,即“Model Performance and Goodness”(模型性能与优劣)。这一名称也隐喻性地引用了一个广为人知但并不准确且粗糙的汽车性能指标。在此框架下,本文创建了两个数字指标:一个“优劣”数字(答案准确性)和一个“速度”数字(成本或每秒查询次数,QPS)。通过将不同模型相互比较,本文根据这一通用指标以及子领域呈现了模型的排名。研究发现,本文的得分与Chatbot Arena的得分之间存在显著的皮尔逊相关性,甚至在相关性上优于MMLU排行榜与Chatbot Arena之间的相关性。

c86b736d624b8285d5d2c55fb228655e.png

29fc1baff344558450b5628ea464cec9.png

323fc77cae5df926e05ce69e5d3f2114.png

文章链接:

https://arxiv.org/pdf/2410.22368

07

Image2Struct: Benchmarking Structure Extraction for Vision-Language Models

本文介绍了Image2Struct,这是一个用于评估视觉-语言模型(VLMs)从图像中提取结构能力的基准测试。该基准测试具备以下特点:1)涵盖真实世界的应用场景;2)完全自动化,无需人工判断;3)基于可更新的数据流。在Image2Struct中,视觉-语言模型被提示从输入图像(例如网页截图)中生成底层结构(例如LaTeX代码或HTML)。生成的结构随后被渲染以产生输出图像(例如渲染后的网页),并与输入图像进行比较以生成相似性评分。这种往返评估方法使得我们能够定量评估视觉-语言模型在具有多种有效结构的任务上的表现。

本文构建了一个数据管道,能够在执行时从活跃的在线社区下载最新数据,并在无需人工干预的情况下对视觉-语言模型进行评估。本文引入了三个领域(网页、LaTeX和乐谱),并采用五种图像度量方法(像素相似性、Inception向量之间的余弦相似性、学习到的感知图像块相似性、结构相似性指数和地球移动相似性),以实现图像对之间的高效自动比较。本文在14种突出的视觉-语言模型上对Image2Struct进行了评估,发现评分差异较大,表明Image2Struct能够区分不同视觉-语言模型的性能。此外,不同领域的最高评分差异显著(例如,乐谱上的评分为0.402,而LaTeX公式上的评分为0.830),这表明Image2Struct包含不同难度的任务。

47a3261d78f06b87ea2d44123ce6bc8c.png

a850e81ee68c35e7efbd5e8aefe30a0d.png

6309caef539c2b07d5fa45ee355be294.png

a24d75a87ec90a175728949ecb3901c7.png

文章链接:

https://arxiv.org/pdf/2410.22456

本期文章由陈研整理

往期精彩文章推荐

48a72252fdef0e11642c6bfff5e22bd7.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 6bc6f08119f3dcb9c821788b5130c58d.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

dd0f20bf597aac950d8b05b679fc601d.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20041.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL高级语法

1. TOP 子句 TOP 子句用于规定要返回的记录的数目。 对于拥有数千条记录的大型表来说,TOP 子句是非常有用的。 SQL Server 的语法: SELECT TOP number|percent column_name(s) FROM table_name MySQL 语法 在 MySQL 中,并没有直接支持 TOP 语…

均匀面阵抗干扰算法原理及MATLAB仿真

均匀面阵抗干扰算法原理及MATLAB仿真 仿真方向图,频谱图,计算输出SNR、INR、SINR 文章目录 前言一、抗干扰算法原理二、抗干扰算法仿真三、MATLAB源代码总结 前言 \;\;\;\;\; 在阵列信号处理中,信号的抗干扰处理是重中之重,传输期…

Elasticsearch:同义词在 RAG 中重要吗?

作者:来自 Elastic Jeffrey Rengifo 及 Toms Mura 探索 RAG 应用程序中 Elasticsearch 同义词的功能。 同义词允许我们使用具有相同含义的不同词语在文档中搜索,以确保用户无论使用什么确切的词语都能找到他们所寻找的内容。你可能会认为,由于…

算法与数据结构(最小栈)

题目 思路 为了返回栈中的最小元素,我们需要额外维护一个辅助栈 min_stack,它的作用是记录当前栈中的最小值。 min_stack的作用: min_stack的栈顶元素始终是当前栈 st 中的最小值。 每当st中压入一个新元素时,如果这个元素小于等…

midjourney 一 prompt 提示词

midjourney 不需要自然语言的描述,它只需要关键词即可。 一个完整的Midjourney prompt通常包括三个部分 图片提示(Image Prompts)、文本提示(Text Prompt)和参数(Parameters)。 1、图片提示(…

英码科技基于昇腾算力实现DeepSeek离线部署

DeepSeek-R1 模型以其创新架构和高效能技术迅速成为行业焦点。如果能够在边缘进行离线部署,不仅能发挥DeepSeek大模型的效果,还能确保数据处理的安全性和可控性。 英码科技作为AI算力产品和AI应用解决方案服务商,积极响应市场需求&#xff0…

Android13-包安装器PackageInstaller-之apk安装流程

目的 我们最终是为了搞明白安装的整个流程通过安卓系统自带的包安装器来了解PMS 安装流程实现需求定制:静默安装-安装界面定制-安装拦截验证。【核心目的】 安装流程和PMS了解不用多说了; 安装定制相关: 如 手机上安装时候弹出锁屏界面需要输入密码;安…

新型基于Go语言的恶意软件利用Telegram作为C2通信渠道

研究人员发现了一种新型后门恶意软件,使用Go语言编写,并利用Telegram作为其命令与控制(C2)通信渠道。尽管该恶意软件似乎仍处于开发阶段,但它已经具备完整的功能,能够执行多种恶意活动。这种创新的C2通信方…

5分钟了解! 探索 AnythingLLM,借助开源 AI 打造私有化智能知识库,熟悉向量数据库

本文是系列文章,在前面提到安装Ollama和AnythingLLM的教程,本文会着重解决本地文档向量化的过程,同时本地应用的管理。 图1. 上传本地文档进行向量化处理 • 构建向量数据库特别慢:支持的文档格式很多,但在我的电脑32…

电商小程序(源码+文档+部署+讲解)

引言 随着移动互联网的快速发展,电商小程序成为连接消费者与商家的重要桥梁。电商小程序通过数字化手段,为消费者提供了一个便捷、高效的购物平台,从而提升购物体验和满意度。 系统概述 电商小程序采用前后端分离的架构设计,服…

基于SpringBoot的“高考志愿智能推荐系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“高考志愿智能推荐系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统总体结构图 系统首页界面 系统注册页…

合并多次commit记录

合并多次commit记录 1. 首先先提交多次记录2. 某个版本之前的commit记录合并 1. 首先先提交多次记录 在log中可以看到有多次commit 记录 然后拉取最新代码 (base) ➜ gaolijie git:(master) git pull --rebase origin masterFrom https://gitee.com/Blue_Pepsi_Cola/gaoliji…

哈希表(C语言版)

文章目录 哈希表原理实现(无自动扩容功能)代码运行结果 分析应用 哈希表 如何统计一段文本中,小写字母出现的次数? 显然,我们可以用数组 int table[26] 来存储每个小写字母出现的次数,而且这样处理,效率奇高。假如我们想知道字…

uniapp商城之首页模块

文章目录 前言一、自定义导航栏1.静态结构2.修改页面配置3.组件安全区适配二、通用轮播组件1. 静态结构组件2.自动导入全局组件3.首页轮播图数据获取三、首页分类1.静态结构2.首页获取分类数据并渲染四、热门推荐1.静态结构2.首页获取推荐数据并渲染3.首页跳转详细推荐页五、猜…

CNAPPgoat:一款针对云环境的安全实践靶场

关于CNAPPgoat CNAPPgoat是一款针对云环境的安全实践靶场,该工具旨在帮助广大研究人员在云环境中模块化地提供故意留下安全缺陷的设计组件,专为防御者和渗透测试人员提供练习场地而设计。 CNAPPgoat的主要功能是跨多个云服务提供商部署故意留下安全缺陷…

【学习资源】时间序列数据分析方法(2)-mWDN和AutoEncoder

接着上次的【学习资源】时间序列数据分析方法(1)-CSDN博客,本次介绍mWDN和AutoEncoder 解决时序数据分类的方法。介绍模型原理、应用场景和参考代码。也从模型性能、训练效率、模型复杂度、计算复杂度、可解释性、适应性和泛化能力、健壮性、…

【C++】stack 和 queue 的适配器模式与实现

> 🍃 本系列为初阶C的内容,如果感兴趣,欢迎订阅🚩 > 🎊个人主页:[小编的个人主页])小编的个人主页 > 🎀 🎉欢迎大家点赞👍收藏⭐文章 > ✌️ 🤞 &#x1…

Chrome多开终极形态解锁!「窗口管理工具+IP隔离插件

Web3项目多开,继ads指纹浏览器钱包被盗后,更多人采用原生chrome浏览器,当然对于新手,指纹浏览器每月成本也是一笔不小开支,今天逛Github发现了这样一个解决方案,作者开发了窗口管理工具IP隔离插件&#xff…

从零开始部署DeepSeek:基于Ollama+Flask的本地化AI对话系统

从零开始部署DeepSeek:基于OllamaFlask的本地化AI对话系统 一、部署背景与工具选型 在AI大模型遍地开花的2025年,DeepSeek R1凭借其出色的推理能力和开源特性成为开发者首选。本文将以零基础视角,通过以下工具链实现本地化部署: …

python旅游推荐系统+爬虫+可视化(协同过滤算法)

✅️基于用户的协同过滤算法 ✅️有后台管理 ✅️2w多数据集 这个旅游数据分析推荐系统采用了Python语言、Django框架、MySQL数据库、requests库进行网络爬虫开发、机器学习中的协同过滤算法、ECharts数据可视化技术,以实现从网站抓取旅游数据、个性化推荐和直观展…