大模型日报|8 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Pandora:自回归-扩散混合通用世界模型

世界模型模拟世界在不同行动下的未来状态,它们有助于创建交互式内容,并为有依据的长远推理提供基础。然而,目前的基础模型并不能完全满足通用世界模型的能力要求——大语言模型(LLM)由于依赖语言模式和对物理世界的理解有限而受到限制,而视频模型则缺乏对世界模拟的交互式行动控制。

来自 Maitrix、加州大学圣地亚哥分校和 MBZUAI 的研究团队提出了一种自回归-扩散混合模型 Pandora,通过生成视频来模拟世界状态,并允许使用自由文本操作进行实时控制,从而向建立通用世界模型迈出了一步。

Pandora 通过大规模预训练和指令微调实现了领域通用性、视频一致性和可控性。最重要的是,Pandora 通过整合预训练 LLM(7B)和预训练视频模型,绕过了从头开始训练的成本,只需要额外的轻量级微调。他们展示了 Pandora 在不同领域(室内与室外、自然与城市、人类与机器人、2D 与 3D 等)的生成结果。结果表明,通过更大规模的训练,建立更强大的通用世界模型潜力巨大。

论文链接:
https://arxiv.org/abs/2406.09455
项目地址:
https://world-model.maitrix.org/

2.牛津大学新研究:将深度贝叶斯主动学习用于 LLM 偏好建模

近年来,利用人类偏好来引导大语言模型(LLM)的行为已经取得了显著的成功。然而,数据选择和标签仍然是这些系统尤其是在大规模应用中的瓶颈。因此,选择信息量最大的点来获取人类反馈,可以大大降低偏好标签的成本,促进 LLM 的进一步发展。贝叶斯主动学习(Bayesian Active Learning)为此提供了一个原则性框架,并在各种环境中取得了成功。然而,之前将其用于偏好建模的尝试并未达到预期效果。

来自牛津大学的研究团队发现原生(naive)的认识论不确定性估计会导致获取冗余样本。为此,他们提出了一种新颖的随机获取策略——贝叶斯主动学习器偏好建模(BAL-PM),它不仅能根据偏好模型锁定认识不确定性高的点,还能在所采用的 LLM 所跨的特征空间中寻求获取的提示分布熵的最大化。

实验证明,在两个流行的人类偏好数据集中,BAL-PM 所需的偏好标签减少了 33%-68%,超过了以前的随机贝叶斯获取策略。

论文链接:
https://arxiv.org/abs/2406.10023

3.哈佛、牛津团队提出 LLM 数据选择新方法 CoLoR-Filter

选择高质量的数据进行预训练对塑造语言模型的下游任务性能至关重要。确定最佳子集是一项重大挑战,因此需要可扩展的有效启发式方法。来自哈佛大学和牛津大学的研究团队提出了一种数据选择方法 —— 条件损失减少过滤 (CoLoR-Filter),利用贝叶斯启发法的经验,基于两个辅助模型的相对损失值,推理出一种简单且计算效率高的选择标准。

除了建模原理外,他们还在两个语言建模任务中对 CoLoR-Filter 进行了实证评估:(1)从 C4 中选择数据,用于在 Books 上进行领域适应性评估;(2)从 C4 中选择数据,用于一套下游选择题回答任务。通过更积极地进行子选择和使用小型辅助模型为大型目标模型选择数据,他们展示出了该方法良好的扩展性。

一个突出的结果是,使用一对 1.5 亿参数的辅助模型选择 CoLoR-Filter 数据,可以训练一个 1.2b 参数的目标模型,使其与在 25b 随机选择的 token 上训练的 1.2b 参数模型相匹配,而 Books 的数据要少 25 倍,下游任务的数据要少 11 倍。

论文链接:
https://arxiv.org/abs/2406.10670
GitHub 地址:
https://github.com/davidbrandfonbrener/color-filter-olmo

4.GAMA:具有高级音频理解和复杂推理能力的大型音频语言模型

感知和理解非语言声音和非语言语音对于做出有助于人类与周围环境互动的决策至关重要。

来自美国马里兰大学和 Adobe 的研究团队提出了具有高级音频理解和复杂推理能力的新型通用大型音频语言模型——GAMA,其通过将 LLM 与多种类型的音频表征(包括来自定制音频 Q-Former 的特征)相集成来构建。Q-Former 是一种多层聚合器,可聚合来自音频编码器多层的特征。

他们在大规模音频语言数据集上对 GAMA 进行了微调,从而增强了它的音频理解能力。他们还提出了一个合成生成的指令微调数据集——复杂音频推理指令微调(CompA-R),其中包含要求模型对输入音频执行复杂推理的指令。他们利用 CompA-R 对 GAMA 进行指令微调,使其具备复杂推理能力,并通过利用输入音频的事件标签,进一步添加软提示作为具有高级语义证据的输入。

最后,他们还提出了一个人工标签的评估数据集 CompA-R-test,用于评估 LALM 在需要复杂推理的开放式音频问题解答方面的能力。通过自动和专家人工评估,他们发现 GAMA 在各种音频理解方面的表现优于文献中的其他大型音频语言模型。

论文链接:
https://arxiv.org/abs/2406.11768
GitHub 地址:
https://sreyan88.github.io/gamaaudio/

5.探索 LLM 在扩散模型提示编码中的作用

与 CLIP 和 T5 系列模型相比,基于纯解码器 transformer 的大语言模型(LLM)已显示出较好的文本理解能力。然而,在文本到图像的扩散模型中利用当前先进的 LLM 的模式仍有待探索。

来自 SenseTime、香港中文大学和上海 AI Lab 的研究团队观察到:直接使用 LLM 作为提示编码器会显著降低图像生成中的提示跟踪能力。他们发现这一问题背后有两个主要障碍:一是 LLM 中的下一个 token 预测训练与扩散模型中对判别提示特征的要求不一致;二是纯解码器架构的内在位置偏差。

为此,他们提出了一个新颖的框架,以充分利用 LLM 的能力。通过精心设计的使用指南,他们有效地增强了提示编码的文本表示能力,并消除了其固有的位置偏差。这使他们能够将先进的 LLM 灵活地集成到文生图像模型中。此外,他们还提供了将多种 LLM 融合到他们的框架中的有效方法。考虑到 transformer 架构所展示的优异性能和扩展能力,他们进一步设计了基于该框架的 LLM 注入扩散 transformer(LI-DiT)。

他们进行了大量实验来验证 LI-DiT 的模型规模和数据规模。得益于 LLMs 的固有能力和他们的创新设计,LI-DiT 的提示理解性能超越了开源模型以及主流闭源商业模型,包括 Stable Diffusion 3、DALL-E 3 和 Midjourney V6。

论文链接:
https://arxiv.org/abs/2406.11831

6.VideoLLM-online:用于流媒体视频的在线视频大语言模型

目前,大语言模型(LLM)已经增强了视觉功能,使其能够理解图像、视频和交错的视觉语言内容。然而,这些大型多模态模型的学习方法通常将视频视为预先确定的片段,使其在处理流媒体视频输入时效率较低。

来自新加坡国立大学和 Meta 的研究团队提出了一种新颖的视频流中学习(LIVE)框架,它可以在连续视频流中实现时间对齐、长上下文和实时对话。他们的 LIVE 框架由实现视频流对话的综合方法组成,包括:(1)旨在为连续流输入执行语言建模的训练目标;(2)将离线时间注释转换为流式对话格式的数据生成方案;(3)在真实世界视频流中加快模型响应速度的优化推理管道。

利用 LIVE 框架,他们在 Llama-2 与 Llama-3 的基础上建立了 VideoLLM-online 模型,并展示了它在处理流视频方面的显著优势。例如,他们的模型可以在 A100 GPU 上以超过 10 FPS 的速度支持 5 分钟视频片段中的流式对话。此外,它还在识别、字幕和预测等公共离线视频基准测试中展示了 SOTA。

论文链接:
https://arxiv.org/abs/2406.11816
GitHub 地址:
https://showlab.github.io/videollm-online/

7.华盛顿大学、苹果等推出 DataComp-LM:寻找下一代语言模型训练集

来自华盛顿大学、苹果、丰田综合研究所、德克萨斯大学奥斯汀分校和特拉维夫大学的研究团队及其合作者,提出了一个以改进语言模型为目标的受控数据集实验平台 DataComp for Language Models(DCLM)。作为 DCLM 的一部分,他们提供了从 Common Crawl 中提取的 240T token 的标准化语料库、基于 OpenLM 框架的有效预训练综合方案以及 53 种下游评估的广泛套件。DCLM 基准的参与者可以在 412M 到 7B 参数的模型规模内尝试重复数据删除、过滤和数据混合等数据整理策略。

作为 DCLM 的基线,他们进行了大量实验,发现基于模型的过滤是组建高质量训练集的关键。由此产生的数据集 DCLM-Baseline 可以从头开始训练一个 7B 参数的语言模型,并在具有 2.6T 训练 token 的 MMLU 上达到 64% 的 5 shot 准确率。与之前的开放数据语言模型 MAP-Neo 相比,DCLM-Baseline 在 MMLU 上提高了 6.6 个百分点,而训练所需的计算量却减少了 40%。他们的基线模型在 MMLU(63% 和 66%)上也可与 Mistral-7B-v0.3 和 Llama 3 8B 相媲美,并且在平均 53 个自然语言理解任务中表现相似,而训练所需的计算量是 Llama 3 8B 的 6.6 倍。他们的研究结果凸显了数据集设计对训练语言模型的重要性,并为进一步研究数据整理提供了一个起点。

论文链接:
https://arxiv.org/abs/2406.11794
GitHub 地址:
https://www.datacomp.ai/dclm/

8.mDPO: 多模态大语言模型的条件偏好优化

直接偏好优化(DPO)已被证明是大语言模型(LLM)对齐的有效方法。最近有研究尝试将 DPO 应用于多模态场景,但发现要实现一致的改进具有挑战性。

来自南加州大学、加利福尼亚大学戴维斯分校和微软的研究团队通过对比实验,发现了多模态偏好优化中的无条件偏好问题,即模型忽略了图像条件。为此,他们提出了一种多模态 DPO 目标 ——mDPO,通过同时优化图像偏好来防止仅语言偏好的过度优先化。此外,他们还提出了一个奖励锚,强制所选反应的奖励为正,从而避免其可能性的降低——这是相对偏好优化的一个固有问题。在两个不同规模的多模态 LLM 和三个广泛使用的基准上进行的实验表明,mDPO 有效地解决了多模态偏好优化中的无条件偏好问题,并显著提高了尤其在减少幻觉方面的模型性能。

论文链接:
https://arxiv.org/abs/2406.11839

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/355050.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法训练与程序竞赛题目集合(L2)

目录 L2-001 城市间紧急救援 输入格式: 输出格式: 输入样例: 输出样例: L2-002 链表去重 输入格式: 输出格式: 输入样例: 输出样例: L2-003 月饼 输入格式: 输出格式: 输入样例: …

【云岚到家】-day03-2-门户缓存实现实战

【云岚到家】-day03-2-门户缓存实现实战 5 缓存实现5.2 定时任务更新缓存5.2.1 分布式调度平台5.2.1.1 jdk提供的Timer定时器5.2.1.2 使用第三方Quartz方式5.2.1.3 使用分布式调度平台XXL-JOB 5.2.2 XXL-JOB5.2.2.1 介绍5.2.2.2 部署调度中心5.2.2.3 执行器 5.2.2 定义缓存更新…

如何在华为 Ascend 设备上运行模型

模型转换:使用华为的模型转换工具 ATC ATC 在 ascend-cann-toolkit 包里 环境 Docker Image: ascendhub.huawei.com/public-ascendhub/ascend-pytorch:24.0.RC1-A2-2.1.0-ubuntu20.04 镜像版本CANN版本Pytorch版本变更项24.0.RC18.0.RC12.1.0基础镜像变更为 ubuntu20.04。p…

vue小总结

知识总结 【 1 】es6 语法总结 # let 定义变量 # const定义常量 ------块级作用域---- # var 以后尽量少用,函数作用域var 在 JavaScript 中是函数作用域或全局作用域。而 let 和 const 是块级作用域。 // 使用 var 声明全局变量 var globalVar "Im a globa…

【Python】一文向您详细解析内置装饰器 @lru_cache

【Python】一文向您详细解析内置装饰器 lru_cache 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985高校的普通本硕&a…

线程池的简介

定义 线程池就是使用多线程的方式,将任务添加到队列中任务都是runnable或者callable的实现类 优点 线程和任务分离,任务可以复用线程池统一管理线程,线程可以复用避免因为开启和销毁线程造成的资源浪费 官方线程池的参数分析 深度理解 线程池…

Vim基础操作:常用命令、安装插件、在VS Code中使用Vim及解决Vim编辑键盘错乱

Vim模式 普通模式(Normal Mode): 这是 Vim 的默认模式,用于执行文本编辑命令,如复制、粘贴、删除等。在此模式下,你可以使用各种 Vim 命令来操作文本。插入模式(Insert Mode)&#…

Maven:一个下载jar依赖失败的问题解决方案

内部的一个jar包已经上传到了私服上,在私服管理端也能看到该jar包的完整信息,但是springboot项目引入该jar包发现死活下载不下来,报错如图: 从该错误信息中可以看到,找不到服务名是xxl-job这个的,我们要找的…

vue3delete请求报403forbidden,前后端解决方式,cookie无效问题

在做开发时,前期已经在Controller类加上CrossOrigin(origins "*"),发送get和post请求都没问题,但遇到delete请求时,又报出跨域问题 一.前端添加proxy代理服务器(未能解决) 在vue.config.js中使…

DAY04 HTMLCSS

文章目录 一 表单(1) 数字控件(2) 颜色控件(3) 日期控件(4) 月份控件(5) 星期控件(6) 搜索控件(7) 范围控件 二 浮动框架三 结构化标签四 CSS1 CSS概述2 CSS的编写位置1. inline style 行内样式2. inner style 内部样式3. outer style 外部样式4. 小结 3 CSS选择器1. 通用选择器…

【StableDiffusion】Prompts 提示词语法;高阶用法;写作顺序是什么,先写什么后写什么

Prompt 写作顺序 第一步:画质词画风词 第一步先写“画质词”和“画风词” 画质词如下: 画风词如下: 第二步:画面主体描述 人物性别、年龄、发型、发色、情绪表情、衣服款式、衣服颜色、动作、饰品、身材、五官微调 第三步&…

Python基础教程(二十四):日期和时间

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

Redis分片集群搭建

主从模式可以解决高可用、高并发读的问题。但依然有两个问题没有解决: 海量数据存储高并发写 要解决这两个问题就需要用到分片集群了。分片的意思,就是把数据拆分存储到不同节点,这样整个集群的存储数据量就更大了。 Redis分片集群的结构如…

嵌入式系统软件开发环境_2.一般架构

1.Eclipse框架 嵌入式系统软件开发环境是可帮助用户开发嵌入式软件的一组工具的集合,其架构的主要特征离不开“集成”问题,采用什么样的架构框架是决定开发环境优劣主要因素。Eclipse框架是当前嵌入式系统软件开发环境被普遍公认的一种基础环境框架。目…

基 CanMV 的 C 开发环境搭建(Linux,Ubuntu篇)

不论是使用 CanMV 提供的基于 C 语言和 FreeRTOS 的应用开发方式开发应用程序或是编译 CanMV 固件,都需要搭建基于 CanMV 的 C 开发环境,用于编译 CanMV 源码。 1. 开发环境搭建说明 CanMV 提供了基于 C 语言和 FreeRTOS 的应用开发…

Hive笔记-3

3.2.2 查看表 1) 展示所有表 (1) 语法: 语法: SHOW TABLES [IN database_name] LIKE [identifier_with_wildcards]; In database_name 写的是查哪个数据库,一般不写默认是当前数据库 Like 后面跟通配符表达式 (2) 案例: 查看在 db_hive1 数据库里有没有以 stu 开头的表 …

Zookeeper 一、Zookeeper简介

1.分布式系统定义及面临的问题 分布式系统是同时跨越多给物理主机,独立运行的多个软件所组成的系统。类比一下,分布式系统就是一群人一起干活。人多力量大,每个服务器的算力是有限的,但是通过分布式系统,由n个服务器组…

【Python日志模块全面指南】:记录每一行代码的呼吸,掌握应用程序的脉搏

文章目录 🚀一、了解日志🌈二、日志作用🌈三、了解日志模块⭐四、日志级别💥五、记录日志-基础❤️六、记录日志-处理器handler🎬七、记录日志-格式化记录☔八、记录日志-配置logger👊九、流程梳理 &#x…

RTSP/Onvif安防监控平台EasyNVR抓包命令tcpdump使用不了,该如何解决?

安防视频监控汇聚EasyNVR智能安防视频监控平台,是基于RTSP/Onvif协议的安防视频平台,可支持将接入的视频流进行全平台、全终端分发,分发的视频流包括RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式。平台可提供的视频能力包括:…

SpringSecurity实战入门——认证

项目代码 gson/spring-security-demo 简介 Spring Security 是 Spring 家族中的一个安全管理框架。相比与另外一个安全框架Shiro,它提供了更丰富的功能,社区资源也比Shiro丰富。 一般来说中大型的项目都是使用SpringSecurity来做安全框架。小项目有Shiro的比较多,因为相比…