大模型日报|10 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.斯坦福推出大模型网络安全能力和风险评估框架 Cybench

用于网络安全的语言模型智能体(agent)能够自主识别漏洞并执行漏洞利用,有可能对现实世界造成影响。政策制定者、模型提供者以及人工智能(AI)和网络安全界的其他研究人员都对量化此智能体的能力感兴趣,从而帮助减轻网络风险并调查渗透测试的机会。

在这项工作中,来自斯坦福大学的研究团队推出了 Cybench,这是一个用于指定网络安全任务和评估智能体执行这些任务情况的框架。他们从 4 个不同的专业级夺旗(CTF)竞赛中选取了 40 个 CTF 任务,这些任务都是最新的、有意义的,而且难度跨度很大。每个任务都有自己的描述和启动文件,并在一个环境中初始化,在该环境中,智能体可以执行 bash 命令并观察输出结果。由于许多任务超出了现有智能体的能力范围,他们提出了子任务,将任务分解为中间步骤,以便进行更分级的评估;他们为 40 项任务中的 17 项添加了子任务。

为了评估智能体能力,他们构建了一个网络安全智能体,并对 7 个模型进行了评估:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有指导的情况下,他们发现智能体只能完成最简单的完整任务,而人类团队需要长达 11 分钟才能完成这些任务,其中 Claude 3.5 Sonnet 和 GPT-4o 的成功率最高。最后,与无引导运行相比,子任务为衡量性能提供了更多信号,有子任务引导的模型在完整任务上的成功率比无子任务引导的高出 3.2%。

论文链接:
https://arxiv.org/abs/2408.08926
项目网站:
https://cybench.github.io/

2.LongVILA:长上下文视觉-语言模型全栈解决方案

长上下文能力对于多模态基础模型至关重要。在这项工作中,来自英伟达和麻省理工学院(MIT)提出了长上下文视觉-语言模型的全栈解决方案 LongVILA,包括系统、模型训练和数据集开发。

在系统方面,他们介绍了首个多模态序列并行(MM-SP)系统,该系统可实现长上下文训练和推理,在 256 个 GPU 上实现 200 万上下文长度的训练。MM-SP 的效率也很高,在纯文本设置下,它比 Ring-Style Sequence Parallelism 快 2.1 - 5.7 倍,比 Megatron-LM 快 1.1 - 1.4 倍。此外,它还能与 Hugging Face Transformers 无缝集成。

在模型训练方面,他们提出了包括对齐、预训练、上下文扩展和长-短联合监督微调在内的五阶段管道。

在数据集方面,他们构建了大规模视觉语言预训练数据集和长视频教学跟踪数据集,从而支持多阶段训练过程。

该全栈解决方案将 VILA 的可行帧数扩大了 128 倍(从 8 帧增加到 1024 帧),并将长视频字幕得分从 2.00 提高到 3.26(1.6 倍),在 1400 帧视频(274k 上下文长度)中实现了 99.5% 的准确率。随着视频帧数的增加,LongVILA-8B 在 VideoMME 基准测试中的长视频性能也得到了持续改善。

论文链接:
https://arxiv.org/abs/2408.10188
GitHub 地址:
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

3.Agent Q:自主 AI 智能体的高级推理和学习

大语言模型(LLMs)在需要复杂推理的自然语言任务中表现出了非凡的能力,但将其应用于交互环境中的智能体(agent)、多步骤推理仍是一项艰巨的挑战。

传统的在静态数据集上进行监督预训练的方法无法实现自主智能体能力,而这种能力是在网络导航等动态环境中执行复杂决策所必需的。以往弥补这一差距的尝试—通过对专家论证进行监督微调—往往会受到复合误差和探索数据有限的影响,从而导致次优的政策结果。

为了克服这些挑战,来自 MultiOn 和斯坦福大学的研究团队提出了一个框架,它将蒙特卡洛树搜索(MCTS)与自批评机制相结合,并使用直接偏好优化(DPO)算法的离策略(off-policy)变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习,从而提高它们在复杂的多步骤推理任务中的通用性。

他们在 WebShop 环境(模拟电子商务平台)中验证了这一方法,其性能始终优于行为克隆和强化微调基线,并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中,在一天的数据收集后,这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%(相对提高 340%),在线搜索成功率进一步提高到 95.4%。

论文链接:
https://arxiv.org/abs/2408.07199

4.Meta 推出个性化图像生成模型 Imagine yourself

在这项研究中,Meta 团队提出了 Imagine yourself,这是一种专为个性化图像生成而设计的模型。与传统的基于微调的个性化技术不同,Imagine yourself 是一种免微调模型,所有用户都能利用共享框架,无需进行个性化微调。此外,以往的工作在平衡身份保持、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有很强的参考图像复制粘贴效果,很难根据需要对参考图像做出重大改变的提示生成图像,例如改变面部表情、头部和身体姿势,而且生成图像的多样性也很低。

为了解决这些局限性,他们提出的方法包括:1)一种新的合成配对数据生成机制,以鼓励图像多样性;2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本的忠实性;3)一种新颖的从粗到细的多阶段微调方法,逐步推进视觉质量的边界。

研究表明,Imagine yourself 超越了 SOTA 个性化模型,在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明,与以前的个性化模型相比,该模型在所有方面(身份保持、文本忠实性和视觉吸引力)都具有 SOTA 优势。

论文链接:
https://ai.meta.com/research/publications/imagine-yourself-tuning-free-personalized-image-generation/

5.通用智能体新进展:自动设计,优于 SOTA 人工设计智能体

研究人员正投入大量精力开发功能强大的通用智能体(agent),其中基础模型被用作智能体系统(如思维链、自我反思、工具成型器)中的模块。 然而,机器学习的历史告诉我们,人工设计的解决方案最终会被学习的解决方案所取代。

在这项工作中,来自英属哥伦比亚大学的研究团队提出了一个新的研究领域——智能体系统的自动设计(Automated Design of Agentic Systems,ADAS),旨在自动创建功能强大的智能体系统设计,包括发明新的构建模块和/或以新的方式组合它们。

他们进一步证明,ADAS 中有一种尚未开发但前景广阔的方法,即可以用代码定义智能体,并通过元智能体在代码中编写更好的智能体来自动发现新智能体。鉴于编程语言是图灵完备的,这种方法理论上可以学习任何可能的智能体系统:包括新颖的提示、工具使用、控制流及其组合。他们提出了一种名为“元智能体搜索”(Meta Agent Search)的简单而有效的算法来证明这一想法,在这种算法中,元智能体会根据不断增长的先前发现档案对有创新性的新智能体进行迭代编程。

通过跨编码、科学和数学等多个领域的广泛实验,他们发现这一算法可以逐步发明出具有新颖设计的智能体,其性能大大优于 SOTA 人工设计智能体。重要的是,元智能体搜索发明的智能体即使在跨领域和跨模型时也能保持优异的性能,这证明了它们的鲁棒性和通用性。 只要我们能安全地开发它,这一工作说明了一个令人兴奋的新研究方向的潜力,即“自动设计出更强大的智能体系统来造福人类”。

论文链接:
https://arxiv.org/abs/2408.08435
项目地址:
https://www.shengranhu.com/ADAS/

6.JPEG-LM:一种新颖的图像、视频生成模型

由于自回归大语言模型(LLM)架构具有通用性,而且很容易集成到多模态系统中,因此最近在图像和视频生成方面的工作一直在采用这种架构。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——将图像和视频等连续数据表示为离散 token。离散化图像和视频的常见方法包括原始像素值建模或矢量量化,前者过于冗长,后者需要复杂的预设训练。

在这项工作中,来自华盛顿大学和 Meta 的研究团队建议将图像和视频直接建模为通过标准编解码器(如 JPEG、AVC/H.264)保存在计算机上的压缩文件。他们使用了 Llama 架构,不做任何针对视觉的修改,通过直接输出 JPEG 和 AVC 格式的压缩文件字节,从头开始预训练 JPEG-LM 来生成图像(作为概念验证,AVC-LM 生成视频)。

对图像生成的评估表明,这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效,该方法可将 FID 降低 31%。分析表明,在生成长尾视觉元素方面,JPEG-LM 比矢量量化模型更具优势。总之,该研究表明,使用规范编解码器表示法有助于降低语言生成和视觉生成之间的障碍,从而促进未来对多模态语言/图像/视频 LLM 的研究。

论文链接:
https://arxiv.org/abs/2408.08459

7.生成式蒙太奇拼图

文本到图像模型是创建图像的强大工具。然而,生成过程就像掷骰子一样,很难生成一张能捕捉到用户想要的所有内容的图像。

在这项工作中,来自卡内基梅隆大学和赖赫曼大学的研究团队提出了一个框架,通过合成已生成图像的各个部分来创建所需的图像,其实质就是形成生成式蒙太奇拼图(Generative Photomontage)。对于 ControlNet 使用相同的输入条件和不同的种子生成的一叠图像,他们让用户使用笔触界面从生成的结果中选择所需的部分。 他们提出了一种新颖的技术,其能接收用户的笔触,在扩散特征空间中使用基于图的优化方法分割生成的图像,然后通过一种新的特征空间混合方法合成分割区域。这一方法忠实地保留了用户选择的区域,同时将它们合成在一起。

研究证明,这一灵活的框架可用于多种应用,包括生成新的外观组合、修复不正确的形状和人工痕迹,以及改进及时对齐;该方法优于现有的图像混合方法和各种基线。

论文链接:
https://arxiv.org/abs/2408.07116
项目地址:
https://lseancs.github.io/generativephotomontage/

8.清华、智谱AI 团队推出 10000 字长文本输出模型 LongWriter

目前的长上下文大语言模型(LLM)可以处理多达 10 万个 token 的输入,但很难生成长度超过 2000 个 token 的输出。

通过对照实验,来自清华大学和智谱AI 的研究团队发现,模型的有效生成长度受到其在监督微调(SFT)过程中所见样本的内在限制。换句话说,它们的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。

为了解决这个问题,他们提出了一种基于智能体的管道——AgentWrite,其可以将超长生成任务分解为子任务,使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite,他们构建了 LongWriter-6k,这是一个包含 6000 个 SFT 数据的数据集,输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练,他们成功地将现有模型的输出长度扩展到了 10000 字以上,同时保证了输出质量。

他们还开发了用于评估超长生成能力的综合基准 LongBench-Write。9B 参数模型经过 DPO 的进一步改进,在该基准测试中取得了 SOTA,甚至超过了更大的专有模型。总的来说,这项工作表明,现有的长上下文 LLM 已经具备了更大输出窗口的潜力——只需要在模型对齐过程中提供扩展输出数据,就能释放这种能力。

论文链接:
https://arxiv.org/abs/2408.07055
GitHub 地址:
https://github.com/THUDM/LongWriter

9.谷歌推出文生图模型 Imagen 3

在这项工作中,Google DeepMind 提出了 Imagen 3,这是一种可根据文本提示生成高质量图像的潜在扩散模型。他们介绍了质量和责任评估。在评估时,Imagen 3 优于其他 SOTA 模型。此外,他们还讨论了与安全性和表示有关的问题,以及用来尽量减少模型潜在危害的方法。

论文链接:
https://arxiv.org/abs/2408.07009

10.OpenResearcher:利用人工智能加速科学研究

科学文献的快速增长给研究人员带来了巨大的挑战,他们必须努力了解各自领域的最新进展,并深入研究新的领域。

来自 GAIR lab 的研究团队及其合作者提出了一个利用人工智能(AI)技术加快研究进程的创新平台—— OpenResearcher,其可以回答研究人员提出的各种问题。OpenResearcher 基于检索增强生成(RAG)技术构建,将大语言模型(LLM)与最新的特定领域知识整合在一起。

此外,他们还开发了各种工具,用于理解研究人员的查询、从科学文献中搜索、过滤检索到的信息、提供准确而全面的答案并自我完善这些答案。OpenResearcher 可以灵活使用这些工具,同时兼顾效率和效果。因此,OpenResearcher 使研究人员能够节省时间,提高发现新见解和推动科学突破的潜力。

论文链接:
https://arxiv.org/abs/2408.06941
GitHub 地址:
https://github.com/GAIR-NLP/OpenResearcher

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/404905.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue通过iframe预览 pdf、word、xls、ppt、txt文件

vue通过iframe预览 pdf、word、xls、ppt、txt文件 iframe中预览只能直接打开pdf文件&#xff0c;其他文件需要通过office365预览。 效果&#xff1a; 组件代码&#xff1a; <!--* fileName: 文件预览-FileView.vue* date: yanghaoxing-2024-08-16 09:32:24 !--> <…

ModuleNotFoundError: No module named ‘pywin32_bootstrap

ModuleNotFoundError: No module named ‘pywin32_bootstrap 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&#xff0c;我是博主英杰&#xff0c;211科班出身&#xff0c;就职于医疗科技公司&#xff0c;热衷分享知识&#xff0c;武汉城市开发者社…

4.展示功能的测试及缓冲-《篮球比赛展示管理系统》现场管理员角色操作手册

本平台属于富客户端类型&#xff0c;展示元素包括精美图片、高级动画、透明视频等&#xff0c;所以为了保证画面的呈现速度&#xff0c;一定要在比赛之前&#xff0c;把所有的展示功能在电脑过一遍&#xff0c;浏览器自动产生一个数据缓冲&#xff0c;便于提高现场画面的展示放…

springboot的学习(三):开发相关

简介 一些开发测试时用到的技术。 springboot 热部署 修改了代码&#xff0c;服务器不需要重启可以直接看到新的修改的效果。仅仅加载当前开发者自定义开发的资源&#xff0c;不加载jar资源。 在pom.xml配置文件中添加&#xff1a; <dependency><groupId>org.s…

飞书操作—学习笔记

1&#xff1a;推荐飞书的理由 这几年越来越多的公司开始使用飞书这一款软件&#xff0c;即是是一些大厂&#xff0c;也开始边缘化内部的通讯交流软件。那么飞书有那些功能能得到这样的青睐喃&#xff1f; 我个人总结&#xff0c;飞书有如下优势 1&#xff1a;飞书功能相对来…

24年银行从业资格考试报名照规格要求

24年银行从业资格考试报名照规格要求 #银行从业 #银行从业资格证 #银行从业考试 #银行从业资格考试 #银行从业资格证报名照片 #银从

Linux | 深入探究Linux进程控制:从fork函数到进程等待再到进程替换

目录 1、进程的创建&#xff1a;fork函数 2、父子进程的奇怪现象&#xff1a;为什么同一个地址有不同的值&#xff1f;——区分内存的虚拟地址和物理地址 代码&#xff1a;利用fork函数的返回值进行父子进程分流&#xff0c;执行不同的代码块 虚拟地址和物理地址&#xff1…

推荐编译器插件:Fitten Code 更快更好的AI助手

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢&#xff0c;在这里我会分享我的知识和经验。&am…

【Linux 驱动】IMX6ULL gpio驱动

1. 概述 如果 pinctrl子系统将一个 PIN 复用为 GPIO 的话&#xff0c;那么接下来要用到 gpio 子系统了。gpio 子系统顾名思义&#xff0c;就是用于初始化 GPIO 并且提供相应的 API 函数&#xff0c;比如设置 GPIO为输入输出&#xff0c;设置读取 GPIO 的值等。 gpio 子系统的主…

MAE论文详解

文章目录 前言一、MAE理论二、MAE整体框架三、MAE简单实现四、实验总结 前言 MAE是Facebook团队在2021年11月发布的一篇论文&#xff0c;《Masked Autoencoders Are Scalable Vision Learners》&#xff0c;带掩膜的自编码器是可扩展的视觉学习器&#xff0c;MAE就是Masked Aut…

SpringBoot整合Liquibase

1、是什么&#xff1f; Liquibase官网 Liquibase是一个开源的数据库管理工具&#xff0c;可以帮助开发人员管理和跟踪数据库变更。它可以与各种关系型数据库和NoSQL数据库一起使用&#xff0c;并提供多种数据库任务自动化功能&#xff0c;例如数据库迁移、版本控制和监控。Li…

文本分类任务算法演变(二)

文本分类任务算法演变 1.深度学习-pipeline1.1fastText1.2LSTM1.2.1公式详解1.2.2可视化 1.3TextCNN1.4Gated CNN1.5TextRCNN1.6Bert1.6.1取[cls] token对应的向量1.6.2将整句话的向量取max/average pooling1.6.3将Bert编码后的向量再输入LSTM或CNN1.6.4将Bert中间层的结果取出…

Python生成432Hz音频

使用 numpy 来生成信号&#xff0c; 使用 matplotlib 可视化信号&#xff0c; 使用 sounddevice 播放声音。 以下生成和播放 432 Hz 的正弦波信号&#xff1a; import numpy as np import sounddevice as sd import matplotlib.pyplot as plt# 生成单音函数 def generate_to…

gstreamer系列 -- 获取媒体信息

Basic tutorial 9: Media information gathering

windows下的redis7.0.11的下载

天&#xff0c;我找redis7.0.11的安装包就找了好久&#xff0c;终于给我找到了。市面上好多是linux版本的。 安装包&#xff1a;Release Redis 7.0.11 for Windows zkteco-home/redis-windows GitHub 解压之后是这样的。 然后你要测试能不能启动&#xff1a; 1、指定配置文…

C语言-部分字符串函数详解 1-4

C语言-部分字符串函数详解 1-4 前言1.strlen1.1基本用法1.2注意事项\0size_t 1.3模拟实现 2.strcpy2.1基本用法2.2注意事项**源字符串必须以 \0 结束****会将源字符串中的 \0拷贝到目标空间****目标空间必须可修改****目标空间必须能容纳下源字符串的内容** 2.3模拟实现 3.strn…

RabbitMQ的核心概念

RabbitMQ是一个消息中间件&#xff0c;也是一个生产者消费者模型&#xff0c;负责接收&#xff0c;存储和转发消息。 核心概念 Producer 生产者&#xff0c;是RabbitMQ Server的客户端&#xff0c;向RabbitMQ发送消息。 Consumer 消费者&#xff0c;是RabbitMQ Server的客…

使用亮数据爬虫工具解锁复杂爬虫场景

在当今数据驱动型时代&#xff0c;数据采集和分析能力算是个人和企业的核心竞争力。然而&#xff0c;手动采集数据耗时费力且效率低下&#xff0c;而且容易被网站封禁。 我之前使用过一个爬虫工具&#xff0c;亮数据&#xff08;Bright Data&#xff09; &#xff0c;是一款低…

浅探空间智能

空间智能&#xff0c;这一概念在人工智能领域逐渐升温&#xff0c;部分归功于AI界的领军人物李飞飞博士所领导的创新项目。 Seeing is for doing and learning. 【精校】TED&#xff1a;李飞飞 | 空间智能让AI理解真实世界 2024.5 李飞飞在 X 上介绍称&#xff0c;「空间智能…

消防认证-火灾显示盘GB 17429-2011

一、消防认证 消防认证是指消防产品符合国家相关技术要求和标准&#xff0c;且通过了国家认证认可监督管理委员会审批&#xff0c;获得消防认证资质的认证机构颁发的证书&#xff0c;消防产品具有完好的防火功能&#xff0c;是住房和城乡建设领域验收的重要指标。 二、认证依据…