探索 Transformer²:大语言模型自适应的新突破

目录

一、来源:

论文链接:https://arxiv.org/pdf/2501.06252

代码链接:SakanaAI/self-adaptive-llms

论文发布时间:2025年1月14日

二、论文概述:

图1 Transformer² 概述 

图2 训练及推理方法概述

图3 基于提示的自适应

图4 奇异值微调(SVF)学习曲线 

图5 视觉语言模型(VLM)领域的结果

三、总结


一、来源:

论文链接:https://arxiv.org/pdf/2501.06252
代码链接:SakanaAI/self-adaptive-llms
论文发布时间:2025年1月14日

二、论文概述:

Transformer² 的发布在性能提升、成本降低等方面展现出优势,有可能像 Transformer 当初一样带来新一轮技术革命,推动大模型技术进一步发展。

作者表示,这项研究为人们提供了一个未来 AI 模型不再静态的初步展望。这些系统将在测试时动态地调整其计算能力,以适应它们所遇到任务的复杂性,体现出能够持续变化和终生学习的”活“的智能。

Transformer² 主要具备以下三大亮点:

  1. 奇异值微调(SVF)
  2. 使用 SVF 和 RL 进行训练
  3. 自适应策略

接下来我们从论文中寻找他的技术细节,对Transformer²进行初步的探究。

正如图 1 所示,在训练时,Transformer²会精心调整权重矩阵的奇异值以获得‘专家’向量,这些向量在后续的推理过程中发挥着关键作用。在推理的第一阶段,模型依据任务特性调用合适的专家向量,为生成准确答案奠定基础,第二阶段则完成最终的答案生成。 

图1 Transformer² 概述 

从图 2 中我们能深入了解其构建过程。在训练环节(左图),SVF 与 RL 协同工作,学习得到具有针对性的专家向量。而在推理阶段(右图),Transformer² 提供了三种灵活的方法来应对不同的任务需求,如基于提示的方法通过巧妙构建提示来筛选专家向量,基于任务分类器的方法利用专门训练的分类器提高任务识别能力,基于混合的方法则通过创新的线性插值和 CEM 搜索实现更精准的自适应组合。

图2 训练及推理方法概述

Transformer²共有三种自适应策略,分别是

  • 基于提示的适应:通过提示词,对任务进行分类并选择预训练的 z 向量。

  • 基于分类器的适应:使用 SVF 训练的任务分类器,在推理中识别任务并选择合适的 z 向量。

  • 少样本适应:通过加权插值组合多个预训练的 z 向量。根据少样本评估集上的性能调整权重。

其中从图 3 中可以清晰地看到,Transformer² 利用一种特殊的自适应提示,其核心目的是将接收到的任务提示分类到预定义的类别之中。这就好比为不同的任务提示找到了它们各自对应的 “收纳箱”,让模型能够更高效地处理这些信息。

举例来说,当用户输入一个关于数学计算的任务提示时,自适应提示会迅速将其归类到数学相关的预定义类别中,然后模型就能精准地调用擅长数学任务的 “专家” 向量,给出准确的计算结果或解决方案。

图3 基于提示的自适应

在探究 Transformer² 中奇异值微调(SVF)的效果时,图 4 为我们呈现了关键信息。从图中可以看到,那些虚线代表着 LLAMA3 - 8B INSTRUCT 在每个任务测试集上的性能表现。而 SVF 的强大之处在于,它通过有效的微调,成功地超越了基础性能。

为了更全面地展示 SVF 的学习能力,作者不仅展示了最终用于评估的最佳验证分数对应的检查点(用醒目的红点标记),还给出了完整的训练曲线,没有采用提前停止的策略。这意味着我们能清晰地看到 SVF 在整个训练过程中的学习进展。

图4 奇异值微调(SVF)学习曲线 

同时,作者使用 SVF 对 LLAMA3 - LLAVA - NEXT - 8B 进行微调,使基础模型的性能提升超过 39%(见图 5)。为确保公平比较,在附录 4.3 中针对不同架构和优化目标,对模型和 LoRA 基线进行了广泛的消融实验。由于其关键的参数化方式,训练 SVF 所需资源大幅减少,其训练参数不到作者LoRA 实现的 10%。 

(读论文看到这里我想到了刚发布的deepseekv3,其不仅在性能上霸榜,更是在训练效率上遥遥领先,值得大家关注!)

图5 视觉语言模型(VLM)领域的结果

当然,既然比其他模型多出了自适应功能,那么就需要相应的计算,作者解释:"表 1 报告了 Transformer² 的提示自适应策略所需的推理时间,其中分别列出了第一遍和第二遍解决整个问题集所花费的时间。请注意,第二遍推理时间是解决问题所花费的时间,第一遍推理时间是自适应所花费的时间,第一遍与第二遍推理时间的比率在括号内。虽然额外的一遍推理可能看似使总体运行时间翻倍,但重要的是要注意,推理时间主要取决于生成的令牌数量。在我们的设定中,它是O(n),其中n是输入的长度。ARC-challenge 的成本比率较大,因为它们是单项选择题,因此第二遍的成本也是O(n) 。在一般情况下,我们认为假设这个比率更接近 MATH 和 Humaneval 的比率是合理的。"

三、总结:

在本文中,作者介绍了 Transformer²,为实现自适应大语言模型(LLMs)提供了一个全新蓝图。在此框架内,首先提出了奇异值微调(SVF)方法,与先前的微调方法相比,它性能更优,同时成本更低、组合性更强,还能对过拟合进行正则化处理 —— 这些都是实现可扩展自适应的关键特性。以一组 SVF 专家向量作为构建模块,我们开发了三种有效的自适应策略,每种策略都有独特优势,并且随着对测试时条件了解的增多,能带来持续的性能提升。

尽管 Transformer² 取得了令人瞩目的成果,但未来仍有诸多令人期待的研究方向。其局限性之一在于,SVF 专家向量的能力与基础模型的潜在组件紧密相关。为解决这一问题,模型融合提供了一个颇具前景的方向,它能将专门化的模型合并为一个能力更强的单一模型。此外,虽然我们基于交叉熵方法(CEM)的自适应策略能有效平衡性能与效率,但扩展到大量特定领域可能会导致一次性计算成本增加。不过,性能提升和自适应能力增强带来的好处抵消了这种权衡。模型融合和高效自适应技术的进步催生了在公开排行榜上名列前茅的模型,使其成为 Transformer² 基础模型的有力候选,为自适应大语言模型开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2541.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android Studio历史版本包加载不出来,怎么办?

为什么需要下载历史版本呢? 虽然官网推荐使用最新版本,但是最新版本如果自己碰到问题,根本找不到答案,所以博主这里推荐使用历史版本!!! Android Studio历史版本包加载不出来? 下…

citrix netscaler13.1 重写负载均衡响应头(基础版)

在 Citrix NetScaler 13.1 中,Rewrite Actions 用于对负载均衡响应进行修改,包括替换、删除和插入 HTTP 响应头。这些操作可以通过自定义策略来完成,帮助你根据需求调整请求内容。以下是三种常见的操作: 1. Replace (替换响应头)…

STM32 FreeRTOS移植

目录 FreeRTOS源码结构介绍 获取源码 1、 官网下载 2、 Github下载 源码结构介绍 源码整体结构 FreeRTOS文件夹结构 Source文件夹结构如下 portable文件夹结构 RVDS文件夹 MemMang文件夹 FreeRTOS在基于寄存器项目中移植步骤 目录添加源码文件 工程添加源码文件 …

[Qt]常用控件介绍-按钮类控件-QPushButton、QRedioButton、QCheckBox、QToolButton控件

目录 1.QPushButton按钮 介绍 属性 Demo:键盘方向键控制人物移动 2.Redio Button按钮 属性 clicked、pressed、released、toggled区别 单选按钮的分组 Demo:点餐小程序 3.CheckBox按钮 属性 Demo:获取今天的形成计划 4.ToolBu…

SpringBoot链接Kafka

一、SpringBoot生产者 (1)修改SpringBoot核心配置文件application.propeties, 添加生产者相关信息 # 连接 Kafka 集群 spring.kafka.bootstrap-servers192.168.134.47:9093# SASL_PLAINTEXT 和 SCRAM-SHA-512 认证配置 spring.kafka.properties.securi…

zerotier搭建虚拟局域网,自建planet

基于该开源项目 自建planet节点,更快速,更安全 本教程依据docker-zerotier-planet 项目文档书写,并以linux(centos 7)和windows作为示例,需要其他系统配置方法,可移步项目文档 一. 前置资源 具有外网ip的服务器 后面…

计算机网络 (44)电子邮件

一、概述 电子邮件(Electronic Mail,简称E-mail)是因特网上最早流行的应用之一,并且至今仍然是因特网上最重要、最实用的应用之一。它利用计算机技术和互联网,实现了信息的快速、便捷传递。与传统的邮政系统相比&#…

《机器学习》——DBSCAN算法

文章目录 DBSCAN算法简介DBSCAN算法原理核心概念聚类过程 DBSCAN模型模型API主要参数其他参数 DBSCAN算法实例实例步骤导入所需库导入数据文件传入变量DBSCAN聚类分析添加数据进原数据框对聚类结果进行评分 DBSCAN算法简介 DBSCAN(Density - Based Spatial Cluster…

【2024年华为OD机试】 (C卷,100分)- 用连续自然数之和来表达整数(Java JS PythonC/C++)

一、问题描述 题目描述 一个整数可以由连续的自然数之和来表示。 给定一个整数&#xff0c;计算该整数有几种连续自然数之和的表达式&#xff0c;且打印出每种表达式。 输入描述 一个目标整数T (1 <T< 1000) 输出描述 该整数的所有表达式和表达式的个数。 如果有…

Redis--21--大Key问题解决方案

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言Redis--20--大Key问题解析 一、如何发现Redis大Key1. 使用Redis命令行工具**MEMORY USAGE****RANDOMKEY****DEBUG OBJECT****SCAN命令****redis-cli 工具&#…

[操作系统] 深入理解约翰·冯·诺伊曼体系

约翰冯诺依曼&#xff08;John von Neumann&#xff0c;1903年12月28日—1957年2月8日&#xff09;&#xff0c;原名诺伊曼亚诺什拉约什&#xff08;Neumann Jnos Lajos&#xff09;&#xff0c;出生于匈牙利的美国籍犹太人数学家&#xff0c;20世纪最重要的数学家之一&#xf…

OpenCV实现Kuwahara滤波

Kuwahara滤波是一种非线性的平滑滤波技术&#xff0c;其基本原理在于通过计算图像模板中邻域内的均值和方差&#xff0c;选择图像灰度值较为均匀的区域的均值来替代模板中心像素的灰度值。以下是Kuwahara滤波的详细原理说明&#xff1a; 一、基本思想 Kuwahara滤波的基本思想…

vue项目引入阿里云svg资源图标

1&#xff1a;生成svg图标 登录阿里云官网 1.1 创建项目组 1.2 从阿里云网站上面获取喜欢的图标加入到已有的项目组 1.3 如果团队有自己的设计师&#xff0c;也可以让设计师上传自己的svg图标到阿里云指定的项目组&#xff1b; 使用的时候&#xff0c;把 资源包下载到本地项…

软件测试 —— 自动化测试(Selenium)

软件测试 —— 自动化测试&#xff08;Selenium&#xff09; 什么是SeleniumPython安装Selenium1.安装webdirver-manager2.安装Selenium 写一个简单用例CSS_SELECTOR和XPATH浏览器快速定位页面元素浏览器的前进&#xff08;forward&#xff09;&#xff0c;后退&#xff08;bac…

新垂直电商的社交传播策略与AI智能名片2+1链动模式S2B2C商城小程序的应用探索

摘要&#xff1a;随着互联网技术的不断进步和电商行业的快速发展&#xff0c;传统电商模式已难以满足消费者日益增长的个性化和多元化需求。新垂直电商在此背景下应运而生&#xff0c;通过精准定位、用户细分以及深度社交传播策略&#xff0c;实现了用户群体的快速裂变与高效营…

Jmeter进行http接口并发测试

目录&#xff1a; 1、Jmeter设置&#xff08;1&#xff09;设置请求并发数&#xff08;2&#xff09;设置请求地址以及参数&#xff08;3&#xff09;添加结果数 2、启动看结果 1、Jmeter设置 &#xff08;1&#xff09;设置请求并发数 &#xff08;2&#xff09;设置请求地址…

有一台服务器可以做哪些很酷的事情

有一台服务器可以做哪些很酷的事情 今天我也来简单分享一下&#xff0c;这几年来&#xff0c;我用云服务器做了哪些有趣的事情。 服务器推荐 1. 个人博客 拥有个人服务器&#xff0c;你可以完全掌控自己的网站或博客。 与使用第三方托管平台相比&#xff0c;你能自由选择网站…

链家房价数据爬虫和机器学习数据可视化预测

完整源码项目包获取→点击文章末尾名片&#xff01;

从网络的角度来看,用户输入网址到网页显示,期间发生了什么?

步骤&#xff08;总体来看&#xff09; 浏览器根据输入网页的URL进行解析&#xff0c;解析出对应的请求方式、URL、端口等&#xff0c;生成HTTP请求报文。浏览器查询缓存&#xff0c;检查缓存是否已经存在该URL的资源&#xff0c;如果缓存命中中直接读取并显示&#xff0c;比如…

MYSQL创建表

1.要求 2.步骤 1.创建数据库: create database mydb6_product;2.使用数据库: use mydb6_product;3.创建employees表&#xff1a; create table employees(id int primary key,name varchar(50) not null, age int not null,gender varchar(10) not null default unknown&…