SEKI —— 基于大型语言模型的自进化与知识启发式神经架构搜索

01、项目概述

我们引入了一种基于新型大型语言模型( LLM )的神经架构搜索( NAS )方法,名为 SEKI 。SEKI 受到现代 LLM 中思维链( CoT )范式的启发,分为两个关键阶段运行:自进化和知识蒸馏。在自进化阶段, LLM 最初缺乏足够的参考示例,因此我们实施了一种迭代细化机制,该机制基于性能反馈增强架构。随着时间的推移,这个过程积累了一个高性能架构的存储库。在知识蒸馏阶段, LLM 分析这些架构中的共同模式以生成新的、优化的设计。结合这两个阶段, SEKI 极大地利用了 LLM 在 NAS 上的能力,并且不需要任何特定领域的数据。实验结果表明, SEKI 在各种数据集和搜索空间上实现了最先进的( SOTA )性能,同时只需要0.05 GPU-Days ,无论是在效率还是准确性方面都优于现有方法。此外, SEKI 展示了强大的泛化能力,在多个任务上都取得了与 SOTA 相竞争的结果。

02、主要特点

  • 创新的自进化机制:SEKI 采用了一种新颖的自进化机制,该机制允许大型语言模型( LLM )在初始缺乏足够参考示例的情况下,通过迭代细化逐步提升神经网络架构的性能。这种机制基于性能反馈不断优化架构,随着时间的推移,积累了大量高性能的架构设计。

  • 知识启发机制:从历史高性能架构中提取共性,通过 LLM 生成更优的架构设计,有效避免搜索陷入局部最优。

  • 无需特定领域数据:SEKI 的一个显著优势是它不依赖于任何特定领域的数据。这与传统的 NAS 方法不同,后者通常需要大量特定领域的数据来训练和优化模型。SEKI 的方法更加灵活,可以广泛应用于不同的领域和任务。

  • 强大的泛化能力:SEKI 不仅在特定的数据集上表现优异,还展现了强大的泛化能力。在多个任务上, SEKI 都能够取得与 SOTA 相竞争的结果,这证明了 SEKI 方法的通用性和适应不同任务的能力。

  • 无需领域特定数据:该方法不依赖特定领域的数据,降低了数据收集和预处理的需求,使得架构搜索更加灵活和广泛适用。

  • 高效计算:SEKI 在 CIFAR-10 任务上的搜索成本仅为 0.05 GPU-Days ,而传统方法如 AmoebaNet 需 3150 GPU-Days ,计算效率显著提升。

  • 广泛适用性:在多个任务(图像分类、目标检测、语义分割等)和搜索空间中均表现优异,展现了良好的泛化能力。

03、技术细节

  • 两阶段的搜索策略

  1. 自进化(Self-Evolution)阶段

架构初始化:从一个随机初始化或预定义的神经网络架构开始。

性能评估:在验证数据集上评估当前架构的性能,记录关键性能指标,如准确率和损失。

反馈驱动的优化:利用性能反馈来指导 LLM 生成优化策略。这可能包括增加新的网络层、调整超参数或改变层间的连接。

生成新架构:应用 LLM 生成的优化策略来产生一个新的神经网络架构。

迭代细化:重复上述步骤,每次迭代都基于前一次迭代的性能反馈来改进架构。

知识库更:将每次迭代产生的新架构及其性能指标存储在知识库中,为后续的知识蒸馏阶段提供数据支持。

ii.  知识启发( Knowledge Inspiration )阶段

模式识别:LLM 分析知识库中积累的高性能架构,识别共同的设计模式和原则。

知识筛选:从知识库中选择性能表现最优秀的前 K 个架构,并且从 K 个中随机选择 ξ 个架构组成输入 prompt 。

知识总结和架构生成:对输入的架构进行总结和启发,直接生成新的候选架构,这些架构旨在结合历史最佳实践并探索新的优化空间。

架构评估与迭代:对新生成的架构进行评估,并将结果反馈到知识库中,以便在未来的迭代中使用。

  • Prompt 设计

SEKI 采用两种 Prompt 设计,指导 LLM 进行架构优化:

  1. 自进化 Prompt :提供任务信息、搜索空间、当前架构及其性能, LLM 生成优化策略,并基于该策略生成新架构。

  2. 知识启发 Prompt :输入历史高性能架构及其评估分数, LLM 提取共性,生成更优架构。

  • 搜索算法

SEKI 通过迭代优化搜索最优架构,主要流程如下:

  1. 初始化架构并计算评估分数。

  2. 前 λ 轮执行自进化( Self-Evolution ),优化架构并存入知识库。

  3. 后 γ 轮执行知识启发( Knowledge Inspiration ),基于知识库提炼新架构。

  4. 最终从知识库中选择最佳架构作为输出。

  • 性能表现

SEKI 在多个搜索空间( DARTS、NAS201、Trans101 )上的实验结果表明,其性能优于现有 NAS 方法。

  • Results on Trans101

下表展现了 SEKI 在 Trans101 Benchmark 上的多个任务都展现了极具竞争力的表现,其中多个任务达到最优的性能表现:

在 Trans101 任务上,SEKI 同样展现了卓越的适应性。相比其他 NAS 方法,SEKI 在多个子任务(目标分类、语义分割、自动编码等)上均获得了更优的性能,并在平均排名上保持领先。实验表明,SEKI 在保持高精度的同时,仍能兼顾计算效率,尤其是在计算资源有限的情况下,能够快速找到具有竞争力的架构。此外,SEKI 在不同任务间的泛化能力强,说明其优化策略不仅适用于特定数数据集,也能推广至更广泛的计算机视觉任务。

  • Results on DARTS search space

下表展现了在 DARTS 搜索空间下,不同的数据集,SEKI 方法不仅体现了搜索效率的高效,同时兼具优异的性能表现:

在 DARTS 搜索空间中 CIFAR-10 和 CIFAR-100 数据集上,SEKI 性能表现分别为97.71%和84.14%,仅耗费 0.05 GPU-Days ,相比传统 NAS 方法具有明显优势。从结果来看,SEKI 在 CIFAR-10 和 CIFAR-100 上都表现出色,相比 DARTS、PC-DARTS 及 GENAS,在保持较高准确率的同时,显著减少了搜索时间。实验表明,SEKI 的知识启发机制能够有效提取高质量架构模式,并持续优化,使得架构的整体性能不断提升。

  • LLM 选择对 SEKI 的影响

实验比较了 SEKI 使用不同 LLM( Qwen2.5-32B 和 GPT4o-mini )的表现:

结果表明,SEKI 在不同 LLM 上,相较于传统的方法均保持高性能,这也体现了该方法良好的鲁棒性。


该论文已发布在 arXiv :https://arxiv.org/pdf/2502.20422v1

点击“阅读原文”即刻学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27547.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【现代深度学习技术】卷积神经网络03:填充和步幅

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重…

探秘基带算法:从原理到5G时代的通信变革【一】引言

文章目录 一、引言1.1 研究背景与意义1.2 研究目的与方法1.3 研究内容与创新点 本博客为系列博客,主要讲解各基带算法的原理与应用,包括:viterbi解码、Turbo编解码、Polar编解码、CORDIC算法、CRC校验、FFT/DFT、QAMtiaozhi/解调、QPSK调制/解…

Free Auto Clicker - 在任意位置自动重复鼠标点击

“想让鼠标自己动起来,解放双手去做更有趣的事?”Free Auto Clicker 就像你的数字小助手,能在任意位置自动重复点击鼠标。从玩游戏到刷网页,这款免费工具让你告别枯燥的重复操作,效率瞬间起飞! 你有没有想…

【SQL】MySQL中的字符串处理函数:concat 函数拼接字符串,COALESCE函数处理NULL字符串

MySQL中的字符串处理函数:concat 函数 一、concat ()函数 1.1、基本语法1.2、示例1.3、特殊用途 二、COALESCE()函数 2.1、基本语法2.2、示例2.3、用途 三、进阶练习 3.1 条件和 SQL 语句3.2、解释 一、concat &…

蓝桥杯web第三天

展开扇子题目, #box:hover #item1 { transform:rotate(-60deg); } 当悬浮在父盒子,子元素旋转 webkit display: -webkit-box:将元素设置为弹性伸缩盒子模型。-webkit-box-orient: vertical:设置伸缩盒子的子元素排列方…

VSCode知名主题带毒 安装量900万次

目前微软已经从 Visual Studio Marketplace 中删除非常流行的主题扩展 Material Theme Free 和 Material Theme Icons,微软称这些主题扩展包含恶意代码。 统计显示这些扩展程序的安装总次数近 900 万次,在微软实施删除后现在已安装这些扩展的开发者也会…

离散傅里叶变换(Discrete Fourier Transform, DFT)及其在图像处理中的应用

离散傅里叶变换(DFT)及其在图像处理中的应用 什么是离散傅里叶变换? 离散傅里叶变换(Discrete Fourier Transform, DFT)是一种强大的数学工具,用于将离散信号从时域(或空间域)转换…

金融支付行业技术侧重点

1. 合规问题 第三方支付系统的平稳运营,严格遵循《非银行支付机构监督管理条例》的各项条款是基础与前提,其中第十八条的规定堪称重中之重,是支付机构必须牢牢把握的关键准则。 第十八条明确指出,非银行支付机构需构建起必要且独…

JavaWeb-jdk17安装

下载jdk17 地址:https://www.oracle.com/java/technologies/downloads/#jdk17-windows 安装jdk 配置环境变量 右键点击我的电脑>属性>高级系统设置>环境变量 在系统变量Path变量中添加 测试 java -version javac -version

java后端开发day24--阶段项目(一)

(以下内容全部来自上述课程) GUI:Graphical User Interface 图形用户接口,采取图形化的方式显示操作界面 分为两套体系:AWT包(有兼容问题)和Swing包(常用) 拼图小游戏…

[Web 安全] PHP 反序列化漏洞 —— PHP 魔术方法

关注这个专栏的其他相关笔记:[Web 安全] 反序列化漏洞 - 学习笔记-CSDN博客 PHP 魔术方法 - 简介 - PHP 魔术方法 - 简单教程,简单编程PHP 中,以两个下划线 ( __ ) 开头方法称之为 「 魔术方法 」 这些 「 魔术方法 」 在 [PHP](/l/yufei/php…

【音视频】音频基础

一、音频基础 1.1 声音的物理性质 ——振动 声音是一种由物体振动引发的物理现象,如小提琴的弦声等。物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化以波的形式向四周传播,当被人耳所接收时,我们就听见了声音。 1.2 声…

Hive-04之存储格式、SerDe、企业级调优

一、主题 hive表的数据压缩和文件存储格式hive的自定义UDF函数hive的JDBC代码操作hive的SerDe介绍和使用hive的优化 二、要点 1. hive表的文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC&…

人工智能AI在汽车设计领域的应用探索

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活…

基于SpringBoot的“数据驱动的资产管理系统站”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“数据驱动的资产管理系统站”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统功能结构图 局部E-R图 系统登录界…

矩阵压缩存储

矩阵压缩存储 特殊矩阵和稀疏矩阵 特殊矩阵:矩阵中很多值相同的元素并且分布具有一定规律。 稀疏矩阵:矩阵中有很多零元素。 压缩矩阵的基本思想: (1)为多个值相同的元素只分配一个存储空间; (2)对零元素不分配存储空间。 一.特殊矩阵的压缩存储 对…

算法系列之数据结构-二叉树

在计算机科学中,数据结构是组织和存储数据的方式,以便能够高效地访问和修改数据。树(Tree)是一种非常重要的非线性数据结构,广泛应用于各种算法和应用中。本文将详细介绍树的基本概念、常见类型以及用Java实现树的遍历…

Golang的数据库分库分表

# Golang的数据库分库分表 什么是数据库分库分表 数据库分库分表是指将单一的数据库拆分成多个库,每个库中包含多张表,以提高数据库的性能和可伸缩性。通常在大型应用中,单一的数据库往往无法满足高并发和海量数据的需求,因此需要…

FPGA开发,使用Deepseek V3还是R1(3):系统级与RTL级

以下都是Deepseek生成的答案 FPGA开发,使用Deepseek V3还是R1(1):应用场景 FPGA开发,使用Deepseek V3还是R1(2):V3和R1的区别 FPGA开发,使用Deepseek V3还是R1&#x…

探索Elasticsearch:文档的CRUD

在企业环境中,Elasticsearch对文档操作的支持不仅是实现高效搜索的关键,更是数据驱动决策的重要支柱。它通过强大的索引机制和灵活的查询语言,使企业能够实时处理和分析海量文档数据,迅速获取有价值的洞察,从而加速创新…