ICML 2024 顶级论文:机器学习有什么新进展?

在本周的文章中,我打算探讨在国际机器学习大会 ICML 上发表的论文,该大会目前于 2024 年 7 月 21 日至 27 日在奥地利首都维也纳举行。与其他顶级人工智能会议一样,每年都会有数千篇论文提交,但录取率相对较低(过去三年不到 28%)。例如,今年的会议共提交了 9,653 篇论文,但只有 2,609 篇被接受,录取率为 27.03%。

闲话少说,让我们直接进入新内容吧!本文将分为几个部分,请看下面的目录:

目录:

  1. 最佳论文奖获得者
  2. 时间序列
  3. 大型语言模型和迁移学习
  4. 计算机视觉和音频

1. 最佳论文奖获奖者

立场:考虑使用大规模公共预训练进行差异化隐私学习(Kamath 等人):

本届获奖论文由滑铁卢大学教授Gautam Kamath 、苏黎世联邦理工学院计算机科学家Florian Tramèr和 Google DeepMind 研究员Nicholas Carlini撰写。它挑战了迄今为止所有已知的大型语言模型训练范式。

为了提供一些背景信息,作者首先观察到,在数百万个数据点上训练的大型语言模型在这些数据包含私人或敏感信息时会构成威胁。到目前为止,推荐的解决方案是在公共数据上训练模型,然后在私人数据上进行微调。

从网络上抓取的预训练数据本身可能很敏感;因为“隐私保护”的微调模型仍然可以记住其预训练数据,这会造成直接伤害并削弱“私人学习”的含义。(引自论文)

然而,作者认为,所谓的公开数据也可能包含有关个人的敏感或私人信息,这有损害机密性的风险。论文表明,这种训练范式可能导致机密性丧失,主要有两个原因:

  1. 仅基于公共和私人数据分布重叠的参数来高估公共预训练的价值。
  2. 这些大型模型的训练需要大量的计算能力,而这些计算能力无法在最终用户的机器上执行,从而导致私人数据的外包。

在法学硕士领域出现越来越多的小型模式之际,对当前私人学习实践持批评态度。通过本文,作者呼吁科学界考虑解决这些问题的解决方案。

2.时间序列

你们中的一些人可能知道(或不知道),但时间序列是我最喜欢的主题之一。因此,当论文列表公布时,我首先要看的是与时间序列相关的创新。今年,ICML 上又有很多关于这个主题的论文,我选了一些:

用于时间序列预测的仅解码器基础模型(Das 等):

“对大量时间序列数据进行训练的大型预训练模型能否学习时间模式,从而对以前未见过的数据集的时间序列进行预测?”这是研究人员在本文中试图回答的问题。

近年来,LLM 和基础模型的快速崛起启发了研究人员提出一种零样本时间序列预测的基础模型,称为 TimesFM(时间序列基础模型)。

零样本学习 (ZSL)是一种模型检测训练期间从未见过的类别的能力。条件是监督学习期间不知道这些类别。(零样本学习 | 带代码的论文)

首先,预测模型必须能够适应不同的背景和范围,同时具有足够的容量来编码来自大型数据集的所有模式。为了满足这些期望,TimesFM 的架构基于以下几个原则:

  • 修补:补丁类似于语言模型中的标记。
  • 仅解码器模型:给定一系列输入补丁,该模型经过优化,可以根据所有过去补丁的函数来预测下一个补丁。
  • 更长的输出补丁:更长的输出序列,以避免与预测范围长度的先验知识相关的限制。

图 1:LLMTime(Zero-Shot) 的架构

该零样本模型能够达到全监督模型的性能,如以下示例所示:

图 2:LLMTime(Zero-Shot)的预测可视化

立场:大型语言模型能告诉我们有关时间序列分析的什么信息(Jin,Zhang 等人):

如前所述,法学硕士为这些模型在时间序列数据上的潜在应用打开了大门。在本文中,研究人员强调了法学硕士彻底改变时间序列分析的潜力,并指出其能够“促进有效决策并朝着更通用的时间序列分析智能形式迈进”。

以下是本文的三个主要贡献:

  • 为使用 LLM 进行时间序列分析提供了新的视角。
  • 对现有方法进行基准测试和审查,并提出将 LLM 集成到时间序列分析中的路线图(见图 3)。
  • 发现未来的机会。

图3:时间序列分析路线图

TimeMIL:通过时间感知多实例学习推进多元时间序列分类(Chen, Qiu 等):

借助 Transformer 和卷积网络,多变量时间序列分类得到了极大改进。然而,这些方法通常基于监督学习。监督学习无法捕捉时间序列中的所有模式,也无法捕捉可能发生的罕见事件,因此我们只能从已经看到的内容中学习。

在本文中,研究人员提出了一种称为多实例学习 (MIL) 的新方法,可以更好地捕捉兴趣点并模拟时间序列中的时间依赖性。TimeMIL通过区分时间序列中的正实例和负实例来做出决策,其中每个时间点都是一个在实践中通常没有标签的实例。

图 4:监督模型 VS TimeMIL

时间编织者:条件时间序列生成模型(Narasimhan 等人):

时间序列生成是一个令人兴奋但又充满挑战的课题。例如,在能源领域,生成相关的时间序列意味着整合天气、位置等元数据,而这在生成模型中并不总是可行的。

在本文中,研究人员提出了一种基于扩散模型的方法,该方法利用分类、连续甚至时间特征形式的元数据来克服上述问题。此外,他们还提出了一种新的评估指标,能够准确捕捉生成的时间序列的真实性。

图 5:在传播过程中整合元数据的时间编织器架构

3.大型语言模型和迁移学习

趋势肯定是朝着更小的模型发展;比以往任何时候都多的论文几乎都朝着这个方向发展。这包括关于提炼的讨论以及更有效的微调技术:

将知识从大型基础模型转移到小型下游模型(Qiu 等人):

在本文中,AWS AI Lab 的研究人员提出了一种名为自适应特征迁移 (AFT) 的新知识迁移方法。与传统迁移学习中转移权重不同,AFT 直接对特征进行操作,自适应地迁移最有用的特征。这种方法的目标是解决与迁移学习相关的问题,例如:

  • 重量转移导致信息传递受限。
  • 预训练模型通常很大。
  • 无法结合学习互补信息的多个模型。

有关更多详细信息,所有文章的链接均位于参考资料部分。

LLaGA:大型语言和图形助手(陈等人):

在 LLaMA 和 LLaVA 进行视觉指导之后,让我介绍一下 LLaGA(在我的文章中找到 LLaxA 似乎已经成为一种传统,不是吗?😜)。

我们再次看到,法学硕士的兴起为深度学习开辟了新途径,图神经网络 (GNN) 也不例外。然而,图结构的复杂性使得用自然语言解释它们变得更加困难。

本文提出了一种名为 LLaGA(大型语言和图形助手)的新模型。该模型能够使用 LLM 处理图形数据。该方法基于将这些图形数据映射到与 LLM 兼容的空间。LLaGA 在各种数据集的泛化和可解释性方面表现出色。

图 6:LLaGA 框架

FrameQuant:Transformer 的灵活低位量化(Adepu 等人)

Transformer 非常高效,但仍然占用大量内存。因此,最近引入了多种方法来创建较小的模型,包括量化为 8 位或 4 位。

量化是一种通过使用低精度数据类型(如 8 位整数 ( int8) 而不是通常的 32 位浮点数 ( float32))来表示权重和激活,从而降低运行推理的计算和内存成本的技术。量化 (huggingface.co)

在本文中,作者建议进一步采用 2 位量化,同时将性能损失降至最低。该方法基于一种称为“融合帧”的谐波分析。他们表明,关键在于量化的应用位置,不应在原始权重空间中进行,而应在融合帧的表示中进行。

DISTILLM:面向大型语言模型的精简提炼(Ko 等人):

模型蒸馏是指使用较大的模型(称为教师模型)来创建较小的模型(称为学生模型),目的是在保持性能的同时降低成本和内存。这种方法对某些模型很有效,但对 LLM 却不太适用。本文建议将蒸馏应用于 LLM,并介绍 DistiLLM。

本文的主要贡献是:

  • 倾斜 KLD(Kullback-Leibler 散度):一种新的目标函数,针对稳定的梯度和最小的近似误差进行了优化。
  • 自适应离线策略方法:减少训练时间。
  • 先进的性能和效率: DistiLLM 与最先进的性能相媲美。

4.计算机视觉和音频:

Vision Mamba:通过双向状态空间模式实现高效的视觉表征学习(Zhu、Liao 等人):

谈论 Vision Mamba 而不提及Mamba(原始架构)有点离题。简而言之,Mamba 是一种新架构,效率极高,尤其是在处理长序列时(Mistral的最新型号之一基于此架构)。

附言:我将在未来几天发布一篇有关该主题的文章,敬请关注!

Mamba 是一种新的状态空间模型架构,在语言建模等信息密集型数据上表现出色,而之前的次二次模型则不如 Transformers。它基于结构化状态空间模型的进展路线,具有高效的硬件感知设计和实现,秉承了FlashAttention的精神。(摘自GitHub — state-spaces/mamba:Mamba SSM 架构)

图 7:Mamba Vision 架构

因此,回到 Vision Mamba (Vim),它利用 Mamba 架构使其适应视觉数据。与 Vision Transformers 相比,Vim 在 ImageNet 分类任务、COCO 对象检测和分割方面实现了卓越的性能,同时速度提高了 2.8 倍并节省了 86.8% 的 GPU 内存(这真是太棒了 👊)。

ConvNet 与 Transformer、Supervised 与 CLIP:超越 ImageNet 准确率( Vishniakov 等人):

Meta AI 的这篇论文提出,通过考虑其他参数来捕捉所有可能的细微差别,从而超越计算机视觉任务的准确性。事实上,研究人员认为,尽管 Vision Transformers、ConvNet 架构和 CLIP 之间的性能相似,但许多其他不同方面可能会有所不同。其中包括:错误类型、输出校准、可转移性和特征不变性等。

下图显示了我们在衡量视觉模型性能时可以考虑的参数。

比较具有相同准确率的模型

UniAudio:面向大型语言模型的通用音频生成(Yang,Tian 等):

正如我们近几个月所看到的,音频与法学硕士 (LLM) 的融合是一个快速发展的领域,现在越来越多的对话模型能够进行口头讨论(尤其是Kyutai的 Moshi )。

在本文中,研究人员介绍了 UniAudio,这是一个利用 LLM 技术生成各种类型音频的模型,包括声音、语音、音乐和歌唱。该模型经过 165,000 小时音频的训练,拥有 10 亿个参数。

以下是 UniAudio 工作原理的简要概述:

  • 首先,它将所有类型的目标音频与其他条件模式一起标记化。
  • 然后,它将源-目标对连接为一个序列。
  • 最后,它使用 LLM 执行下一个标记预测。

参考

  • 最佳论文奖获得者

职位:考虑使用大规模公共预训练进行差异化隐私学习 (mlr.press)

  • 时间序列

[2310.10688] 用于时间序列预测的仅解码器基础模型 (arxiv.org)

[2402.02713] 立场:大型语言模型能告诉我们有关时间序列分析的什么信息 (arxiv.org)

[2405.03140] TimeMIL:通过时间感知多实例学习推进多元时间序列分类 (arxiv.org)

[2403.02682] 时间编织者:条件时间序列生成模型 (arxiv.org)

  • 大型语言模型和迁移学习

[2406.07337] 将知识从大型基础模型转移到小型下游模型 (arxiv.org)

LLaGA:大型语言和图形助手(mlr.press)

FrameQuant:Transformer 的灵活低位量化(mlr.press)

DistiLLM:面向大型语言模型的精简提炼(mlr.press)

  • 计算机视觉和音频

Vision Mamba:通过双向状态空间模型实现高效的视觉表征学习 (mlr.press)

ConvNet 与 Transformer、Supervised 与 CLIP:超越 ImageNet 准确度 (mlr.press)

UniAudio:利用大型语言模型实现通用音频生成 (mlr.press)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/409844.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机械学习—零基础学习日志(如何理解概率论5)

二维随机变量 这里的其实就是边缘分布 联合分布 当结合来看,小明和小红的成绩。可以发现,小明和小红是独立事件,可以放到一个模块内部分析。 而当所有的情况考虑,单独小红取得某个成绩的概率,都可以计算出来。 例如…

攻防世界 1000次点击

做题笔记。 下载解压 查壳。 32位ida打开。 查找字符串。 winmain函数写的,程序运行如下: 一开始思路是想着分析找到关键代码然后去od进行调试。 后来,额,不想看代码了。吐了。 尝试去字符串搜索flag样式,确实一发现…

【C/C++】Sleep()函数详解

🦄个人主页:修修修也 🎏所属专栏:Linux ⚙️操作环境:Visual Studio 2022 / Xshell (操作系统:CentOS 7.9 64位) 目录 📌Windows系统下Sleep()函数简介 🎏函数功能 🎏函数参数 🕹️DWORD milliseconds &…

Linux云计算 |【第二阶段】SHELL-DAY2

主要内容: 条件测试(字符串比较、整数比较、文件状态)、IF选择结构(单分支、双分支、多分支)、For循环结构、While循环结构 一、表达式比较评估 test 命令是 Unix 和 Linux 系统中用于评估条件表达式的命令。它通常用…

致远OA OCR票据识别组件

OCR票据识别 技术支持 技术大佬支持本文档 使用范围 任何票种信息,只要需要对接到oa底表中,就能够实现各种票种,各种字段的对接,包括票据识别,发票核验,适配各种票据 使用介绍 1 配置每种发票的ocr设…

yup 使用 2 - 获取默认值,循环依赖,超大数字验证,本地化

yup 使用 2 - 获取默认值,循环依赖,超大数字验证,本地化 上一篇的使用在这里:yup 基础使用以及 jest 测试,这篇讲的是比较基础的东西, 获取默认值 之前用的都是 cast({}),然后如果有些值是必…

叉车(工业车辆)安全管理系统,云端监管人车信息运营情况方案

近年来,国家和各地政府相继出台了多项政策法规,从政策层面推行叉车智慧监管,加大叉车安全监管力度。同时鼓励各地结合实际,积极探索智慧叉车建设,实现作业人员资格认证、车辆状态认证、安全操作提醒、行驶轨迹监控等&a…

如何利用电商 API 数据分析助力精准选品!

电商 API 数据分析在选品过程中起着至关重要的作用,它们之间有着密切的关系: 一、提供市场趋势洞察 热门商品识别: 通过分析电商 API 中的销售数据,包括商品的销售量、销售额、销售频率等指标,可以快速准确地识别出当…

1Panel应用推荐:MeterSphere开源持续测试工具

1Panel(github.com/1Panel-dev/1Panel)是一款现代化、开源的Linux服务器运维管理面板,它致力于通过开源的方式,帮助用户简化建站与运维管理流程。为了方便广大用户快捷安装部署相关软件应用,1Panel特别开通应用商店&am…

redis面试(二十一)读写锁互斥

读锁非互斥 非互斥的意思就是,一个客户端或者线程加锁之后,另一个客户端线程也可以来进行加锁。 还是拿着ReadLock的lua脚本来看看 刚才我们已经分析过第一个线程来加读锁的逻辑了 所以上半截不用重复说了, hset anyLock mode read hset an…

后端微服务架构:构建分布式博客系统

后端微服务架构:构建分布式博客系统 在当今的软件开发领域,微服务架构已经成为构建可扩展、灵活且易于维护的应用程序的主流选择。本文将探讨如何利用微服务架构来设计和实现一个分布式的博客系统。 1. 微服务架构简介 微服务架构是一种将应用程序分解…

【微服务部署】Linux部署微服务启动报ORA-01005

问题背景: Linux机器部署springboot微服务,部署完成后发现无法启动,后台报ORA-01005错误。 解决方案: 1.检查当前服务器是否已安装oracle客户端 命令行执行sqlplus username/passwd实例名,如果执行成功,说…

微信小程序源码 图书管理系统 万字文档 Springboot vue

源码地址 系统演示 SpringBoot vue 微信小程序源码 图书管理系统 附带运行教程 系统演示 万字文档,全套开发工具 开发工具:IDEA,微信小程序工具 数据库:mysql8 使用环境:Windows JDK版本:1.8 后端构建工具:maven 项目使用到的技术栈 Springboot2 mybatis vue Mys…

计算机毕业设计选题推荐-摇滚音乐鉴赏网站-Java/Python项目实战

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

领域驱动设计DDD详解与战术建模落地

一、什么是DDD? 1.1、DDD的概念 Domain-Driven Design(领域驱动设计)它由Eric Evans在他的2003年出版的书籍《Domain-Driven Design: Tackling Complexity in the Heart of Software》中首次提出。DDD 核心思想是通过领域驱动设计方法定义领…

透明度测试

1、透明测试是用于处理哪种透明需求 在游戏开发中对象的某些部位完全透明而其他部位完全不透明,这种透明需求往往不需要半透明效果,相对比较极端,只有看得见和看不见之分比如树叶、草、栅栏等等。(即一张图除了主要物体有颜色,其…

奇文网盘项目对应windows版本的中间件下载,otp,rabbitmq,postgresql,onlyoffice(在线预览编辑等)

之前的解压是百度网盘,要会员,油猴也无法下载,所有我下载之后给你们提供阿里云盘链接(不限速) 本次软件版本介绍: 01-otp_win64_24.1 02-rabbitmq-server-3.9.8 03-postgresql-9.6.23-2-windows-x64 0…

如何解决错误Given calling package android does not match caller‘s uid-学员提问

背景: 近来有学员反馈说wms课程中讲解的借壳Shell帮忙执行一些shell命令有问题,具体啥问题呢? 在ShellProvider的call方法加入如下代码: 目的就是想让shell帮我们执行一下settings值的写入,这里其实可以更加简单的set…

Linux 定时备份

背景:为防止数据丢失,要求每天备份一次 以达梦数据库为例,每天定时备份 1.填写备份脚本 vi db_day_backup.sh #!/bin/bash DIR$(cd $(dirname $0) && pwd) tarnamedata.tar_$(date %Y%m%d) cd $DIR if [[ $(find $DIR/ -name $tar…

腾讯提出一种新的针对风格化角色和逼真服装动画的生成3D运动转移方法,生成效果逼真!

来自腾讯XR视觉实验室的研究团队提出了一种创新的3D运动转移方法,专门针对风格化角色和逼真服装动画的生成。该方法能够将源动作准确地映射到目标角色上,同时考虑了角色身体的刚性变形和服装的局部物理动态变形。 与现有技术相比,这技术不仅…