ICLR 2025｜DAMO开发者矩阵合作专场

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

AITIME

ICLR 2025预讲会合作专场

AITIME

专场信息

Dynamic Diffusion Transformer

讲者：赵望博，达摩院研究型实习生

时间：3月12日 19:00-19:15

报告简介：

Diffusion Transformer（简称DiT）是一种新兴的用于图像生成的扩散模型，虽然在性能上表现出色，但却面临着巨大的计算成本。我们的研究发现，这些计算成本主要来源于静态推理范式，该范式不可避免地在某些扩散时间步和空间区域引入了冗余计算。为了解决这一低效问题，我们提出了动态扩散Transformer（Dynamic Diffusion Transformer，简称DyDiT），这是一种在生成过程中可以沿时间步和空间维度动态调整计算的架构。

我们引入了时间步动态宽度（Timestep-wise Dynamic Width，简称TDW）方法，该方法根据生成的时间步动态调整模型的宽度。此外，我们设计了空间动态Token（Spatial-wise Dynamic Token，简称SDT）策略，以避免在不必要的空间位置进行冗余计算。针对多个数据集和不同规模的模型进行的大量实验验证了DyDiT的优越性。值得注意的是，仅需增加不到3%的微调迭代次数，我们的方法将DiT-XL的FLOPs减少了51%，生成速度加快了1.73倍，并在ImageNet上实现了竞争性的FID分数2.07。

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

讲者：陈官正，达摩院研究型实习生

时间：3月12日 19:15-19:30

报告简介：

我们提出了Short2Long Preference Optimization (LongPO)，一种LLM长文本对齐的新方法，能使得LLM在没有外部监督的情况下，基于偏好优化（Preference Optimization ）的思想利用自身良好的短文本能力去指导其在长文本能力上的不足，从而实现LLM由短到长的自我进化。实验结果表明，LongPO能让LLM仅在自我生成的数据上进化到支持128K以上的上下文长度，在长文本基准上取得良好性能，并始终保持短文本和指令跟随能力不下降。

InversionGNN: A Dual Path Network for Multi-Property Molecular Optimization

讲者：牛逸凡，香港科技大学（广州）博士生

时间：3月12日 19:30-19:45

报告简介：

探索化学空间以找到同时满足多种属性的新分子对于药物发现至关重要。然而，由于化学性质的冲突或关联性，现有方法往往难以权衡多种属性。本文引入了 InversionGNN 框架，一种有效且样本效率高的双路径图神经网络 (GNN)，用于多目标药物发现。为了解码反演路径 (Inversion Path) 中多种属性的复杂化学知识，我们提出了一种基于梯度的帕累托搜索方法来平衡冲突属性并生成帕累托最优分子。

此外，InversionGNN 能够在离散化学空间中近似搜索整个帕累托前沿。实验表明，InversionGNN 在包括药物发现在内的各种离散多目标优化任务中都是有效且高效的。

CirT: Global Subseasonal-to-Seasonal Forecasting with Geometry-inspired Transformer

讲者：刘阳，香港科技大学博士生

时间：3月12日 19:45-20:00

报告简介：

次季节性-季节性预报对农业和灾害防控至关重要，但因大气混沌性和传统数值模型的高计算偏差而极具挑战。现有数据驱动模型多将球面经纬网格视为平面图像处理，导致几何失真与空间关系建模偏差。本文通过引入球面几何归纳偏置, 将纬线均匀分割为等距圆形区块, 利用傅里叶变换提取纬向周期信号，显式建模球面周期性。实验表明，该方法在精度和效率上优于主流数值模型与数据驱动方法。

GraphArena: Evaluating and Exploring Large Language Models on Graph Computation

讲者：张启凡，香港科技大学（广州）博士生

时间：3月12日 20:00-20:15

报告简介：

大规模语言模型（LLMs）的“军备竞赛”需要新的基准来检验它们的进展。本文引入了GraphArena，一个用于评估LLMs在真实世界图计算问题上的表现的基准工具。它提供了四个多项式时间任务（例如，最短距离）和六个NP完全任务（例如，旅行商问题）。GraphArena具备严格的评估框架，将LLM的输出分类为正确、次优（可行但不最优）、幻觉（格式正确但不可行）或缺失。对超过10种LLM的评估表明，即使是表现最好的LLM，在处理更大、更复杂的图问题时也会遇到困难，并表现出幻觉问题。我们进一步探讨了四种潜在的解决方案，以改善LLMs在图计算上的表现，包括链式思维提示（chain-of-thought prompting）、指令微调（instruction tuning）、代码生成（code writing）以及扩大测试时的计算规模（scaling test-time compute），每种方法都展现了独特的优势和局限性。

MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

讲者：王亮，达摩院研究型实习生

时间：3月12日 20:15-20:30

报告简介：

建立分子的三维结构与其能量状态之间的关系是学习三维分子表征的有效方法。然而，现有方法基于经典力学建模分子势能函数，忽略了量子力学效应，例如能级结构。这些效应能够准确地描述分子能量，并且可以通过能谱实验进行测量。本文提出利用分子能谱增强三维分子表征预训练的方法MolSpectra，将能级结构知识融入分子表征。我们设计了SpecFormer，通过掩码片段重构对多模态能谱进行编码，并将三维表征和能谱表征进行对齐。实验表明，该预训练方法在下游分子性质预测和动力学建模任务上优于现有方法。

AITIME

观看地址