深度图学习在分布偏移下的综述:从图的分布外泛化到自适应
Northwestern University, USA
Repository
Abstract
图上的分布变化——训练和使用图机器学习模型之间的数据分布差异——在现实世界中普遍存在,并且通常不可避免。这些变化可能会严重恶化模型性能,给可靠的图机器学习带来重大挑战。因此,分布变化下的图机器学习研究激增,旨在训练模型以在分布外(OOD)测试数据上实现令人满意的性能。在我们的调查中,我们提供了分布变化下深度图学习的最新和前瞻性综述。具体来说,我们涵盖了三个主要场景:图OOD泛化(graph OOD generalization),训练阶段的图OOD自适应(training-time graph OOD adaptation)和测试阶段的图OOD自适应(test-time graph OOD adaptation)。我们正式定义这些问题,并讨论各种类型的分布变化,可以影响图的学习,如Covariate Shifts.。为了更好地理解文献,我们根据我们提出的分类法对现有模型进行了系统的分类,并研究了背后采用的技术。我们还总结了在这一研究领域中常用的数据集,以方便进一步的调查。最后,我们指出了一些有前景的研究方向及其相应的挑战,以推动这一重要领域的进一步研究。
Introduction
尽管图机器学习取得了显著的成功,但大多数现有方法假设测试数据的分布与训练数据相同,而这种假设在真实环境中往往不成立。当面对OOD样本时,图机器学习方法的性能可能大幅下降,限制了其在金融和医疗等高风险图应用中的有效性。尽管已有众多迁移学习方法被提出以应对欧几里得数据的分布偏移,但直接将这些方法应用于图数据存在挑战:
这是由于图中的实体是相互关联的,违背了传统迁移学习方法中独立同分布(IID)假设。此外,各类图分布偏移带来了新的挑战。这些偏移存在于特征、结构和标签等不同模态中,表现形式多种多样,包括图大小、子图密度和同配性等的变化。鉴于这些障碍,越来越多的研究致力于提高图机器学习在分布偏移下的可靠性,主要集中在三个场景:图的OOD泛化、训练阶段的图OOD自适应,以及测试阶段的图OOD自适应。
图的OOD泛化与自适应方法的主要区别
在于对目标数据可用性的假设。
图的OOD泛化方法通常假设在模型训练过程中目标数据不可用,旨在提升模型对任何潜在未见测试分布的泛化能力。相反,训练阶段和测试阶段的自适应方法则假设目标数据可用,目标是提高模型在该特定目标上的表现。然而,两者在对源数据的假设和如何利用源分布知识方面有所不同。训练阶段的自适应假设源图和目标图同时可用,使得模型可以从头开始在训练过程中进行适应;而测试阶段的自适应通常假设访问的是预先在源图上训练好的模型,而非源图本身,然后从该预训练状态开始适应目标数据。尽管图的OOD泛化、训练阶段的OOD自适应和测试阶段的OOD自适应密切相关,但目前尚无统一的框架能够全面探讨这三个场景下的深度图学习在分布偏移下的表现。
该文有异配会加剧结构偏移的结论?