来源:专知
人工智能(AI)的进步正在推动自然科学新发现的新范式。如今,AI已经开始通过提高、加速和促进我们对各种空间和时间尺度下自然现象的理解,推动自然科学的发展,催生出了被称为科学人工智能(AI4Science)的新研究领域。作为一种新兴的研究范式,AI4Science是一个庞大且高度跨学科的领域。因此,对这个领域进行统一和技术处理是必要的,但也充满挑战。本文旨在对AI4Science的一个子领域提供深入且技术全面的阐述,即针对量子、原子和连续体系的AI。这些领域旨在理解从亚原子(波函数和电子密度)、原子(分子、蛋白质、材料和相互作用)到宏观(流体、气候和地下)尺度的物理世界,构成了AI4Science的重要子领域。关注这些领域的独特优势在于,它们在很大程度上共享一组挑战,从而允许进行统一和基础的处理。一个关键的共同挑战是如何通过深度学习方法捕捉物理第一原理,特别是自然系统中的对称性。我们提供了对实现对称性变换等变性技术的深入而直观的阐述。我们还讨论了其他常见的技术挑战,包括可解释性、分布外泛化、基础和大型语言模型的知识转移,以及不确定性量化。为了便于学习和教育,我们提供了我们发现有用的资源的分类列表。我们力求做到全面和统一,希望这个初步的努力能激发更多的社区兴趣和努力,以进一步推动AI4Science的发展。
经过几十年的人工智能(AI)研究,神经网络的复兴在深度学习的名义下达到了顶峰 [LeCun等人,1998]。自AlexNet [Krizhevsky等人,2012]以来,十年的密集研究已经导致了深度学习的许多突破,例如,ResNet [He等人,2016],扩散和基于分数的模型 [Ho等人,2020; Song等人,2020],注意力,变换器 [Vaswani等人,2017],以及最近的大型语言模型(LLM)和ChatGPT [OpenAI 2023]等。这些发展使得深度模型的性能不断提高。当配合日益增长的计算能力和大规模数据集时,深度学习方法正在变成各种领域的主导方法,例如计算机视觉和自然语言处理。受这些进步的推动,AI已经开始通过提高、加速和促进我们对各种空间和时间尺度下自然现象的理解,推动自然科学的发展,催生出了被称为科学人工智能的新研究领域。我们相信,科学人工智能为科学发现的新范式开启了一扇门,并代表了最令人兴奋的跨学科研究和创新领域之一。从历史上看,计算在加速自然科学发现中的重要性已经被注意到。几乎一百年前,在1929年,量子物理学家保罗·狄拉克指出:“对于大部分物理学和全部化学的数学理论所需的基础物理法则已经完全被我们所知,而困难在于,这些法则的精确应用会导致复杂得难以解决的方程。”在量子物理学中,众所周知,薛定谔方程为量子系统的行为提供了精确的描述,但是由于其指数级的复杂性,只能解决非常小的系统。在流体力学中,纳维-斯托克斯方程描述了流体流动的时空动态,但是解决这些方程的实际有用大小是非常需要的,特别是在需要计算效率的情况下。与这两个例子类似,许多自然科学问题的底层物理已知,并可以由一组数学方程描述。关键的困难在于如何准确和有效地解决这些方程。最近的研究已经显示,深度学习方法可以加速这些方程的解的计算。例如,已经使用深度学习方法来计算量子物理中的薛定谔方程的解 [Pfau等人,2020; Hermann等人,2020, 2022] 和流体力学中的纳维-斯托克斯方程 [Kochkov等人,2021b; Brunton等人,2020]。在这些领域中,模拟器被用来计算数学方程的解,结果被用作训练深度学习模型的数据。一旦训练完成,这些模型可以以比模拟器快得多的速度进行预测。除了提高效率,已经证明深度学习模型具有更好的分布外(OOD)泛化能力,其范围扩展到了更广泛的实际设置,其中训练和未见数据通常遵循不同的分布。
在生物学等其他领域,底层的生物物理过程可能并未完全被理解,也可能最终无法用数学方程来描述。在这些情况下,可以使用实验生成的数据来训练深度学习模型,以模拟底层的生物物理过程。例如,在生物学中,像AlphaFold [Jumper等人,2021]、RoseTTAFold [Baek等人,2021] 和ESMFold [Lin等人,2022a]这样的AI系统,其通过实验获取的3D结构进行训练,使得计算预测蛋白质3D结构的准确性能够与实验结果相媲美。除了技术挑战外,这些领域的一个关键元素是大量实验生成的数据的可用性。例如,AlphaFold、RoseTTAFold和ESMFold的成功,很大程度上依赖于使用实验生成的大量蛋白质3D结构数据,并存储在例如蛋白质数据银行这样的数据库中。
图1. 科学人工智能中选定研究领域的综合概览。如第1.1节所述,我们关注的是量子力学、密度泛函理论、小分子、蛋白质、材料、分子相互作用和偏微分方程的人工智能。我们在最外层的圆圈中以视觉形式描绘了这些多样化的领域。这些领域按照其各自的物理世界建模的空间和时间尺度进行排列,突出了量子、原子和连续系统。值得注意的是,如第1.2节所总结的,一系列共同的技术考虑和挑战,如对称性、可解释性和分布外泛化,存在于这些多个科学人工智能研究领域。我们在最内层的圆圈中展示了这些技术领域。
1.1 科学领域
在这项工作中,我们提供了对科学人工智能的几个研究领域的技术性和统一的回顾,这些领域是研究人员在过去几年中一直在研究的。我们根据物理世界被建模的空间和时间尺度来组织科学人工智能的不同领域。我们在本文中关注的科学领域的概览如图1所示。
量子力学使用波函数研究最小长度尺度的物理现象,波函数描述了量子系统的完全动态。在量子物理学中,波函数是通过解薛定谔方程得到的,这带来了指数级的复杂性。在这项工作中,我们提供了如何设计先进的深度学习方法以高效学习神经网络波函数的技术回顾。
密度泛函理论(DFT)和从头算量子化学方法是广泛应用于实践中的第一性原理方法,用于计算分子和材料的电子结构和物理性质。然而,这些方法仍然在计算上昂贵,限制了它们在小系统(∼1,000个原子)中的使用。在这项工作中,我们对深度学习方法进行了技术回顾,这些方法用于准确预测量子张量,这反过来可以用来推导出许多其他物理和化学性质,包括分子和固体的电子、机械、光学、磁性和催化性质。我们还讨论了用于密度泛函学习的机器学习方法。
小分子,也被称为微分子,通常有几十到几百个原子,并在许多化学和生物过程中发挥重要的调节和信号传递作用。例如,90%的批准药物都是小分子,它们可以与靶标大分子(如蛋白质)相互作用,改变靶标的活性或功能。近年来,使用机器学习方法加速了对原子级小分子的科学发现的重大进展。在这项工作中,我们对小分子表征学习、分子生成、模拟和动力学进行了深入的技术回顾。
蛋白质是由一个或多个氨基酸链组成的大分子。人们普遍认为,氨基酸序列决定了蛋白质的结构,而结构又决定了它们的功能。蛋白质执行大部分的生物功能,包括结构性、催化性、繁殖性、代谢性和运输性等角色。最近,机器学习方法在蛋白质结构预测方面取得了显著的进步[Jumper et al. 2021; Baek et al. 2021; Lin et al. 2022a]。在这项工作中,我们提供了如何从蛋白质3D结构中学习表示,以及如何生成和设计新颖蛋白质的技术回顾。
材料科学研究加工、结构、性能和材料的关系。材料的内在结构从原子到微观和连续尺度决定了它们的量子、电子、催化、机械、光学、磁性和其他性质通过与外部刺激/环境的相互作用。最近,人们已经开发出了预测晶体材料性质和设计新颖晶体结构的机器学习方法。在这项工作中,我们对晶体材料的性质预测和结构生成提供了技术回顾。
分子相互作用研究如何通过分子相互作用来执行许多物理和生物功能。最近在机器学习方面的进步引发了在模拟各种分子相互作用,如配体-受体和分子-材料相互作用方面的复兴。在这项工作中,我们对这些进步进行了深入和全面的回顾。
连续力学使用偏微分方程(PDEs)对宏观水平的时间和空间演化的物理过程进行建模,包括流体流动、热传递和电磁波等。然而,使用经典解算器求解PDEs有几个限制,包括效率低、分布外泛化和多分辨率分析困难等。
在这项工作中,我们对最近用于代理建模的深度学习方法进行了回顾,这些方法解决了这些限制。在每个领域,我们都提供了精确的问题设置,并讨论了使用AI解决这类问题的关键挑战。然后,我们对已经开发的主要方法进行了概述。我们还描述了用于评估机器学习方法的数据集和基准。最后,我们总结了每个研究领域中的剩余挑战,并提出了几个未来的研究方向。在适用的情况下,我们在每个小节的开头包含了推荐的预备章节,以指出各节之间的依赖性。整体的分类结构总结为图2。本文提出了一个全面的分类法,以对称性、等变性和群论的共享数学和物理原理为基础,深入探讨了科学人工智能领域内的七个具体领域,并讨论了在多个领域中存在的共同技术挑战。这使得科学人工智能的全面和结构化的探索成为可能。
1.2 科学人工智能的技术领域 我们已经观察到,在科学人工智能的多个领域存在一系列共同的技术挑战。
对称性:在许多科学问题中,一个常见且反复出现的观察是,感兴趣的对象或系统通常包含几何结构。在许多情况下,这些几何结构暗示着底层物理规律遵循的某些对称性。例如,在分子动力学中,分子以3D空间中的图形表示,平移或旋转分子可能不会改变其属性。那么这里的对称性就被称为平移或旋转不变性。正式地说,对称性被定义为一种变换,当它作用在感兴趣的对象上时,会使对象的某些属性保持不变(不变)或以确定的方式改变(等变)[Bronstein et al. 2021]。对称性是非常强的归纳偏见,正如P. Anderson(1972)所说:“只是稍微夸大了一点,说物理就是对称性的研究。”[Anderson 1972]。因此,科学人工智能的一个关键挑战是如何在AI模型中有效地集成对称性。我们使用对称性作为连接本文中许多主题的主要共同线索。每个领域所需的对称性也在图3中进行了总结。
可解释性:科学的目标是理解物理世界的主导规则。因此,科学人工智能的目标是(1)设计能够准确模拟物理世界的模型,和(2)解释模型以验证或发现主导的物理规则[E et al. 2020]。因此,可解释性在科学人工智能中是至关重要的。
分布外(OOD)泛化和因果性:传统的机器学习方法假设训练数据和测试数据遵循相同的分布。实际上,训练数据和测试数据之间可能存在不同的分布偏移,提出了需要识别能够进行OOD泛化的因果因素的需求。OOD泛化在科学模拟中尤其相关,因为这避免了为每个不同设置生成训练数据的需要。
基础模型和大型语言模型:当标注的训练数据不容易获得时,进行无监督或少数样本学习的能力变得重要。最近,基础模型[Bommasani et al. 2021]已经在自然语言处理任务上展示了令人鼓舞的性能。通常,基础模型是大规模模型,它们在自我监督或可泛化的监督下进行预训练,允许以少样本或零样本的方式执行各种下游任务。由于GPT-4等大型语言模型(LLM)的最新发展,这种模式变得越来越流行。我们提供了我们对这种范式如何加速科学人工智能发现的观点。
不确定性量化(UQ)研究如何在数据和模型不确定性下保证稳健的决策制定,并且是科学人工智能的一个关键部分。UQ已经在应用数学、计算和信息科学的各种学科中得到研究,包括科学计算、统计建模,以及最近的机器学习。我们在科学发现的背景下提供了关于UQ的最新评述。
教育:科学人工智能是一个新兴且发展迅速的研究领域,有许多有用的资源在线或实地开发出来。为了便于学习和教育,我们已经编制了我们认为有用的资源的分类列表。我们也提供了我们对社区如何能更好地促进AI与科学和教育的整合的观点。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”