60+位作者发布263页pdf《AI4Science》论文,百科全书式概述人工智能在量子、原子级和连续系统科学的应用...

a2dfeabdfef9cc96732b94a7ce66e403.jpeg

来源:专知

012334bca2ddae2ab4bbcddae5ce0831.jpeg

人工智能(AI)的进步正在推动自然科学新发现的新范式。如今,AI已经开始通过提高、加速和促进我们对各种空间和时间尺度下自然现象的理解,推动自然科学的发展,催生出了被称为科学人工智能(AI4Science)的新研究领域。作为一种新兴的研究范式,AI4Science是一个庞大且高度跨学科的领域。因此,对这个领域进行统一和技术处理是必要的,但也充满挑战。本文旨在对AI4Science的一个子领域提供深入且技术全面的阐述,即针对量子、原子和连续体系的AI。这些领域旨在理解从亚原子(波函数和电子密度)、原子(分子、蛋白质、材料和相互作用)到宏观(流体、气候和地下)尺度的物理世界,构成了AI4Science的重要子领域。关注这些领域的独特优势在于,它们在很大程度上共享一组挑战,从而允许进行统一和基础的处理。一个关键的共同挑战是如何通过深度学习方法捕捉物理第一原理,特别是自然系统中的对称性。我们提供了对实现对称性变换等变性技术的深入而直观的阐述。我们还讨论了其他常见的技术挑战,包括可解释性、分布外泛化、基础和大型语言模型的知识转移,以及不确定性量化。为了便于学习和教育,我们提供了我们发现有用的资源的分类列表。我们力求做到全面和统一,希望这个初步的努力能激发更多的社区兴趣和努力,以进一步推动AI4Science的发展。

经过几十年的人工智能(AI)研究,神经网络的复兴在深度学习的名义下达到了顶峰 [LeCun等人,1998]。自AlexNet [Krizhevsky等人,2012]以来,十年的密集研究已经导致了深度学习的许多突破,例如,ResNet [He等人,2016],扩散和基于分数的模型 [Ho等人,2020; Song等人,2020],注意力,变换器 [Vaswani等人,2017],以及最近的大型语言模型(LLM)和ChatGPT [OpenAI 2023]等。这些发展使得深度模型的性能不断提高。当配合日益增长的计算能力和大规模数据集时,深度学习方法正在变成各种领域的主导方法,例如计算机视觉和自然语言处理。受这些进步的推动,AI已经开始通过提高、加速和促进我们对各种空间和时间尺度下自然现象的理解,推动自然科学的发展,催生出了被称为科学人工智能的新研究领域。我们相信,科学人工智能为科学发现的新范式开启了一扇门,并代表了最令人兴奋的跨学科研究和创新领域之一。从历史上看,计算在加速自然科学发现中的重要性已经被注意到。几乎一百年前,在1929年,量子物理学家保罗·狄拉克指出:“对于大部分物理学和全部化学的数学理论所需的基础物理法则已经完全被我们所知,而困难在于,这些法则的精确应用会导致复杂得难以解决的方程。”在量子物理学中,众所周知,薛定谔方程为量子系统的行为提供了精确的描述,但是由于其指数级的复杂性,只能解决非常小的系统。在流体力学中,纳维-斯托克斯方程描述了流体流动的时空动态,但是解决这些方程的实际有用大小是非常需要的,特别是在需要计算效率的情况下。与这两个例子类似,许多自然科学问题的底层物理已知,并可以由一组数学方程描述。关键的困难在于如何准确和有效地解决这些方程。最近的研究已经显示,深度学习方法可以加速这些方程的解的计算。例如,已经使用深度学习方法来计算量子物理中的薛定谔方程的解 [Pfau等人,2020; Hermann等人,2020, 2022] 和流体力学中的纳维-斯托克斯方程 [Kochkov等人,2021b; Brunton等人,2020]。在这些领域中,模拟器被用来计算数学方程的解,结果被用作训练深度学习模型的数据。一旦训练完成,这些模型可以以比模拟器快得多的速度进行预测。除了提高效率,已经证明深度学习模型具有更好的分布外(OOD)泛化能力,其范围扩展到了更广泛的实际设置,其中训练和未见数据通常遵循不同的分布。

在生物学等其他领域,底层的生物物理过程可能并未完全被理解,也可能最终无法用数学方程来描述。在这些情况下,可以使用实验生成的数据来训练深度学习模型,以模拟底层的生物物理过程。例如,在生物学中,像AlphaFold [Jumper等人,2021]、RoseTTAFold [Baek等人,2021] 和ESMFold [Lin等人,2022a]这样的AI系统,其通过实验获取的3D结构进行训练,使得计算预测蛋白质3D结构的准确性能够与实验结果相媲美。除了技术挑战外,这些领域的一个关键元素是大量实验生成的数据的可用性。例如,AlphaFold、RoseTTAFold和ESMFold的成功,很大程度上依赖于使用实验生成的大量蛋白质3D结构数据,并存储在例如蛋白质数据银行这样的数据库中。

97122dc46e969376f0498a6b3858e1a4.jpeg

图1. 科学人工智能中选定研究领域的综合概览。如第1.1节所述,我们关注的是量子力学、密度泛函理论、小分子、蛋白质、材料、分子相互作用和偏微分方程的人工智能。我们在最外层的圆圈中以视觉形式描绘了这些多样化的领域。这些领域按照其各自的物理世界建模的空间和时间尺度进行排列,突出了量子、原子和连续系统。值得注意的是,如第1.2节所总结的,一系列共同的技术考虑和挑战,如对称性、可解释性和分布外泛化,存在于这些多个科学人工智能研究领域。我们在最内层的圆圈中展示了这些技术领域。

1.1 科学领域

在这项工作中,我们提供了对科学人工智能的几个研究领域的技术性和统一的回顾,这些领域是研究人员在过去几年中一直在研究的。我们根据物理世界被建模的空间和时间尺度来组织科学人工智能的不同领域。我们在本文中关注的科学领域的概览如图1所示。

量子力学使用波函数研究最小长度尺度的物理现象,波函数描述了量子系统的完全动态。在量子物理学中,波函数是通过解薛定谔方程得到的,这带来了指数级的复杂性。在这项工作中,我们提供了如何设计先进的深度学习方法以高效学习神经网络波函数的技术回顾。

密度泛函理论(DFT)和从头算量子化学方法是广泛应用于实践中的第一性原理方法,用于计算分子和材料的电子结构和物理性质。然而,这些方法仍然在计算上昂贵,限制了它们在小系统(∼1,000个原子)中的使用。在这项工作中,我们对深度学习方法进行了技术回顾,这些方法用于准确预测量子张量,这反过来可以用来推导出许多其他物理和化学性质,包括分子和固体的电子、机械、光学、磁性和催化性质。我们还讨论了用于密度泛函学习的机器学习方法。

小分子,也被称为微分子,通常有几十到几百个原子,并在许多化学和生物过程中发挥重要的调节和信号传递作用。例如,90%的批准药物都是小分子,它们可以与靶标大分子(如蛋白质)相互作用,改变靶标的活性或功能。近年来,使用机器学习方法加速了对原子级小分子的科学发现的重大进展。在这项工作中,我们对小分子表征学习、分子生成、模拟和动力学进行了深入的技术回顾。

蛋白质是由一个或多个氨基酸链组成的大分子。人们普遍认为,氨基酸序列决定了蛋白质的结构,而结构又决定了它们的功能。蛋白质执行大部分的生物功能,包括结构性、催化性、繁殖性、代谢性和运输性等角色。最近,机器学习方法在蛋白质结构预测方面取得了显著的进步[Jumper et al. 2021; Baek et al. 2021; Lin et al. 2022a]。在这项工作中,我们提供了如何从蛋白质3D结构中学习表示,以及如何生成和设计新颖蛋白质的技术回顾。

材料科学研究加工、结构、性能和材料的关系。材料的内在结构从原子到微观和连续尺度决定了它们的量子、电子、催化、机械、光学、磁性和其他性质通过与外部刺激/环境的相互作用。最近,人们已经开发出了预测晶体材料性质和设计新颖晶体结构的机器学习方法。在这项工作中,我们对晶体材料的性质预测和结构生成提供了技术回顾。

分子相互作用研究如何通过分子相互作用来执行许多物理和生物功能。最近在机器学习方面的进步引发了在模拟各种分子相互作用,如配体-受体和分子-材料相互作用方面的复兴。在这项工作中,我们对这些进步进行了深入和全面的回顾。

连续力学使用偏微分方程(PDEs)对宏观水平的时间和空间演化的物理过程进行建模,包括流体流动、热传递和电磁波等。然而,使用经典解算器求解PDEs有几个限制,包括效率低、分布外泛化和多分辨率分析困难等。

在这项工作中,我们对最近用于代理建模的深度学习方法进行了回顾,这些方法解决了这些限制。在每个领域,我们都提供了精确的问题设置,并讨论了使用AI解决这类问题的关键挑战。然后,我们对已经开发的主要方法进行了概述。我们还描述了用于评估机器学习方法的数据集和基准。最后,我们总结了每个研究领域中的剩余挑战,并提出了几个未来的研究方向。在适用的情况下,我们在每个小节的开头包含了推荐的预备章节,以指出各节之间的依赖性。整体的分类结构总结为图2。本文提出了一个全面的分类法,以对称性、等变性和群论的共享数学和物理原理为基础,深入探讨了科学人工智能领域内的七个具体领域,并讨论了在多个领域中存在的共同技术挑战。这使得科学人工智能的全面和结构化的探索成为可能。

6d9abe974b1c19596e9cd09616c209d0.jpeg

1.2 科学人工智能的技术领域 我们已经观察到,在科学人工智能的多个领域存在一系列共同的技术挑战

对称性:在许多科学问题中,一个常见且反复出现的观察是,感兴趣的对象或系统通常包含几何结构。在许多情况下,这些几何结构暗示着底层物理规律遵循的某些对称性。例如,在分子动力学中,分子以3D空间中的图形表示,平移或旋转分子可能不会改变其属性。那么这里的对称性就被称为平移或旋转不变性。正式地说,对称性被定义为一种变换,当它作用在感兴趣的对象上时,会使对象的某些属性保持不变(不变)或以确定的方式改变(等变)[Bronstein et al. 2021]。对称性是非常强的归纳偏见,正如P. Anderson(1972)所说:“只是稍微夸大了一点,说物理就是对称性的研究。”[Anderson 1972]。因此,科学人工智能的一个关键挑战是如何在AI模型中有效地集成对称性。我们使用对称性作为连接本文中许多主题的主要共同线索。每个领域所需的对称性也在图3中进行了总结。

可解释性:科学的目标是理解物理世界的主导规则。因此,科学人工智能的目标是(1)设计能够准确模拟物理世界的模型,和(2)解释模型以验证或发现主导的物理规则[E et al. 2020]。因此,可解释性在科学人工智能中是至关重要的。

分布外(OOD)泛化和因果性:传统的机器学习方法假设训练数据和测试数据遵循相同的分布。实际上,训练数据和测试数据之间可能存在不同的分布偏移,提出了需要识别能够进行OOD泛化的因果因素的需求。OOD泛化在科学模拟中尤其相关,因为这避免了为每个不同设置生成训练数据的需要。

基础模型和大型语言模型:当标注的训练数据不容易获得时,进行无监督或少数样本学习的能力变得重要。最近,基础模型[Bommasani et al. 2021]已经在自然语言处理任务上展示了令人鼓舞的性能。通常,基础模型是大规模模型,它们在自我监督或可泛化的监督下进行预训练,允许以少样本或零样本的方式执行各种下游任务。由于GPT-4等大型语言模型(LLM)的最新发展,这种模式变得越来越流行。我们提供了我们对这种范式如何加速科学人工智能发现的观点。

不确定性量化(UQ)研究如何在数据和模型不确定性下保证稳健的决策制定,并且是科学人工智能的一个关键部分。UQ已经在应用数学、计算和信息科学的各种学科中得到研究,包括科学计算、统计建模,以及最近的机器学习。我们在科学发现的背景下提供了关于UQ的最新评述。

教育:科学人工智能是一个新兴且发展迅速的研究领域,有许多有用的资源在线或实地开发出来。为了便于学习和教育,我们已经编制了我们认为有用的资源的分类列表。我们也提供了我们对社区如何能更好地促进AI与科学和教育的整合的观点。

c048b58a495bd3d0b4538037a7439850.jpeg

b34d19c4f0a4adf7cb8dc06abf055a82.jpeg

e02bce9fe57691fde3686b0bef3099ec.jpeg

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

76462dddcce84682f376a243fdbd2897.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/43869.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于GPT,人工智能,以及人的一些思考

注:这是一篇关于人工智能与人的万字长文。一次性读完可能会有困难。建议分次阅读。 为了写这篇文章,我用掉半年的读书钱自己训练了乞丐版的GPT模型。 在这篇文章中我从如下几个方面围绕人工智能进行了讨论,包括: 通用人工智能和图…

打破大语言模型巨头公司霸权:0门槛克隆ChatGPT,30分钟训完,60亿参数性能堪比GPT-3.5!...

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 最新亲测国内可用ChatGPT使用教程(3分钟搞定) 文心一言、GPT3.5及GPT4应用测评对比报告 ChatGPT团队背景研究报告 ChatGPT的…

工业4.0(Industry 4.0):研究现状与发展战略

工业4.0(Industry 4.0):研究现状与发展战略 李升伟 陈良兵 1. 工业4.0(Industry 4.0)的概念(内涵与外延)是什么? 工业4.0是指第四次工业革命,代表了工业生产的数字化、…

人工智能十年回顾 —— 从图像分类到聊天机器人治疗

目录 2013:AlexNet 和变分自动编码器 2014:生成对抗网络 2015 年:ResNets 和 NLP 的突破 2016:阿尔法围棋 2017:Transformer 架构和语言模型 2018:GPT-1、BERT 和图形神经网络

程序员如何在ChatGPT世界中生存?程序员保持领先于生成式AI的技巧

程序员保持领先于生成式AI的技巧 坚持基础和最佳实践找到适合您需求的工具清晰而准确的对话是关键要保持批判并了解风险comments 人工智能,尤其是由大型语言模型(LLM)驱动的生成式人工智能,可能会颠覆许多程序员的生计。但一些专家…

【电商AI工具二期】智能AI赋能电商新纪元:22个必备AI电商工具助你抢占市场爆款!

注: 本文可自由转载 0. 未来百科 未来百科(https://nav.6aiq.com),是一个知名的AI产品导航网站 —— 为发现全球优质AI工具而生 。目前已 聚集全球3000优质AI工具产品 ,旨在帮助用户发现全球最好的AI工具,同时为研发AI垂直应用的…

推荐一款自动生成财务报表分析的软件

财务报表能够清晰的反映一个企业的经营状况,通过三大财务报表的资产负债表、利润表、现金流量表,能够清晰的揭示企业经营中存在的问题,也是税务局要求企业报税的必备财务报表。但是,会计手工编制财务报表,费时费力&…

【人工智能】谷歌的巴德聊天机器人向公众开放 | Google‘s Bard Chatbot Opens to the Public

https://bard.google.com/ Google is trying to balance AI progress with caution. 谷歌正试图谨慎地平衡人工智能的进展。 目录 https://bard.google.com/ 访问(需要科学

ChatGPT生成的介绍Easy发票查验软件的文案!说到我的心坎里了!

该软件是一款专为企业用户设计的发票处理工具。它拥有多种功能,包括发票图片矫正、发票识别、发票重命名、发票查验和发票打印等,可极大地提高企业的发票处理效率。 首先,该软件的发票图片矫正功能可以自动调整图片的角度和大小,确…

(转)所谓“降维打击”到底什么意思?

*本文先结合一些案例解释在商业市场等战场上“降维打击”的含义和应用原理,然后进一步讨论“降维”之说对于日常问题分析的价值,挖掘“降维”式的思维模型。读过《三体》有助于形象化理解,但本文完全不要求有《三体》知识背景。 …

升维思考,降维攻击

有时候,我们已经够努力了,却还是看不到生活有所改变的迹象,内心就像陷入了一个迷宫,迷茫而焦虑。 爱因斯坦曾说,这个层次的问题,很难靠这个层次的思考来解决。 那如果这个层次的思考失效,我们又…

google 浏览器出现 ERR_PROXY_CONNECTION_FAILED 无法访问网络

1. 问题 早上来公司突然发现谷歌浏览器访问所有的东西都出现 ERR_PROXY_CONNECTION_FAILED 网络不可用的提示 这一串的单词的意思是 代理连接失败 真的是一脸懵逼 经过一番百度后发现是网络代理作的妖… 2. 解决方法 其实很简单将 wifi 和网络里面所有的代理全部取消即可 全部…

Edge浏览器出现无法访问此页面,XXX已拒接链接,请尝试检查代理和防火墙

针对这种情况有两种办法解决: 方案一:针对部分人有效 方案二:针对所有人有效,且从根本上解决问题(如果方案二不成功,把方案一也配置一下) 情况如下图所示: www.bilibili.com 已拒绝…

chatgpt赋能python:Python代码出错怎么办?这里有几个调试技巧

Python代码出错怎么办?这里有几个调试技巧 作为Python工程师,我们经常会遇到代码出错的情况。这些错误可能会给我们带来很大的困扰,导致我们花费大量的时间和精力来修复它们。但是,幸运的是,Python提供了一些很棒的调…

chatgpt赋能python:Python编程中如何有效地改错

Python编程中如何有效地改错 作为一名有10年Python编程经验的工程师,我知道在编写代码过程中经常遇到的一个问题:运行代码时会发现错误,这时候必须找到这些错误并加以修复,才能确保代码的正常运行和结果的正确性。在本文中&#…

chatgpt赋能python:Python自动修改自身代码——优化脚本编写效率的神器

Python自动修改自身代码——优化脚本编写效率的神器 随着人工智能和机器学习等领域的飞速发展,自动化成为了当前编程领域的一大趋势。在这一趋势下,Python作为一门高效而易于学习的编程语言,成为了最受欢迎的自动化脚本编写语言之一。而Pyth…

腾讯云服务器可以干嘛?

腾讯云服务器可以干嘛?最近继阿里云降价后腾讯云也开始降价,拥有一台云服务器的成本越来越低,那么拥有一台腾讯云服务器可以干嘛?除了使用云服务器搭建网站还可以做哪些事情?腾讯云百科认为使用云服务器可以做搭建个人…