本文刊载于《中国科学院院刊》2023年第4期 “科学观察”
王飞跃1 缪青海2
1 中国科学院自动化研究所 复杂系统管理与控制国家重点实验室
2 中国科学院大学 人工智能学院
近期,以 ChatGPT 为代表的大模型技术正开启人类社会智能化的新纪元。研究人工智能成功案例背后的技术原理,探索人工智能驱动的科学研究(AI for Science,AI4S)新范式,对促进我国科技进步、增强国家竞争力具有十分重要的意义。文章首先以数学、物理学、生物学、材料科学领域为例,简述 AI4S 的研究进展。其次,面向近年来最为成功的人工智能范例,分析 AlphaFold 和 ChatGPT 的基本原理和关键技术。最后,在以上分析的基础上,从算法、模型、数据、知识、人的因素等角度,总结大模型时代人工智能技术发展新趋势,探讨 AI4S 研究新范式。
在全球迎来前所未有之大变局的时代背景之下, ChatGPT 在 2022 年底一经推出便掀起新一轮人工智能(AI)浪潮。以 ChatGPT 为代表的大模型技术影响空前深远,正推动 AI 技术从特定应用和游戏等领域进入人们日常生活,成为切切实实的生产力工具,人类社会的智能化革命已经拉开帷幕。
图灵奖得主 Jim Gary 认为科学研究经历了经验范式、理论范式、计算范式、数据驱动范式等 4 种范式。当前,许多科学家认为科学研究正在迎来新的范式,即第五范式。第五范式以虚实交互、平行驱动的 AI 技术为核心,以智联网和区块链构建基础,以融入人的价值和知识为手段,开启以人机共融为特征的科学研究新时代。在产业方面,第五范式也称为工业 5.0。而 AI 驱动的科学研究(AI for Science,AI4S),更是新范式在基础科研的深度体现。
近期,科学技术部会同国家自然科学基金委员会启动“人工智能驱动的科学研究”(AI for Science)专项部署。本文通过概述 AI4S 发展现状、分析典型 AI 应用范例,进一步探讨 AI4S 范式创新之路。
1
AI4S 发展现状简述
近几年来,在深度学习等 AI 技术的推动下,AI4S 在数学、物理学、生物医学、材料科学等领域取得了许多令人瞩目的成绩。
1
数学领域
2017 年以来,科学家尝试使用机器学习、ResNet、seq2seq 模型等技术求解偏微分方程,获得了更快更准的结果。2021 年,DeepMind开发了启发数学家直觉灵感的机器学习框架,帮助数学家和 AI 研究人员在 Knots 理论方面发现新定理,证明了已提出 40 年之久的 Kazhdan-Lusztig 多项式。2022 年 10 月,同样是 DeepMind 在 Nature 发文,推出在 AlphaZero(前身是著名的 AlphaGo)基础上开发的AlphaTensor,并通过强化学习找到了矩阵相乘的最快算法。DeepMind 的系列工作,为 AI 驱动的数学研究(AI for Math)提供了可供参考的新范式。
2
物理领域
AI 方法除了用于实验数据处理和分析之外,还帮助科学家设计实验、优化参数。20世纪 90 年代,高能与核物理学界就使用神经网络和符号 AI 辅助研究。2014 年,人工神经网络赢得了 ATLAS 实验中识别希格斯玻色子的挑战。2015 年,欧洲核子研究组织 CERN 成立了机器学习工作组来处理大型强子对撞机(LHC)产生的海量数据。2022 年2 月,DeepMind 在 Nature 上发表了其工作:通过深度强化学习对托卡马克等离子体进行磁控。2022 年 8 月,物理学家使用人工神经网络找到了质子中存在隐性内含粲夸克(intrinsic charm quarks)的证据,这一发现可能会改写量子色动力学的教科书。
3
生物医学领域
AlphaFold 是 AI4S 领域最成功的代表。从 2016 年开始,DeepMind 构建 AI 系统来挑战蛋白质三维结构预测任务。AlphaFold 将预测误差缩小到原子尺度,而计算时间从数年缩减到数分钟,显著提升了效率。DeepMind 宣布其 2 亿个蛋白质结构预测向世界各地的科学家提供开放访问,这对加速药物研究具有重大意义。除 AlphaFold 外,华盛顿大学开发的 RoseTTAFold、中国科学技术大学研发的 SCUBA等模型,也在该领域不断突破。
4
材料科学领域
2011 年,美国提出“材料基因组计划”(MGI),旨在解码材料的不同组成成分和性能的对应关系,借助高通量计算、大数据、AI 等技术,有效缩短了材料研发周期、降低了研发成本。2016 年 Nature 发布了美国哈弗福德学院和普渡大学的研究成果,科研人员利用机器学习算法,用“失败”的实验数据预测了新材料合成,这启示机器学习等 AI 技术成为材料科学的重要研究方式。
正如我们所见,AI 在科学研究中的角色随着深度学习的繁荣而发生了变化。早期,AI 方法只是作为辅助工具,帮助分析实验数据。如今,AI 方法已成为更复杂任务(如定理证明、结构设计和知识发现)实现过程中的关键技术。AI 还在不断拓展学科领域,“人工智能驱动的科学研究”专项部署重点面向数学、物理学、化学、天文学等基础学科,必将为这些学科快速发展带来新契机。
2
热点背后的AI范式分析
在算法、数据、算力三大引擎的驱动下,深度学习时代下的 AI 研究进展迅速,AlphaGo、AlphaFold、ChatGPT 等成为 AI 发展历史上一座座里程碑。分析这些案例特点,总结成功经验,对于 AI 后续的创新和应用具有十分重要的启发意义。
AlphaFold 研究范式
DeepMind 推出的 AlphaFold 系列是 AI4S 的最成功的代表之一,尤其是第二代 AlphaFold2 在 2020 年全球蛋白质结构预测比赛(CASP14)中拔得头筹,蛋白质三维结构预测准确性接近实验结果。AlphaFold2 的目标是根据输入的一维氨基酸序列预测蛋白质的三维结构,其成功可以归因于领域知识与深度学习前沿技术的融合。
从深度学习的角度来看,AphaFold 2 有 3 个亮点。
1. AlphaFold 2 淘汰了第一代所采用的卷积神经网络(CNN)特征提取结构,替换为基于注意力机制的性能更强的Evoformer。
2. AlphaFold 2 不是简单的单向处理流程,而是采用了循环迭代优化。
3. AlphaFold 2 同时使用带标签和未带标签的数据进行网络训练,并融入含噪自蒸馏处理。整体来看,AlphaFold 2 是一个包含多种算法和学习策略的系统化方法。
从知识融合的角度来看,相对于神经网络模型层面的创新,多元知识的表示和融合在 AphaFold 2 中扮演着更为关键的角色。
1. 蛋白质结构预测是一个专业方向,科学家通过数十年的研究积累了宝贵的知识和数据。ApphaFold 2 使用了 2 种类型的数据集:一种是序列数据集,如 UniRef 90、BFD、MGnify 等。基于“同一位置的氨基酸在物种间是不变的,2 个不同位置的氨基酸同步变化”这一领域知识,AlphaFold 2 从遗传序列数据库中搜索并构建多序列比对(MSAs),而 MSA 的质量决定了 ApphaFold 2 的预测准确性;另一种是结构数据集,如 PDB 和 PDB70 等。ApphaFold 2 从这些结构数据集中搜索并构建残基之间关系的配对(pair)表示。通过这种方式,一维氨基酸序列通过领域知识和数据集进行扩充,形成 2 个二维关系表示。
2. Evoformer 接收 MSA 和 Pair 表示,在行、列 2 个维度进行注意力计算,完成 2 种表示的交叉融合。需要注意的是,在配对(pair)表示的注意力计算中引入了几何知识,即氨基酸之间的距离要满足三角不等式约束。
3. 在结构预测模块中,利用三维空间结构平移和旋转等变的知识,ApphaFold 2 引入了不动点注意力(IPA)计算。根据 IPA 输出的残基相对位移和旋转,AlphaFold 2 进一步预测原子的空间位置。
4. 引入 OpenMM 中的 Amber 力场优化工具,以确保输出的三维结构满足立体化学约束。
从对 AphaFold 2 研究范式的分析可以看出,其特点是深度学习技术与各类知识的有机融合,涵盖了知识、数据、算法、算力这 4 种第三代 AI 的核心要素。因此,围绕深度学习,研究知识获取、知识表示、知识集成、知识利用,即知识自动化方法,探索“知识-学习”协同组织形式,开发协助 AI4S 研究的系统化基础框架,应当得到 AI 界和科学界的共同重视和大力投入。
ChatGPT 研发范式
自 2022 年 11 月起,ChatGPT 掀起新一轮 AI 全球浪潮。ChatGPT 因其能够进行多轮对话、承认错误、反驳错误前提和拒绝回答不恰当的问题而享有盛誉。ChatGPT 在回答问题的准确性和逻辑完整性方面超越了现有的聊天机器人,在遵守道德、伦理、法律方面也有很好的表现。ChatGPT 是 OpenAI 近年来研发的一系列 GPT 模型在对话场景的实例,有 3 个技术特征。
1
ChatGPT 基于大规模预训练语言模型,即著名的 GPT-3 系列(GPT-3.5)
在过去的几年里,大规模的预训练模型发展迅速。大规模预训练模型通过学习大量的公开数据,将学习到的知识存储在大规模参数之中,不断刷新多个领域中多数任务的最高性能纪录,是通向通用人工智能的可行路径。
2
ChatGPT 使用人类反馈强化学习(RLHF)在 GPT-3.5 上进行微调
微调是包含 2 个数据集的过程,共有 3 步:第一步,由 2 个 AI 训练师基于给定采样提示(prompt)通过对话生成人类演示数据集,用于 GPT-3.5 微调训练,结果称为有监督微调模型(SFT)。第二步,通过 AI 培训师和聊天机器人之间的对话收集比较数据集,对 SFT 模型输出的多个结果,由 AI 培训师给出从最好到最差的打分排序。之后,用这个排序数据集训练强化学习的奖励模型,此过程也是有监督的方式。第三步,使用近端策略优化(PPO)算法,由奖励模型生成 reward,通过强化学习进一步微调 SFT 模型。第二步和第三步重复多次,最后得到 PPO 模型,即 ChatGPT。
3
GPT 模型按照“开发-部署”的理念迭代完善
将初步开发完成的模型部署上线,为用户提供测试服务,由此收集用户与模型的交互数据作为进一步优化模型的基础。开发(学习)和部署(应用)形成闭环,这种迭代优化策略在降低语言模型误用风险方面起着至关重要的作用。
ChatGPT 范式再次展示了预训练大型模型的强大功能,凸显了人类在引导大模型遵循人类规则方面的重要作用。由此可见,针对大模型的微调、上下文学习、指示学习、提示学习是 AI 的重要研究方向。
3
探索 AI4S 研究新范式
AI 本身的研究范式也在不断转变。自 AI 诞生之初,人们基于几个基本假设(如独立同分布、Markov属性等),使用初级方法(如 Perceptron等)解决简单的问题(如简单的二元分类、回归等),并由此产生了 3 种基本范式——监督学习、无监督学习和强化学习。但面对复杂问题时,这些基本范式存在局限性。因此,随着新的算法(BP 算法、分层训练等)和模型(CNN、长短期记忆人工神经网络 LSTM 等)的出现,AI 逐渐发展出主动学习、迁移学习、终身学习等新范式。近年来,AlphaGo 和 ChatGPT 等前沿进展以其革命性的成就引领了新一轮的范式转变。从范式转变的角度看待人工智能的发展,对促进探索 AI4S 创新应用具有重要价值,为此,以下从算法、模型、数据、知识、人的角色等方面进行分析。
算法
算法是人工智能的基石。典型 AI 新范式中使用的算法不仅限于机器学习,还涉及整个人工智能领域,包括搜索和推理。例如,AlphaGo 的主干是蒙特卡洛树搜索(MCTS)算法。近年来出现的新算法,例如受热力学启发的扩散模型(Diffusion Model),在AI生成内容(AIGC)领域显示出巨大潜力。由此可以看出,Science for AI 对 AI 算法创新也具有重要意义,应得到同 AI4S 一样的重视。
模型
机器学习模型的创新是推动人工智能发展的核心要素。尤其是神经网络新架构:从 M-P 模型到 Perceptron,从 LeNet 到 ResNet,从 LSTM 到 Transformer。AlphaGo 以 CNN 为主干网络,用于提取棋局特征、辅助走棋决策和棋局评估。AlphaFold 2 用Transformer(EvoFormer)替换 CNN 模型,这是其性能相比第一代有巨大提升的主要原因之一。ChatGPT 建立在基础模型(GPT-3)之上,充分利用了大规模预训练语言模型的力量。利用大模型的规模效应,研究利用 prompt 等方法引导大模型释放内在能力,是 AI4S 重要方向之一。
数据
数据是深度学习的三大核心驱动力之一,但存在标签数量少、标注成本高、分布不平衡、隐私保护等问题。主动学习、溯因学习、对比学习、平行学习和迁移学习等学习范式,能够在一定程度上克服数据标注的不足;而多任务学习、迁移学习、元学习和终身学习,在一定程度上能克服不同任务之间存在数据不平衡问题;联邦学习可用来解决数据安全和隐私问题。
新范式在数据的使用方面有更多亮点,Syn2Real和 Sim2Real 等数据生成方法得到越来越多的重视。例如,AlphaGo 首先在人类棋局上训练策略,通过自我对弈产生更多的数据来训练更强大的策略网络,进而产生更多的数据来训练强大的价值网络。AlphaFold 充分利用遗传数据和结构数据,还通过自蒸馏的方式使用未标注数据来弥补标注数据的不足。ChatGPT 使用人类的演示数据来微调 GPT-3.5,并通过 prompt 在聊天机器人和 AI 训练师之间生成更多的数据,进一步训练奖励模型将数据生成过程自动化。这些范式具有一个共同特征,即它们在缺乏标记数据时尝试生成数据以提高性能。
知识
AI 基本范式很少显式引入知识,但在模型设计(如 CNN)时引入的归纳偏置(inductive bias)也可以看作是先验知识。中级范式通常有 3 种引入知识的方式:
1. 直接(如主动学习)或间接(如课程学习)通过学习策略的设计来提高学习性能;
2. 使用从先前任务或其他任务(数据)中学到的知识来帮助新的学习任务。例如,多任务学习、迁移学习、元学习、平行学习等;
3. 整合上述 2 种方法,设计并维护一个专门的知识库来辅助学习过程。例如,终身学习和溯因学习等。
目前,大多数机器学习范式都采用知识的嵌入表示,以便将知识融合到学习过程中;但其中有 2 个例外,即终身学习和归纳学习,它们具有独立的知识库。我们还发现反馈对于学习中的知识获取、整合和自动化至关重要。高级范式高度依赖知识,例如,AlphaGo 首先利用人类棋手的经验(可看作一种知识)训练策略网络,然后利用围棋规则(也是一种知识)通过强化学习改进策略,进一步通过自我对弈生成大量棋局。AlphaFold 整合了生物学家的发现,以及来自遗传学、数学和化学领域的知识,这种高级范式是知识密集型的代表,为 AI4S 的进一步研究提供重要参考。ChatGPT 的基础是大规模预训练语言模型(GPT3),可以看作是从海量数据中提炼出来的隐性知识库,而提示工程(prompt engineering)是引导大模型生成内容并对齐到人类会话风格、伦理和规范的过程。
运用知识的能力很大程度上决定了学习能力。然而,将知识整合到机器学习的过程中具有很大挑战,知识的获取、表示、集成、利用等环节通常需要人类的参与。“人工智能驱动的科学研究”专项部署强调围绕药物研发、基因研究、生物育种、新材料研发等需求,而知识融入在这些专业性强的 AI4S 领域中作用尤为突出。为此,将大模型打造为知识工厂,研究服务于科学家的知识自动化方法,将是推动高效 AI4S 的重要保障。
人的因素
在深度学习之前,依赖于人类专家的特征工程在 AI 研究中起着决定性的作用。特征工程既费时又低效,而深度学习解决了这个问题。深度神经网络能够自动、准确、高效地提取特征,由此,端到端学习模型越来越受欢迎。然而,在某些应用中,人扮演着重要的角色,如提出要求、设定目标、提供知识、实施控制、执行评估等。因此,端到端学习不是最终目标,不能简单地将人类从机器学习过程中移除。人类在环(human-in-loop)模式的价值在 ChatGPT 的成功中显而易见,其中来自人类反馈的强化学习(RLHF)发挥了关键作用。
除以上因素之外,开展 AI4S 研究的组织方式也是不可回避的重要问题。当前,国际上多种针对产品开发的 DAO(分布式开放自主组织)和针对基础研究的 DeSci(分布式开放科学运动)正蓬勃兴起,特色就是利用智能科学与技术(IST),基于区块链和智能合约的数字组织和数字治理。ChatGPT 的诞生本质上也是得益于这种模式,DeSci 和 DAO 也值得我们关注。
王飞跃 中国科学院自动化研究所复杂系统管理与控制国家重点实验室主任、研究员,中国科学院大学中国经济与社会安全研究中心主任,青岛智能产业技术研究院名誉院长。主要研究方向:平行系统的方法与应用、社会计算、平行智能及知识自动化。
文章源自:王飞跃, 缪青海. 人工智能驱动的科学研究新范式:从AI4S到智能科学. 中国科学院院刊, 2023, 38(4): 536-540. DOI: 10.16418/j.issn. 1000-3045.20230406002.
总监制:杨柳春
责任编辑:张帆
助理编辑、校对:PAN
排版:筱小鹿
往期精选
点击下方阅读原文获取PDF全文