AI发展七十余年,每一技术性突破都将给人类未来开辟新一种可能性。而它与科学研究的深度融合,则会裂变出无数或无穷种可能性。
万众瞩目下,今年10月,有着诺贝尔奖“嫡传”之称的诺贝尔化学奖终于揭晓,授予了对“链接化学和生物正交化学的发展作出了贡献”的三位化学家,他们分别是美国化学家Carolyn R. Bertozzi、丹麦化学家Morten Meldal、美国化学家K. Barry Sharpless。
实际上,靴子落地前,关于这一奖项到底花落谁家引起了无数热议。其中国际化学领域权威期刊《Chemical Reviews》就曾对该奖获得者进行了读者投票预测,带领DeepMind团队开发出能够精准预测蛋白质结构的AlphaFold 2的John Jumper获得了最高票数。
尽管由于“时间问题”,最终John Jumper并未折桂,但在此之前,John Jumper团队已成功拿到了另一个堪称“豪华版诺贝尔奖”、“科学界的奥斯卡”的奖项——2023年生命科学突破奖(Breakthrough Prize in Life Sciences),这是迄今科研领域里奖金最高的生物学及医学奖项。
为何John Jumper及其领导开发的AlphaFold会收获如此多的青睐?主要原因在于,AlphaFold的诞生解决了困扰生物学界半个多世纪的经典难题,即1972年诺贝尔化学奖得主Christian Anfinsen提出的蛋白折叠问题(Protein Folding Problem)——“蛋白质的氨基酸序列应该能完全决定其结构”。
John Jumper团队开创性地利用人工智能技术,终于破解了这一著名猜想,不仅让蛋白质结构预测的研究走入一个新阶段,也将人们对“AI for Science(科学智能)”的关注推向高潮。
简单来说,AI for Science就是让人工智能利用自身强大的数据归纳和分析能力去学习科学规律和原理,得出模型来解决实际的科研问题,特别是辅助科学家在不同的假设条件下进行大量重复的验证和试错,从而大大加速科研探索的进程,如今这一方法已在多个前沿科学领域中取得了显著的成果。
与大家此前耳熟能详且触手可及的人工智能应用相比,AI for Science所涉及的生物制药、能源、材料研发等科研领域尽管离大众生活看似遥远,但其背后的共同之处在于,利用人工智能来“解放”生产力——让人们能够从许多重复性、机械化的基础工作中释放出来,在人工智能的辅助下进行更高效的生产工作。这正是人工智能的价值和魅力所在。
AI for Science:用人工智能催化一场新的“科学革命”
让我们回到AlphaFold,从解析蛋白质的技术演进,来观察AI的加入到底能给科研带来怎样的颠覆。
作为生命的物质基础,蛋白质与生命及各种生命活动有着极其紧密的联系,包括人体所有疾病的发生几乎都与蛋白质功能异常有关。换句话说,如果能人为地激发或抑制蛋白靶标,“控制”蛋白质的结构和功能,就能够大大加速对疑难杂症的靶向药物和高效疗法的研发。
在过去,生物学家们曾广泛使用X射线衍射、冷冻电子显微镜等实验技术来破译蛋白质的三维结构,这类方法耗时长且成本高。因此从1994年开始,多支科研团队在两年一届的国际蛋白质结构预测竞赛(CASP,Critical Assessment of protein Structure Prediction)上施展拳脚,并由此催生了I-TESSER、RaptorX、RoseTTAFold等蛋白质结构预测模型。
但是问题也随之而来,这些大部分用计算机基于理论预测的蛋白质结构模型,其实与实际观测到的实验数据相去甚远,正确率不足40%。其后续发展需要持续提高预测模型的精度,以无限缩小预测结构和实验误差。
不仅如此,从蛋白质结构预测推进到药物研发环节,不同药物设计方法的原理和应用场景也有着极大差异。例如在制药流程中,从前端的靶点发现、先导化合物的筛选优化,再到后期ADMET预测、甚至临床效果预测等多个环节,都面临着独特的技术挑战。在这个过程中,研究人员必须要进行高通量的重复性实验,甚至要花费多年的时间,验证次数也高达数百万次。
而今,回看这个半世纪以来令无数学者着迷却又难以跨越的难题,不过是科研领域延绵壁垒中的冰山一角。而成熟的AI技术与科研领域及多学科交叉融合诞生的“AI for Science”,无疑给这个难题以及人类在科学无人区的更多探索带来了全新的可能性。
从2020年开始,AI for Science进入了集中爆发的发展阶段,其中就包括了AlphaFold项目,其最新成果——由DeepMind在2021年发布的AlphaFold 2,已能成功预测98.5%的人类蛋白质三维结构,且预测结果与大部分蛋白质的真实结构只相差一个原子的宽度,可达到以往通过冷冻电子显微镜等复杂实验观察预测的水平。
类似于生命科学领域,分子动力学领域也出现了影响力同样显著的DeePMD-kit项目,其通过利用机器学习、高性能计算技术与物理建模相结合,能够将分子动力学的极限提升至10亿原子规模,同时保持高精度,大大解决了传统分子动力学中“快而不准”、“准而不快”的难题。
还有在气象预测领域,基于新型算子学习的神经网络模型FourCastNet,能够将天气预报提速45000倍;在工业领域的流体、结构等PDE方程求解方面,也已证实基于数据+物理机理融合的AI方法,是解决复杂高维物理问题的突破口……
一言以蔽之,无论是今年爆火的AI绘画、AI对话模型ChatGPT等AI应用,亦或是大量AI for Science领域的项目案例,都足以证明AI正在为各个行业、领域带来了一场范式革新。但AI for Science更重要的意义在于,其对前沿科研所施加的加速作用,将对人类社会和经济发展有着更为基础,也更为深远的影响。
而且,AI for Science的应用也不仅仅局限于依据已知科学原理来高效验证或试错,它也让更多科研人员能够基于AI在更复杂的场景中做探索,结合数据反推复杂场景下更为准确的物理规律。
毫不夸张地说,人工智能将成为科学家继计算机之后的全新生产工具,同时也正在催化一场新的“科学革命”。
跨越落地壁垒,从深度学习框架出发
但从畅想回归现实,人工智能行业想要获得长足发展,真正成为人类新的生产工具,必然要跨过落地这道关卡。而AI for Science所具备的全面、深层次革新价值,亦让它面临远高于人们常见AI应用的落地壁垒。
主要原因在于,AI for Science的落地应用需要大量的工业场景数据支持,以及合理的科学机理等效,而且高维、海量的数据也对算力和内存提出了更高的要求。总的来看,目前AI for Science落地应用的最大壁垒主要体现在数据、平台技术、软硬协同、领域求解能力和优秀研发生态上。
从数据角度,工业场景的数据维度高、格式繁杂且存在孤岛现象,同时由于隐私和法律上的一些限制,部分数据很难实现公开共享。因此如何高效治理这些多特征、多来源的数据,解决小样本、零样本数据建模,是当前AI在科研领域落地的基础。
从软硬件协同角度,AI for Science的发展既离不开深度学习框架的支持,也无法脱离底层高性能硬件的支撑。一方面,AI for Science需要更加科学地求解真实物理问题,如高阶PDE方程组的求解,以及数据+物理机理驱动的模型开发。另一方面,传统的科学计算中心已广泛支持各类科研任务,在其持续增加智能计算硬件能力的同时,也需要科学计算/智算硬件与AI开发框架深度整合,支持各类新型AI for Science计算场景并达到性能领先。
从研发生态角度,AI for Science作为一个充分体现交叉学科的新兴科研范式,涉及生物学、分子动力学、计算流体力学、固体力学等学科,需要大量的跨领域科研人才,且不断扩展的开源生态库要与传统数据集模拟软件、数据集打通,才能满足研发人员对开发工具链的需求,逐步形成稳定且优质的科研生态。
为了跨越这些壁垒,拉低AI for Science的应用门槛,产、学、研各界的科学家、企业们都开始踏上了AI for Science的范式革新+普惠之路。
在深度学习框架领域,国外如TensorFlow、PyTorch、MXNet等AI框架,自诞生以来就一直在帮助众多科学家和工程师进行学术研究及工程实现,大大促进了AI领域的发展。作为国内AI领域的先行者,百度也凭借百度飞桨(PaddlePaddle)从2016年打响国产AI框架开源第一枪,并一路朝着全面AI技术布局演进。如今,飞桨平台已能够对各类硬件实现广泛适配,并能直接部署到大规模的科学计算集群,与已有的科学计算生态紧密融合,强力支撑AI for Science方案的部署与应用。
同样在2016年,向辉也开始在百度接触AI行业,随后亲身经历了AI在计算机视觉、自然语言处理、推荐等领域的技术应用与快速更迭,如今她已成为百度飞桨AI for Science产品负责人。
向辉在接受36氪专访时谈到,面对AI for Science的落地挑战,百度飞桨认为核心要解决的是构建一个通用化的深度学习平台,能够衔接下游的各种异构算力,提供支持科学计算问题求解的API,以及编译加速机制等,以更好支撑典型的科学计算场景建设和分析,如支持气象预测、流体仿真、材料发现等领域问题。“同时也要建设可持续的、融合科研、科学计算、平台以及终端用户的开放生态。”她说。
为让不同领域的科学工作者都可以灵活地使用当下热门的科研模型,早在2019年,百度飞桨就已开始尝试在AI for Science领域进行技术形态、产品路线等规划,并在2020年初至2021年底相继发布了生物计算平台“螺旋桨PaddleHelix”、量子计算平台“量桨PaddleQuantum”,以及面向流体、固体、电磁等领域的科学计算平台“赛桨PaddleScience”。
此外,百度飞桨还提供了PINN、FNO、DeepONet等主流模型,以及用户可直接复用的标准案例,如CFD中障碍物绕流、涡激振动、达西流等。
百度飞桨还支持基于组件进行定制化的问题复现与分析,支持数据驱动以及与物理机理相结合的多种方法,分别在物理仿真、化合物分子表征、量子纠缠处理等场景有了突破性的进展。
其中,为了更好地服务广大科学计算用户对各类PDE方程的求解需求,百度飞桨也在积极实现与优秀科学计算Repo-DeepXDE的全量模型支撑,目前已初步完成所有模型的精度对齐工作,并在百度飞桨最新的高阶自动微分机制、自动化的分布式策略以及编译加速机制等加持下,部分用例的求解效率已领先同类产品。
为进一步推动AI for Science的落地进程,百度飞桨还与多家高校、科研机构等开展了流体、材料、生物等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区。今年5月还推出了“飞桨AI for Science共创计划”,希望通过与各方一道进行技术联合开发、推广资源共享,共建生态商机。
回想这些社区的发展经历,向辉对不少学生团队的项目记忆犹新。她回忆,其中北航有一个学生团队开展了一个真空羽流模拟实验,实验本身需要在真空条件下,无法在地面上复现,但通过飞桨AI for Science的产品,团队繁衍出了玻尔兹曼方程的一些系数,最终达到了令人惊艳的效果。“这些案例都已证明,在某些场景中,百度飞桨的AI for Science能够一定程度地解决开发者们的科研问题。”向辉说。
一路发展至今,百度飞桨AI for Science工具集已能支持AI方法与基础学科方法交叉融合,最大的特点在于能突破基础学科中“基于数值计算求解控制方程”面临的维数高、时间长、跨尺度、算力不足等挑战,将数值差分等效为“基于数据、物理机理驱动的神经网络模型实现”。
开辟AI for Science赛道,对百度飞桨来说无疑是AI能力的又一次挑战和跃升。在大幅加速科学问题求解的同时,它也将为行业在探索更多未知科学问题的路上深踩油门。
平台之下,底层算力赋能软硬协同发展
正如前文所说,AI for Science的科学问题加速求解和产业落地,不仅需要框架或软件平台层面的支持,亦需要基础设施提供强大算力和软件优化能力。
面向科学计算领域,有大量芯片厂商在围绕如何提高AI算力,加速AI应用落地做相应布局。而英特尔正是这一赛道中颇具代表性的领军企业之一,其一直以来都在致力于“让AI无处不在”。
在英特尔人工智能架构师杨威与36氪的访谈中,他从一家芯片企业的角度出发,针对AI for Science这一领域给我们带来了不一样的视角和观点。
杨威认为,AI for Science普及的主要难点卡在如何降低AI硬件的成本,以及要有易于上手的AI软件优化工具。
他强调:英特尔从第二代至强可扩展处理器开始,实现了CPU内置的AI加速。通过AVX-512和DL Boost等AI加速技术,让“用CPU跑AI”成为了可能。此举的意义,在于能够充分激活和利用部署更广泛且成本优势更明显的CPU的算力,在输出绝大多数应用所需的通用算力的同时,还能通过对AI推理的加速推进AI应用的落地。同时英特尔还向公众开源,即免费提供各种AI软件优化工具,包括oneAPI、OpenVINO等,这些软件的技术门槛与使用难度较低,且能帮助用户释放至强CPU的AI加速能力。
此外,考虑到AI for Science领域的模型或相似变体对内存的消耗非常敏感,且对大内存应用来说CPU平台的计算资源通常会更具优势,英特尔还有的放矢地的进一步强化了这方面的能力——其与至强CPU搭档的英特尔傲腾持久内存,能提供远超主流DRAM的容量,更容易达成TB级内存配置并拥有接近DRAM的性能。也就是说,它能够在尽可能降低科学计算模型在整个链路上时延的同时,突破限制AI for Science应用的内存容量瓶颈。
虽然在现阶段,英特尔针对AI for Science等AI应用的核心硬件布局是以CPU为主,加速的应用类型也是以推理为主,但这只是其在XPU时代扩展AI产品组合的第一步。在英特尔的“XPU愿景”里,随着未来数据类型和应用类型的高速增长和裂变,其底层硬件架构也将从CPU拓展到CPU与GPU、FPGA和AISC加速器俱全的XPU架构。
基于这一策略,英特尔2023年不但会推出代号为Sapphire Rapids的第四代至强可扩展处理器,还会发布可与这款CPU搭配,专攻科学计算及AI加速的、代号为Ponte Vecchio的数据中心GPU产品,并由此形成在AI推理上以高性价比、易获取和使用的CPU为主,在AI训练上则以GPU为主的更完善布局。而且这种XPU组合还可借助oneAPI工具包实现对异构硬件的统一编程和管理,具有灵活调配、无缝协作和高效易用等特点。
依托上述产品组合已经或即将带来的强大算力支持,英特尔从硬件到软件多维度地为AI for Science提供了优化,力求让更多科研人员可以亲自参与到开发和定制当中,并实现科学智能的真正普及。在其持续的努力下,如今已有许多合作伙伴实现了产品落地。
例如在AI小分子药物设计领域,英特尔与剂泰生物合作,在小分子药物优化方面实现了高通量的分子生成,有望在更大的化学空间中探索更多潜在的候选分子。在大分子药物设计领域,英特尔则与百度飞桨、晶泰科技、上海交大等各大机构和高校进行了深入合作,基于AlphaFold 2实现了高通量和长序列蛋白结构预测推理的优化,并在AlphaFold 2中引入了TB级内存技术,总体达到了降本增效。
其中,英特尔与百度飞桨也早在2017年就开始了以软硬件协同优势为主的合作。随着双方在AI领域的持续布局,合作的广度和深度也在不断提升。例如,英特尔和百度飞桨致力于实现英特尔全栈软硬件和飞桨的相互支持,通过oneAPI实现深度适配与性能优化,并通过飞桨+OpenVINO等方式共建部署生态。
有意思的是,如今百度飞桨与英特尔在AI for Science领域达成合作,不仅与这些前序的合作有关,也与开发者生态有着千丝万缕的关系。
长期以来,百度飞桨都在积极发展开发者生态,如建设飞桨特殊兴趣小组(PPSIG),希望通过开放的社区形式与全球开发者共同构建一个开放、多元和架构包容的生态体系。而英特尔的一位专家正巧是PPSIG-科学计算Science小组最早期的成员,曾积极参与了PaddlePaddle科学计算开源社区建设,并且对分子动力学模拟在生物蛋白分子和能源材料的应用产生了浓厚兴趣。
在这个契机下,双方在AI for Science的合作也水到渠成。从2022年3月起,百度飞桨与英特尔结合各自实际,经过多次讨论交流,最终确定了任务方向与合作内容,共同开展AI for Science在分子动力学和生命科学领域的实质性工作,并取得了一系列成果,包括:百度飞桨实现了国内首个完成与传统分子动力学软件LAMMPS以及AI势函数训练软件DeepMD-kit融合工作的AI深度学习框架,并基于英特尔oneAPI实现了从训练到推理全流程打通的“0到1”式突破性进展;百度Helix Fold模型基于至强平台的AVX-512、oneDNN和大内存能力进行优化,不但实现了性能的显著提升,还可轻松预测推理长度超过4000,即超长序列的蛋白质结构。
结语:AI for Science的普惠之路,临界点已近
一个是在深度学习领域深耕多年,已成长为国内开源AI框架一哥的百度飞桨,一个是科学计算领域Top级玩家英特尔,双方正依托各自优势产品和对AI领域的持续布局,以灵活多样的“组合拳”不断拉低AI for Science的应用门槛,共同朝着“让AI无处不在,更加普惠千行百业”以及“让合作贯穿产、学、研,助AI for Science打通理论、实验和产业应用道路“的目标持续推进。
站在这个关键的时间节点,我们再次回溯AI发展的七十余年,或能更清晰地看到,它在每一个发展阶段的爆发,都在历史长河中砸出了创新的波纹,这些波纹终于在今天叠加成推动产业变革的巨浪。正如今天的AI for Science,就正在一浪又一浪地驱动着科研冲击范式革新的临界点,身处其中的每一个参与者,都在抑制不住地畅想这种冲击成功后将为人类未来开辟的可能性。
毕竟,这将是如核裂变链接反应或寒武纪生命大爆发一样的无穷种可能性。
来源:36氪