AI for Science:人工智能改变化学领域,机器学习范式加速化学物质发现

d03e7a3ae9d5bc589502c360ed617cbd.png

来源:机器之心
本文约4500字,建议阅读9分钟
本文介绍了人工智能在化学领域的发展。

随着人工智能技术兴起,在化学领域,传统的基于实验和物理模型的方式逐渐与基于数据的机器学习范式融合。越来越多的用于计算机处理数据表示被开发出来,并不断适应着以生成式为主的统计模型。

b85f25b835fb2cd5abc2d2576811ce7b.png

虽然工程、金融和商业从新算法中获益匪浅,但获益不仅仅来自算法。几十年来,大规模计算一直是物理科学工具包中不可或缺的一部分 —— 人工智能的一些最新进展已经开始改变科学发现的产生方式。

物理科学领域的杰出成就令人兴奋不已,例如使用机器学习渲染黑洞图像或 AlphaFold 对蛋白质折叠的贡献。本文将介绍人工智能在化学领域的一些更突出的用途,而化学是上述蛋白质折叠问题的母学科。

化学的主要目标之一是了解物质、它的性质以及它可以经历的变化。比如,当我们在寻找新的超导体、疫苗或任何其他具有我们想要特性的材料时,我们会求助于化学这一学科。

传统上,我们认为化学是在配有试管、烧瓶和燃气燃烧器的实验室中完成。但它也受益于计算和量子力学的发展,这两者都在 20 世纪中叶开始崭露头角。早期的应用包括使用计算机来帮助解决基于物理的公式计算;或者是通过将理论化学与计算机编程相结合,我们能够模拟(尽管远非完美)化学系统。最终,这项工作发展成为现在称为计算化学(computational chemistry)的子领域。该子领域在 1970 年代开始兴起发展,并在 1998 年和 2013 年有人凭借该领域获得诺贝尔奖。

即便如此,尽管计算化学在过去几十年中获得了越来越多的认可,但其重要性远没有在实验室所做的实验重要,而实验才是化学发现的基石。

然而,随着当前人工智能、以数据为中心的技术和不断增长的数据量的进步,我们可能正在目睹一种变化,计算方法不仅用于协助实验室实验,还用于指导实验。

化学物质发现过程

那么人工智能是如何实现这种转变的呢?一个特别的发展是将机器学习应用于材料发现和分子设计,这是化学中的两个核心问题。

在传统方法中,分子的设计大致分为四个阶段,如下图所示。需要注意的是,每个阶段都可能需要数年时间和许多资源,并且不能保证成功。

0791d1c5bc36cb0d66cae8a58df2dc8c.png

化学物质发现阶段:发现(discovery)、合成、分离与测试(synthesis, isolation and testing)、验证(validation)以及批准与市场营销(approval and marketing)。

发现阶段依赖于几个世纪以来发展起来的用来指导分子设计的理论框架。然而,在寻找「有用」的材料(例如凡士林、铁氟龙、青霉素)时,我们必须记住,其中许多来自自然界中常见的化合物。此外,这些化合物的效用往往是事后才发现的。与此相反,有针对性的搜索是一项需要更多时间和资源的工作(即使那样,人们也可能不得不使用已知的「有用」化合物作为起点)。为了给读者一些概念,据估计,药理活性化学空间(即分子的数量)为 1060!即使在测试和扩展阶段之前,在这样的空间中手动搜索也会花费大量时间和资源。

那么人工智能是如何进入这一切并加速化学(物质)发现的呢?

首先,机器学习改进了现有的模拟化学环境的方法。我们已经提到计算化学允许我们部分绕过实验室实验。然而,模拟量子力学过程的计算化学的计算在计算成本和化学模拟的准确性方面都很差。计算化学的核心问题是求解复杂分子的电子薛定谔方程 —— 也就是说,给定原子核集合的位置和电子总数,计算感兴趣的性质。只有单电子系统才有可能得到精确的解决方案,而对于其他系统,我们必须依赖「足够好」的近似值。此外,许多用于近似薛定谔方程的流行方法以指数方式扩展,使得蛮力解决方案难以解决。在上个世纪,人们开发了许多方法来加速计算而不牺牲太多的准确性。然而,即使是一些「更便宜」的方法也可能导致计算瓶颈。

人工智能加速这些计算的一种方法是将它们与机器学习相结合。另一种方法通过直接将分子表证映射到所需属性来完全绕过物理过程的建模。这两种方法都允许化学家更有效地检查化学数据库的各种属性,例如原子电荷、电离能等。

生成式化学的兴起

虽然更快的计算是一种改进,但它并没有解决我们仍然局限于已知化合物的事实 —— 这只是活性化学空间的一小部分。我们仍然必须手动指定想要分析的分子。我们如何扭转这种范式并设计一种算法来搜索化学空间并为我们找到合适的候选物质呢?答案可能在于将生成模型应用于分子发现问题。

但在我们开始之前,有必要谈谈如何以数字方式表示化学结构(以及哪些可以用于生成式建模)。在过去的几十年中已经开发了许多种表示,其中大部分属于以下四个类别之一,分别是字符串(string)、文本文件(text )、阵列(array)和图(graph)。

c4be937b09369463144cfb08c7ccb6cf.png

异戊烷的表示

当然,化学结构可以表示为阵列。最初,分子的阵列表示用于辅助化学数据库的搜索;然而 2000 年代初期引入了一种称为扩展连接指纹 (Extended connectivity fingerprint, ECFP) 的新型阵列表示。ECFP 被专门设计用于捕获与分子活动相关的特征, 它通常被认为在尝试预测分子特性方面的第一批表征之一。

化学结构信息也可以转储到文本文件中 —— 这是量子化学计算的常见输出。这些文本文件可以包含非常丰富的信息,但是,它们作为机器学习模型的输入通常不是很有用。另一方面,字符串表示在其语法中编码了很多信息。这使得它们特别适合生成建模,很像文本生成。

最后,基于图的表示更加自然,它不仅允许我们在节点嵌入中编码特定于原子的属性,而且还可以捕获边缘嵌入中的化学键。此外,当与消息传递相结合时,图表征允许我们解释(和配置)来自其邻居的节点对节点的影响,这反映了化学结构中原子如何相互影响。这些属性使基于图的表示成为深度学习模型的首选输入表示类型。

上面的表示类型可以有自己的子类型;遗憾的是,对于任何特定问题,哪种表示最有效也没有定论。例如,数组表示通常是属性预测的首选,但图表示在过去几年中也成为了强有力的竞争者。同样需要注意的是,我们可以根据问题将多种类型的表示结合使用。

那么如何(以及哪些)表示可以用于探索化学空间?我们已经提到字符串表示适用于生成建模。图表示起初不太容易使用生成模型建模,但最近由于和变分自动编码器 (VAE) 的结合使它而成为强有力的竞争者;VAE 已被证明特别有用,因为它使我们能够拥有连续的、机器可读性更高的表示。一项研究使用 VAE 表明字符串和图表示都可以编码和解码到隐空间中,在该空间中,分子不再是离散的,而是可以解码回离散分子表示的实值连续向量(该向量可能有效也可能无效); 不同向量之间的欧几里得距离将对应于化学相似性。在编码器和解码器之间添加了另一个模型,去预测隐空间中任何点的目标属性。

10bdc74cfb581c01e0fb2309106c774e.png

连续隐空间中基于梯度的优化。训练后的模型 f (z) 相对于隐变量 z 进行了优化,从而可以找到一个新的 z,使新的隐向量表示具有更高的属性分数

但是,虽然生成分子本身是一项简单的任务 —— 人们可以采用任何生成模型并将其应用于他们想要的表示 —— 生成化学上有效并表现出我们想要的特性的结构是一个更具挑战性的问题。

实现这一目标的最初方法涉及在现有数据集上预训练模型,然后将其用于迁移学习。通过校准数据集对模型进行调整以允许生成偏向特定属性的结构,之后可以使用不同的算法(例如强化学习)进一步校准。这方面的几个例子涉及使用字符串或图表示;然而在化学有效性方面遇到了困难,或者不能成功获得想要的属性。此外,依赖预训练数据集会限制搜索空间并引入可能不需要的偏差。

摆脱预训练的一种尝试是使用马尔可夫决策过程 (MDP) 来确保化学结构的有效性,并通过深度 Q 学习(Q-learning)来优化 MDP 以获得所需的属性。该模型的一个特别优点是它允许用户可视化不同行为的好感度。下图显示了这个想法在实践中是如何实现的;模型认为有利的增量步骤是从起始结构开始的,以最大化特定属性。

48229970d31a0c6a9bdddfd2f08dce08.png

(a) 可视化某些行为的偏爱程度(1 是最偏爱,0 是最不偏爱),虚线表示去除键,实线表示第一步中键的添加。(b) 为使起始分子的药物相似性定量估计 (QED) 最大化而采取的步骤,其步骤以黄色显示

尽管还处于起步阶段,但使用人工智能探索化学空间已经显示出巨大的前景。它为我们提供了探索化学空间的新范式,以及一种新的检验理论和假设的方法。虽然经验主义不像实验研究那样准确,但使在可预见的未来,基于计算的方法仍将是一个活跃的研究领域,并且已经成为任何研究团队的一部分。

其它使用案例以及面临的挑战

到目前为止,我们已经讨论了 AI 如何通过利用生成算法来搜索化学空间,从而帮助更快地发现新化学物质。虽然这是最值得注意的用例之一,但并不仅限于此。人工智能正被应用于化学中的许多其他问题,其中包括:

  • 实验室中的自动化工作。我们可以使用机器学习技术来加速合成工作流程。一种方法使用 “自动驾驶实验室” 来自动化日常任务、优化资源支出并节省时间。一个相对较新的,但值得注意的案例是使用机器人平台 Ada 来自动化薄膜材料的合成、处理和特征化(请参阅此处的平台)。另一项研究展示了使用移动机器人化学家能够操作仪器,并在八天内对 688 次实验进行测量;

  • 化学反应预测。我们可以使用分类模型来预测将发生的反应类型,或者简化问题并预测某个化学反应是否会发生。这个问题有很多不同的建模方法;

  • 化学数据挖掘。像许多其他学科一样,化学有大量可用于研究趋势和相关性的科学文献。一个值得注意的例子是对人类基因组计划提供的大量信息进行数据挖掘,以识别基因组数据的趋势。

最后,虽然新的基于数据驱动的趋势正在迅速发展并已经产生很大的影响,但它也给我们带来了许多新挑战,包括:

  • 计算和实验之间的差距。虽然计算方法的目标是帮助实现实验的目标,但前者的结果并不总是可以迁移到后者。例如,在使用机器学习寻找候选分子时,我们必须牢记分子在其合成途径中很少是独一无二的,而且通常很难知道未经探索的化学反应是否会在实践中起作用。即便可以起作用,目标化合物的收率、纯度和分离也存在问题。计算工作和实验工作之间的差距甚至会变得更大,因为计算方法所采用的指标并不总是可以转移到后者(上面提到的 QED 只是众多例子中的一个)上,而且实验验证可能不可行;

  • 需要更好的数据库和缺乏基准。由于整个化学空间是无限的,所以我们最希望有足够大的样本量来帮助我们进行之后的泛化。然而,目前大多数数据库都是为不同目的而设计的,它们通常使用不同的文件格式;其中一些缺乏提交的验证程序,或者它们在设计时没有考虑到人工智能的任务。此外,我们拥有的大多数数据库的化学数据范围有限 —— 它们只包含某些类型的分子。最后,大多数涉及使用人工智能进行化学预测的任务都缺乏一个基准平台,这使得许多不同研究的比较变得不可行。AlphaFold 成功的主要原因之一是它提供了上述所有内容作为蛋白质结构预测 (CASP) 竞赛的关键评估的一部分,这表明需要有组织的努力来简化和改进涉及化学预测的其他任务。

总结

随着我们继续进入数字时代,新算法和更强大的硬件将继续揭开以前难以解决的问题背后的面纱。人工智能与化学发现的整合仍处于起步阶段 —— 但听到 “数据驱动的发现” 这个词已经很平常了。许多公司 —— 无论是制药巨头还是年轻的初创公司 —— 已经采用了上述许多技术,并为化学带来了更高的自动化、效率和可重复性。人工智能使我们能够以前所未有的规模开展科学,在过去几年中,这产生了许多举措并吸引了资金,这些资金将继续引领我们进一步进入自主科学发现的时代。

编辑:王菁

校对:林亦霖

d3954e90b4b56dd7f6303bdf13f32767.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67859.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Replika:AI智能聊天机器人

【产品介绍】 Replika,这个名字可能有点拗口,但如果你知道这是复制品Replica的同音变体,你即刻能明白这个产品的定位了。官方Luka公司定义它是你的AI朋友,默默学习你,最终成为你的复制品。它不像现在市面上各大厂的AI助…

给女朋友做个聊天机器人,这样就能安心写代码了

这是第 404 次女友因为我没有及时回微信而和我生气了 惹祸的是我,受伤的确是钱包…… 但是,我并不后悔 那一局王者荣耀,因为没有回微信,我完成了五杀 carry 全场 那一局刺激战场,因为没有回微信,我绝地…

大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?...

来源:机器之心报道 编辑:张倩、蛋酱 数学将成为第一门借助AI实现重大突破的学科? 去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议…

对话三维家创始人蔡志森:AIGC让家装从“填空题”变成了“选择题”

(图片来源:Pixels) 三维家讲透了一个道理:数字化企业如何利用已有优势构建AGI能力。 数科星球原创 作者丨苑晶 编辑丨大兔 AIGC火热半年有余,人们已对ChatGPT不再陌生。 从互联网巨头再到上一代AI企业,…

人工智能图片素材高清,机器人图片卡通 素材

1、做一个人工智能的ppt需要哪些素材 不能理解你的问题。ppt仅仅是一个做幻灯的软件,可以插入图片、动画、音乐、过场等幻灯的功能,还谈不上有人工智能的能力。人工智能需要有更为强大的类似人脑思维的能力,简单的说人工智能是可以思考的机器…

一键生成文章的软件有哪些?将这几个不错的软件分享给你

大家平时遇到文章不会写,或者在写文章的时候断了思路不知该如何进行的时候,怎么办呢?其实大家可以使用一些能够自动生成文章的软件。那么输入文章标题自动生成文章的软件有哪些,你们知道吗?下面我就来为大家推荐这几款…

论文ai生成-一键生成论文的软件

ChatGPT自动写论文 ChatGPT可以使用生成的文本来帮助撰写学术论文,其中包括文章的大纲、段落和句子。但是,它并不会像一个完全替代人的写作工具一样让你“自动”写作。 虽然ChatGPT可以生成相当准确的语言,但它并不完美,它并不能…

一键生成mybatis

一键生成mybatis工具 1.mybatis-generator 步骤: 步骤1&#xff1a;修改pom.xml&#xff0c;添加mybatis-generator-maven-plugin插件 <!-- mybatis代码生成插件 --><plugin><groupId>org.mybatis.generator</groupId><artifactId>mybatis-ge…

学习实践-Alpaca-Lora (羊驼-Lora)(部署+运行+微调-训练自己的数据集)

Alpaca-Lora模型GitHub代码地址 1、Alpaca-Lora内容简单介绍 三月中旬&#xff0c;斯坦福发布的 Alpaca &#xff08;指令跟随语言模型&#xff09;火了。其被认为是 ChatGPT 轻量级的开源版本&#xff0c;其训练数据集来源于text-davinci-003&#xff0c;并由 Meta 的 LLaMA …

aiXcoder私有化部署与大模型个性化训练:如何将AIGC应用到您的企业中?

现代企业的成功转型离不开创新&#xff0c;而创新离不开人工智能等前沿技术的推动。随着全球经济的发展和竞争的日益激烈&#xff0c;企业需要更快、更高效地交付新产品、服务和解决方案&#xff0c;以更好地满足客户需求并保持市场竞争力&#xff0c;应用研发效率提升企业竞争…

【AI人工智能】 最强大的语言模型镜像 使用起来真的太方便了! 真的要解放代码思维了吗?

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享博主 &#x1f40b; 希望大家多多支持一下, 我们一起进步&#xff01;&#x1f604; &#x1f3c5; 如果文章对你有帮助的话&#xff0c;欢迎评论 &#x1f4ac;点赞&#x1…

Segment Anything Meta开源分割一切模型,为进军元宇宙更近一步

上期图文教程,我们分享了Segment Anything分割一切模型的原理,Segment Anything Model 是一种以最少的人工干预构建全自动可提示图像分割模型的方法。模型提供了一键分割图片的方法,当然模型也可以运行我们输入一个坐标点,一个输入框,或者输入一个对象的文本来分割输入的对…

ubuntu(虚拟机)解决git速度慢的问题

在家用的是电信网&#xff0c;每次git大型项目总是失败&#xff0c;甚是苦恼&#xff0c;解决了好几次都失败了&#xff0c;终忍受不了&#xff0c;下定决心干掉它。 git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。 只要找到这个域名对应的ip地址&#xf…

两行配置解决github官网访问速度慢的问题(速度贼快!)

文章目录 前言一、配置步骤1.1 CMD查看网络连通情况1.2 获取Github相关网站的ip 二、配置本机host地址三、Github官网总结 前言 小伙伴们会不会因为github官网速度慢而烦恼呢&#xff0c;想上班去摸鱼都不方便&#xff0c;下面小编带你快速解决github访问速度慢的问题。 一、配…

GitHub访问速度慢

github 是全世界最流行的开源项目托管平台,其代表的开源文化从根本上改变了软件开发的方式.基本上所有的需求都能从 github 上或多或少找到现成的实现方案,再也不用重头开始造轮子而是自定义轮子! 然而,有时候国内访问 https://github.com/ 速度太慢,如何加速访问 github.com …

机器人开发--Cartographer详细介绍

机器人开发--Cartographer详细介绍 1 介绍1.1 概述1.2 评价1.3 特点 2 框架官方 3 代码结构heimazaifei 解读linyicheng 解读Xiaotu 解读cartographer_ros地图构建器map_builderLocal SLAMGlobal SLAM 赵锴 解读地图设计匹配方法一阶段解算二阶段解算后端如何检测回环检测回环后…

《恒盛策略》人工智能概念回落,青木股份等跌超10%

近来强势的人工智能概念28日盘中回落走低&#xff0c;截至发稿&#xff0c;青木股份跌超13%&#xff0c;光云科技跌超12%&#xff0c;彩讯股份、宝兰德跌超10%&#xff0c;财富趋势、昆仑万维、当虹科技跌约9%&#xff0c;同花顺跌超8%&#xff0c;寒武纪跌逾7%。 消息面上&…

变强速度超出预期,安全问题逐渐变大,多国停用ChatGPT

前段时间&#xff0c;小编向大家介绍过&#xff0c;随着最近GPT-4语言模型的正式投入使用&#xff0c;ChatGPT也带来了全新的插件——网络浏览器和代码解释器&#xff0c;赋予ChatGPT使用工具、联网、运行计算的能力。 更新后&#xff0c;跟据全球媒体的反馈来看&#xff0c;GP…

10大免费的白嫖网站

作者&#xff1a;pk哥 来源&#xff1a;Python知识圈 本次给大家分享下常用的 10个白嫖网站。 万能命令 https://wanneng.run/cn/在你浏览任意网页时&#xff0c;在网址前面输入这个万能命令 wn.run/ 就会展示出用于该网页的各种附加在线工具&#xff0c;方便快捷&#xff0c;一…

白嫖各种在线工具~~总有一款适合你

小伙伴们&#xff0c;好久不见 絮叨在线网站1.脚本之家&#xff08;在线脚本&#xff09;2.ProcessOn&#xff08;在线绘图神器&#xff09;3.MaTools&#xff08;在线工具&#xff09;4.独特工具箱&#xff08;代码图片神器&#xff09;5.Trello&#xff08;在线任务管理工具&…