Nat. Rev. Chem. | 一份关于用机器学习研究化学问题的评估指导

今天为大家介绍的是来自Tiago Rodrigues团队的一篇论文。机器学习(ML)有望解决化学领域的重大挑战。尽管ML工作流程的适用性极广,但人们通常发现评估研究设计多种多样。目前评估技术和指标的异质性导致难以(或不可能)比较和评估新算法的相关性。最终,这可能延迟化学的大规模数字化,并使方法开发者、实验人员、审稿人和期刊编辑感到困惑。在这篇综述中,作者批判性地讨论了不同类型的基于ML的出版物的方法开发和评估指导原则。

9ac2401a9dbacd9e1476daeee2d9433b.png

科学发现加速的需求为机器学习(ML)的重新崛起敞开了大门。受算法、计算硬件、开源库、数据和存储容量的进步支持,ML工具现在能够识别几十年来专家直觉所遗漏的复杂模式。虽然ML工具没有被设想或期望作为专家直觉的完全替代品,但它们的性能至少与某些情况下的人类从业者相当。这种能力使得ML适合生产性使用,并且最重要的是,它们为科学和工程的一些重大挑战提供了可信的决策支持。化学科学也正在参与这场革命。理解ML的影响仍然很难。然而,它正在重塑药物发现、材料科学、纳米技术、环境科学等领域的基础和转化研究。进行ML研究时,必须考虑三个关键方面——数据、表示和算法——这些都需要详细报告和评估。所有这些组件都带有限制,表明该领域还需要进一步成熟。因此,不应该把ML算法当作灵丹妙药,并且有必要客观地评估这些计算工具。

数据集

在开发ML(机器学习)方法的大部分时间里,涉及到收集和整理相关信息以回答特定的研究问题。因此,与领域专家合作(或自己成为一个专家)来制定相关的研究问题是至关重要的。一个信息不足的社区可能不会意识到这一步骤的重要性和所需的时间,但他们可能容易意识到一个ML模型的价值只取决于其底层数据允许的程度。对于以前未见过的事件的准确预测以及合理研究假设的产生都依赖于先前的信息和数据模式。因此,作者强烈建议为这一数据准备阶段投入大量时间。相关的实验终点(例如,生物活性)通常不被直接建模,而是通过一个实验上更容易获取的实验代理来实现。这带来部分隐患,包括过度简化一个复杂的问题,以及选择的代理是否真正反映了实际的研究问题的假设。此外,在化学科学的实验和建模中,不确定性量化经常被忽视。不考虑实验误差可能导致其传播和不切实际的模型性能评估。随后导致ML的好处变得不清晰,尤其是当预测准确性相对于竞争模型只提高了几个百分点时。此外,数据范围(以及数据的分布)也是需要考虑的,特别是如果目标是创建一个回归模型。当数据高度聚集成簇,并且单个聚类具有不同的属性时,预测模型的性能可能看起来很高。然而,该模型只能区分现有的聚类,并且无法模拟所考虑的属性的内部聚集趋势。高比例的定性数据(例如,>10 μM或<0.1 μM)也很难包括在回归模型中。这些都是没有明确解决方案的突出问题,但重要的是要承认,根据手头的数据,可能会得到低分辨率和误导性的模型。

评价基准

97ed1f1d642b7eb86b20d91456fca2db.png

15a7e0db0c63bdc66d7e0c1006e9df7e.png
表 1

持续对开发基准测试和考虑不确定性问题的兴趣表明,这个领域的研究者正致力于寻找适当的解决方案,以考虑比较研究中的误差估计。例如,SAMPL盲测挑战和Kaggle竞赛等,提供了一种比较不同工具在与化学和/或药物开发相关的高质量数据上的准确性的可行方法。在过去的十年中,该领域已经开发了几个公开的基准数据集,用于评估机器学习方法的性能。作者鼓励使用这样的资源作为开发机器学习工具的催化剂,但要注意,即使是高质量的基准数据集也有其局限性,它们的使用可能不反映机器学习模型在现实世界中的性能(Table 1)。具体来说,基准测试不能详细描述机器学习模型的一般效用,因为有几个不可避免的隐患,如任务设计、范围、数据脱离上下文和社区误用等。这些重要的方面限制了使用基准测试进行绝对模型评估。例如,MOSES基准测试(https://github.com/molecularsets/moses)是为了评估生成模型如何与训练数据的分布相匹配。然而,微小的变化可以显著增加一组分子的多样性,同时仍与训练数据的分布相匹配。尽管有许多研究报告表明DUD-E数据集不适用机器学习,但仍有许多作者继续将其用作机器学习基准。作者不鼓励这种误用,因为DUD-E最初是为了评估分子对接方法的性能而开发的,而不是机器学习。

回顾性分析

fca14332f8e10a483487478c4f63edfb.png
图 1

79b59cce56b2d64292f0cab223bdc5d2.png
表 2

回顾性评估研究是易于获取、低成本的,并且应该成为标准实践。我们需要挑战预测性机器学习的潜在效用,这是在未参与模型构建的数据上进行的(外部测试数据)——但其输出是已知的(图1)。为此,可以根据可用的训练集以有意义的方式进行交叉验证。它们最终作为一个工具来估计通过性能指标(表2)的不确定性。为了更好地确定机器学习模型的应用领域,作者还建议报告训练集中模型化属性的分布。例如,训练集中分子的属性分布可能不同于未来遇到的分子的分布——这被称为数据偏移或应用领域问题。因此,回顾性研究可以作为评估机器学习模型性能的基线。在有监督学习中,训练数据经常被分为k个折叠以进行交叉验证。折叠的数量通常为5或10,每次都有一个折叠会被迭代地留出来,以找到合适的超参数。除此之外,时间分割方案已被报告为更现实地评估药物发现努力中的前瞻性预测性,因此当有时间戳数据可用时,可能更受欢迎。交叉验证仍然是模型未来应用的最合适的替代品。然而,它假定实验决策随时间保持不变,并忽略了模型在决策制定中的影响。虽然推荐对训练数据进行划分以构建模型,但外部或评估数据集,也对评估模型在未见数据上的效用很有用。在某些情况下,可能存在数据可用性约束,不允许为此目的留出大部分数据。作者建议计算一系列的指标,而不仅仅是一个用户偏好的指标,并作为一个整体仔细审查它们,考虑到它们的互补信息(表2)。

与其他工具对比

5281cec0ba1013421ce368fef51bfb20.png
图 2

新兴技术被目标受众广泛采纳,部分原因是它们具有稳健的性能,并且能展示出相对于更成熟的方法的竞争优势。因此,作者建议与社区普遍采用的、为相同目的而开发的既有工具进行比较。如果声称某方法在性能上优越,这应当通过统计手段支持,并对多次比较进行p值修正。另外,对于大样本量而言,即使效果很小,也可能统计显著,但这并不意味着在实践中它具有重要意义。因此,应始终将效果大小与统计显著性一起报告,因为统计显著性不总是意味着它在实际中有重要性。

在做生物实验时,我们通常会进行正面和负面的对照测试,以更准确地判断结果。机器学习(ML)领域可以采用类似的方法,来确认算法所捕捉到的数据模式是否真实有效。至少,作者建议与平均数值和过去的类别分布进行比较。重复控制计算可以帮助我们判断机器学习的方法是否有效。简而言之,当我们发现某种模式时,通过对照计算可以验证这个模式是否真实。如果在随机化对照测试中,机器学习模型的表现降低了,那说明这个模式可能是真实的,如图2a。但如果模型在随机测试中的表现过于优秀,那么这个模型在真实应用中可能不怎么样。例如,最近在预测化学反应的研究中,有些模型的预测结果与随机数或简单模型相同,这说明这些模型捕获的模式可能是由于实验设计的问题,而不是真实有效的。对照计算可以帮助我们确认哪些特征是真实有效的,哪些可能只是随机的或者假的。再例如,有些机器学习模型用于预测药物传递,但通过一种称为Y-shuffling的方法(图2b),人们发现某些特征可能并不真实有效。总的来说,我们需要确保模型在学习过程中使用的特征是真实有效的,否则模型的表现可能会受到影响。

简单的机器学习模型在某些情况下也能为化学问题提供有效的解决方案。为了确认简单和优化的机器学习基线的可行性,应该使用相同的训练数据来计算它们,从而在上下文中进行有意义的比较。最终,这些比较可以证明所实施的算法性能优于计算成本更低、可能更易于解释的方法。但并非总是这样。多元线性回归在不同的环境中具有很高的价值,而强制实施“正则化”(如lasso、弹性网、贝叶斯回归等)可以提供同样合理的简单统计模型。在其他情况下,基线需要更复杂才能提供有意义的基准。总的来说,建议进行并行比较和后续的统计分析。这些研究旨在强化任何给定方法在接近实际世界的情境中(例如新材料的发现)的实用性。

前瞻性评估

尽管回顾性评估为测试机器学习工作流的潜在效用提供了重要手段,但在前瞻的实际应用中观察到的性能往往低于预期。这些不尽如人意的表现可能是因为在模型适用性领域外部署了模型。例如,由于启发式方法或训练数据的限制,算法可能没有完全理解某些微妙的模式。前瞻性研究不是评估机器学习模型,而是评估整个过程,包括数据准备、特征化、超参数和实验选择流程。

随着机器学习工具努力加速新发现的步伐,作者主张应实施一套扩展性的建议,以吸引湿实验室的研究者参与这个数字化化学时代。作者认识到,在长时间的评估活动中吸引湿实验室研究者并不是一件易事。然而,如果机器学习的评估协议更好地协同,并管理与之相关的期望,机器学习可能会成为发现科学的更为核心的部分。机器人的自动化和人-机循环配置的可能性在这里都有重要的作用。这些自动化和人-机策略将促进高质量数据的获取,并实现一定程度的前瞻性部署和信任。但是,实验设计掌握在人的手中(即使只是“实验设计的设计”),所以专家的输入和合适的人-机交互仍然是关键。作者认为,前瞻性的例子必须是多样的,如涵盖不同的应用场景和搜索空间区域。它们还应该在保持当前的科学研究兴趣的同时,挑战和探索机器学习工具的不同方面。首先,前瞻性的例子应该精心设计,以提供对过程的有意义的评估,并得出结论关于在回顾性评估中可能被忽略,但在生产部署中仍然相关的能力和局限性。在药物发现的前瞻性评估通常需要多次复制,包括使用正交的检测技术。例如,单一浓度的初筛可能作为生物活性的粗略评估是合适的。然后必须使用不同的配体结合技术(例如,表面等离子共振、放射配体替代测定和饱和传递差异核磁共振)和功能性测定(例如,评估细胞活性)将其扩展到完整的剂量-反应曲线。

参考资料

Bender, A., Schneider, N., Segler, M. et al. Evaluation guidelines for machine learning tools in the chemical sciences. Nat Rev Chem 6, 428–442 (2022). 

https://doi.org/10.1038/s41570-022-00391-9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/208022.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java设计模式学习之【单例模式】

文章目录 引言单例模式简介定义与用途实现方式&#xff1a;饿汉式懒汉式 UML 使用场景优势与劣势单例模式在spring中的应用饿汉式实现懒汉式实现数据库连接示例代码地址 引言 单例模式是一种常用的设计模式&#xff0c;用于确保在一个程序中一个类只有一个实例&#xff0c;并且…

计算机组成学习-数据的表示和运算总结

1、进制与编码 1.1 进位计数法 常用的进位计数法有十进制、二进制、八进制、十六进制等。十六进制每个 数位可取0〜9、A、B、C、D、E、F中的任意一个&#xff0c;其中A、B、C、D、E、F分别表示 10〜15。 八进制数字通常以前缀 "0"&#xff08;零&#xff09;加上数…

Ubuntu 2204 安装libimobiledevice

libimobiledevice是一个开源的软件&#xff0c;它可以直接使用系统原生协议和IOS设备进行通信&#xff0c;类似iMazing&#xff0c;iTunes&#xff0c;libimobiledevice不依赖IOS的私有库&#xff0c;并且连接IOS设备时用的都是原生协议&#xff0c;IOS无需越狱就能实现设备信息…

同旺科技 USB TO SPI / I2C --- 调试W5500_读写网关地址

所需设备&#xff1a; 内附链接 1、USB转SPI_I2C适配器(专业版); 首先&#xff0c;连接W5500模块与同旺科技USB TO SPI / I2C适配器&#xff0c;如下图&#xff1a; 这里的网关地址设置为192.168.1.1 先将网关地址写入寄存器&#xff0c;然后再读取出来&#xff1a;

Echarts 设备状态 甘特图

在做工厂智能化生产看板时&#xff0c;绝对会有设备状态看板&#xff0c;展示设备当天或者当前状态&#xff0c;设备状态数据一般是有mes 系统设备管理模块对设备信息进行采集&#xff0c;一般包括过站数据&#xff0c;设备当前状态&#xff0c;是否在线是否故障、检修、待生产…

Linux CentOS7 联网配置 | 安装中文输入法

参考视频&#xff1a;保姆式教学虚拟机联网liunx(centos)_哔哩哔哩_bilibili 配置网络&#xff1a;解决上网问题 第一步&#xff1a;选择网络模式 第二步&#xff1a;配置网卡命令&#xff1a;打开终端执行命令&#xff1a; 1、先切换到根目录下&#xff0c;防止在第执行cd …

css如何设置文本添加下划线

css文本添加下划线 text-decoration: underline;text-decoration相关属性参数 参数描述none默认。定义标准的文本。underline定义文本下的一条线。overline定义文本上的一条线。line-through定义穿过文本下的一条线。blink定义闪烁的文本。inherit规定应该从父元素继承 text-…

blue beacon rssi 指纹室内定位数据集

数据集是开展实验的基础&#xff0c;搜集并分享。如果你有关于室内定位的问题&#xff0c;请联系博主。 namedatesetpapercommentBLEBeacon: A Real-Subject Trial Dataset from Mobile Bluetooth Low Energy Beaconshttps://github.com/dimisik/BLEBeacon-Datasethttps://arxi…

matlab基于线性二次调节器(LQR)法实现机器人路径规划可变轨迹跟踪

1、内容简介 略 可以交流、咨询、答疑 2、内容说明 基于线性二次调节器(LQR)法实现机器人路径规划可变轨迹跟踪 3、仿真分析 略 load path.mat %% 轨迹处理 % 定义参考轨迹 refPos_x path(:,1); refPos_y path(:,2); refPos [refPos_x, refPos_y];% 计算航向角和曲率 …

Elasticsearch:ES|QL 函数及操作符

如果你对 ES|QL 还不是很熟悉的话&#xff0c;请阅读之前的文章 “Elasticsearch&#xff1a;ES|QL 查询语言简介​​​​​​​”。ES|QL 提供了一整套用于处理数据的函数和运算符。 功能分为以下几类&#xff1a; 目录 ES|QL 聚合函数 AVG COUNT COUNT_DISTINCT 计数为近…

G1264 0.85 V 启动,12uA,同步 DC/DC 变换器

G1264 0.85 V 启动&#xff0c;12uA&#xff0c;同步 DC/DC 变换器 概述&#xff1a; G1264集成 PFM 模式同步升压变换器&#xff0c;只需要一个电感和两个电容。由于升压专有设计&#xff0c;它启动在非常低的输入电压下降到850毫伏&#xff0c;使其成为单电池碱性/镍氢电池操…

Flink Flink中的合流

一、Flink中的基本合流操作 在实际应用中&#xff0c;我们经常会遇到来源不同的多条流&#xff0c;需要将它们的数据进行联合处理。所以 Flink 中合流的操作会更加普遍&#xff0c;对应的 API 也更加丰富。 二、联合&#xff08;Union&#xff09; 最简单的合流操作&#xf…

深入Android S (12.0) 探索Framework之输入系统IMS的构成与启动

文章目录 前言一、输入系统的基本组成部分二、输入系统相关源码分析1、IMS 构建1.1、SystemServer # startOtherServices()1.2、InputManagerService1.3、NativeInputManager # nativeInit()1.4、NativeInputManager1.5、InputManager1.6、InputDispatcher1.7、InputReader1.8、…

io基础入门

压缩的封装 参考&#xff1a;https://blog.csdn.net/qq_29897369/article/details/120407125?utm_mediumdistribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0-120407125-blog-120163063.235v38pc_relevant_sort_base3&spm1001.2101.3001.…

6 新建工程——寄存器

文章目录 6.1 本地新建工程文件夹6.2 新建工程6.2.1 选择CPU型号6.2.2 在线添加库文件6.2.3 添加文件6.2.4 复制存储器分配文件6.2.5 配置选项卡6.2.5.1 Linker6.2.5.2 Target6.2.5.3 Output 选项卡6.2.5.4 Listing 选项卡6.2.6 下载器配置 版本说明&#xff1a;MDK5.24 6.1 本…

数据结构(三)——算法和算法分析

&#x1f600;前言 数据结构和算法是计算机科学领域中至关重要的概念。它们为解决实际问题提供了有效的方法和步骤。算法作为解决问题的方法和步骤&#xff0c;在计算机中以指令的有限序列的形式表达。本文将介绍算法的定义、描述和程序设计等方面的内容&#xff0c;帮助您深入…

【Redisson】基于自定义注解的Redisson分布式锁实现

前言 在项目中&#xff0c;经常需要使用Redisson分布式锁来保证并发操作的安全性。在未引入基于注解的分布式锁之前&#xff0c;我们需要手动编写获取锁、判断锁、释放锁的逻辑&#xff0c;导致代码重复且冗长。为了简化这一过程&#xff0c;我们引入了基于注解的分布式锁&…

目标检测——Faster R-CNN算法解读

论文&#xff1a;Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 作者&#xff1a;Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun 链接&#xff1a;https://arxiv.org/abs/1506.01497 代码&#xff1a;https://github.com/rbgirsh…

sqli-labs靶场详解(less17-less22)

目录 less-17 less-18 less-19 less-20 less-21 less-22 less-17 修改密码关卡 服务器后端 账号密码都存在数据库中 使用UPDATE进行修改密码 尝试username处 尝试好久尝试不出来应该是对用户名进行了过滤 于是对password进行注入 判断注入点 passwdadmin 报错&#xff1a…

CentOS 7 部署 MariaDB 的 2 种方法

有两种安装 MariaDB 服务器的方法。您可以安装 CentOS 7 存储库中可用的默认版本&#xff0c;也可以通过手动添加 MariaDB 存储库来安装最新版本。 如果安装过MariaDB或MySQL&#xff0c;使用以下命令彻底删除它们: yum remove mariadb* yum remove mysql* 方法一: 使用 Yum…