干货!小样本分子性质预测新方法——性质感知的关系网络

点击蓝字

196b593adc8e0e39a0891dc34950cc4d.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

44655ff07518800a0c2c0570a3bd0119.gif

分子性质预测能够识别具有目标性质的候选分子,在药物发现中发挥着重要作用。由于新药发现研究中已知药理性质的分子(有标签样本)少,分子性质预测本质上是一个小样本问题,很难使用常规的机器学习方法解决。

在已有的小样本的分子性质预测研究中,现有工作常直接使用小样本学习的经典方法,但是忽视了分子性质预测问题的特性,即在不同性质预测任务中起作用的子结构和分子间关系均是不同的。在这篇工作中,我们提出了新的小样本分子性质预测模型--性质感知的关系网络(PAR)。

我们首先引入一个性质感知的表示学习函数,将通用分子表征转换到与目标性质相关的子结构空间。然后,我们设计了一个性质自适应的关系图学习模块来联合估计分子之间的关系图并改进分子表征,使得标签信息可以在相似的分子之间有效地传播。

我们采用元学习策略,在任务中选择性地更新参数,以便对通用知识和目标性质专有知识进行分别建模。在基准分子性质预测数据集进行的大量实验表明,PAR始终优于现有方法,并且可以获得性质感知的分子表征并正确建模分子关系图。

本期AI TIME PhD直播间,我们邀请到百度研究院商业智能实验室资深研究员——王雅晴,为我们带来报告分享《小样本分子性质预测新方法——性质感知的关系网络》。

318c5416c684dc52e0121929afaf3f9d.png

王雅晴:

百度研究院商业智能实验室资深研究员。于2019年博士毕业于香港科技大学计算机科学及工程学系,师从倪明选教授和郭天佑教授。研究机器学习并聚焦小样本学习的理论研究和产业实践,现有多篇成果发表在ICML、NeurIPS、WWW、SIGIR、EMNLP、JMLR、TIP等顶级会议及期刊。发表在ACM Computing Surveys的小样本学习综述为ESI认证的2021年热点和高被引论文。

Molecular Property Prediction分子性质预测

如下图所示,在药物研发流程中,最终只有很少量的分子能在湿实验中获得属性标签。这使得分子性质预测任务本质上是一个小样本学习任务。

d3debcea2fb7eb61a034ab6c70714a99.png

Problem Formulation

我们将这个问题建模成如何从一大堆的分子性质预测任务中学习一个预测器。这个预测器仅需要提供少量的带标签分子,就能够泛化到当前的目标性质上。

具体而言,每一个任务就被建模成了一个2-way分类任务:在每一个任务之中,我们考虑的都是一个分子是否在每个特定性质上是否被激活这样一个二分类问题,即2-way。

如经典小样本学习的设定一样,在这个任务中会有一个训练集support set,里面包含的是有标签的数据。每一个类会有K个带标签分子,即一个任务提供2K个带标签分子作为监督信号。此外,还存与一个测试集query set用来评估模型效果。

Existing Works

aa7c1272dcdc7919f68d3e4408c01bcb.png

已有的分子性质预测方法大多遵循一个固定的框架:把分子看成图,原子为图中的点,化学键为边,将分子送入图神经网络(GNN)之后即可得到分子表征(图表征);之后再通过经典小样本学习方法得到分子性质预测的结果。

IterRefLSTM [Altae-Tran et al., ACS Central Science, 2017]基于Matching Networks [Vinyals et al., NeurIPS, 2016], 而Meta-MGNN [Guo et al., TheWebConf, 2021]则改进了MAML [Finn et al., ICML, 2017]。

Motivation

但是,现有工作均忽略了分子性质预测任务中两个非常重要的点。

69cfd5c8c148e41c5bf6cb5539d616e7.png

第一点是,不同的分子性质其实是由于他们不同的子结构所决定的,这也是很多生化研究人员发现的。

第二点是,如果你考虑不同的性质,分子之间的关系是会发生变化的。比如说,当你考虑性质SR-HSE的时候,分子1和分子4因为有相同的label而比较接近。

而当我们在考虑性质SR-MMP的时候,我们会发现分子1和分子2又接近了。他们的关系其实是和当前我们要考虑的性质是密切相关的。所以,我们提出了Property-Aware Relation networks (PAR)。

PAR Framework

c32458050dc72e7dfcc6b119dda6f190.png

我们首先给出PAR的整体框架图。PAR有两个重要组成部分:Property-aware Molecular Embedding和relation graph learning。接下来,我们分别介绍这两部分。

Property-aware Molecular Embedding

由于不同的分子性质是由不同的分子子结构决定的,我们设计了这个模块来捕捉这个信息。下图以2-way 2-shot任务为例。

626d9e009a77464969988a7888e601b9.png

针对每个query set里的样本,我们需要预测出它在这个性质是active还是inactive。得到分子之后,我们通过GNN得到其表征,这个GNN可以是预训练得到的。我么的目标是使得通用的分子表征能够转用到跟当前性质相关的空间上。

首先,我们把两个active类的分子表征求一个平均,inactive的类也取一个平均,从而得到两个类的类代表。

在此之后,每一个得到的分子表征和两个类代表通过自注意力机制获得新的分子表征,这样新的分子表征就得到了需要预测的性质的信息。

Relation Graph Learning

在关系图学习的部分,我们采用了动态图学习的策略,旨在利用动态图学习的GNN网络更好地学习分子间关系以及分子表征。

这涉及到迭代的(1)估计分子关系图和(2)更新分子表征。特别的,我们对学到的分子关系图做了个稀疏的操作,比如说我们要求每个分子只能有K个邻居,从而避免选错邻居带来的错误监督信号。

82334277538027434ccb3a726e1aa25d.png

Training and Inference

我们采用了元学习的方式。将模型中的参数分成泛用的参数以及特定性质相关的参数两类:

8faf054aa45c18f7a9b081bff765abad.png

我们先从大量训练任务中学习一个较好的参数初始值:

82d15050435bbb79d54ecf65e20969ee.png

随后,在每个任务内部,我们会把θ固定住,而只是去泛化Φ:

d374ea1d8083ebd3b663679e3247c452.png

通过在训练过程中采用这种部分更新的策略,我们分别获取跨不同任务共享的知识和属性,可以更好的把通用的知识和当前性质有关的知识更好的区分开来,从而提升模型的训练效果。

Setup

实验部分,我们考虑了两组baseline,并使用了4个经典的分子预测数据集。

  • 两组baseline:

  • Methods with graph- based encoder learned from scratch including Siamese [Koch et al., 2015], ProtoNet [Snell et al., 2017], MAML [Finn et al., 2017], TPN [Liu et al., 2018], and EGNN [Kim et al., 2019], IterRefLSTM [Altae-Tran et al., 2017];

  • Methods which leverage pretrained graph-based molecular encoder including Pre-GNN [Hu et al., 2019], Meta-MGNN [Guo et al., 2021], and Pre-PAR which is our PAR equipped with Pre-GNN.

  • 四个数据集:

f9487682d6df6f4057b05fb01de9a88a.png

Performance Comparison

实验结果展示,在没有使用预训练GNN时,PAR的表现是最好的。如果使用预训练的GNN,Pre-PAR(带预训练GNN的PAR)达到的效果是最好的。

Ablation Study

我们比较了PAR和Pre-PAR在一些指标上的区别。可以看到,模型的每项设计对最终的预训练结果都是有增益的。

ed6375a6f072b2efce17e3b806245445.png

Varying Molecular Encoders

此外,我们还测试了不同GNN抽取分子表征的影响。在本文用到的四个数据集上,GIN的效果是最好的。

• GIN [Xu et al., 2018] (used)

• GCN [Duvenaud et al., 2015]

• GraphSAGE [Hamilton et al., 2017]

• GAT [Veliˇckovi´c et al., 2017]

114f5d28818d7ae5c6d4e7b27200f416.png

Case Study on 10 Molecules

特别的,为了验证PAR是否可以给出对分子性质敏感(property-aware)的分子表征,我们选取了固定的10个分子,考察它们的3种性质。

我们的目标是想看一下虽然这10个分子是一模一样的,但是在考虑不同性质的时候是否能真的学到不同的分子关系图呢?以及他们的分子表征是否能真的不一样呢?

2ff8de2867ff3dd55c74bbb3880a2b69.png

论文题目:

Property-Aware Relation Networks for Few-Shot Molecular Property Prediction

论文链接:

https://papers.nips.cc/paper/2021/hash/91bc333f6967019ac47b49ca0f2fa757-Abstract.html

点击“阅读原文”,即可观看本场回放

整理:林   则

作者:王雅晴

往期精彩文章推荐

107eee92a628c3c9eaffadb170e38b93.png

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超170万人次观看。

db5db9e07ee2bbec0ab7372bdd51ac16.png

我知道你

在看

~

3920b480d0b8e2ff4b44e2dd0368749d.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54831.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java实验:使用适当的I/O流类,将电商平台中书籍信息和用户信息分别用文件进行存储

文章目录 前言 一、实验内容 二、实验思路 三、实验代码 四、实验结果截图 总结 前言 好像很久没写点东西了( 感觉io流还是有点麻烦的,不过似乎有一套固定的操作,顺着操作下来也八九不离十了 一、实验内容 (1)…

名帖316 沈尹默 行书《澹静庐诗剩》及《景宁杂诗》

《中国书法名帖目录》 沈尹默,原名君默,祖籍浙江湖州人,1883年生于陕西兴安府汉阴厅(今陕西安康市汉阴县城关镇民主街)早年留学日本,后任北京大学教授和校长、辅仁大学教授。1949年后历任中央文史馆副馆长,上海市人民…

如何使用OpenAI的whisper

文章目录 一、安装ffmpeg二、安装torch等相关组件三、安装Whisper四、下载模型五、测试效果六、cpu与gpu解码的耗时对比参考文献 一、安装ffmpeg yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpm yum install ff…

全覆盖路径规划——ccpp

在路径规划方法中,有一种是点到点的路径规划,这一类例如dijstra,或者A*这类算法,关注的是点到点的最短路径,偏向一种最优的选择。还有一种是全覆盖是路径规划,这一类路径规划关注的是遍历整个地图&#xff…

2021高考仙桃中学成绩查询,仙桃2020高考最高分出炉!汇总仙桃各大中学喜报

高考结束, 已经放榜, 不论结果如何,至少曾经放手一搏过! 我们来看看仙桃这些高中, 今年的喜报吧! 仙桃一中喜报:全市文科最高分 文科刘佳琪652分, 全市文科最高分, 稳居湖…

免费创造你的专属数字人!

现在数字人已经不是什么新鲜事物啦,所谓数字人(Digital Human / Meta Human),是运用数字技术创造出来的、与人类形象接近的数字化人物形象。未来数字人ChatGPT可以取代很多现在很多的一些应用场景,例如客服、主播等。以…

运营人常备的8个营销模型一、SWOT分析二、PEST分析三、3C

运营人常备的8个营销模型 一、SWOT分析 二、PEST分析 三、3C战略模型 四、STP理论 五、波特五力模型 六、波士顿矩阵 七、GE矩阵 八、商业模式画布 内容如下: 一、SWOT分析 1.strengths是优势 2.weaknesses是劣势 3.opportunities是机会 4.threats是威胁 二、PEST分…

286 亿元!败了的 Google 是否会为 Android 交最贵罚单?

聚光灯下的 Google,再一次“失利”。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 屈指算来,Google 遭到欧盟反垄断调查已有 12 年时间。在此多年间,调查主要是围绕 Google 的搜索引擎、Android、AdWords&#x…

微软正式将GPT-4引入网络安全,安全行业颠覆似乎来了

北京时间3月28日23:30,微软安全开启全球直播,重磅推出Microsoft Security Copilot——正式宣布将GPT-4引入网络安全。 据微软称,Security Copilot将不断学习和改进,提供对最先进的OpenAI模型的持续访问,以支持要求苛刻…

腾讯云数据安全中台保护方案获“首届全国商用密码应用优秀案例”

近日,工业和信息化部密码应用研究中心发起的“首届全国商用密码应用优秀案例”评选活动正式结束,腾讯云数据安全中台保护方案凭借优异技术和实践表现获评优秀案例。 (首届全国商用密码应用优秀案例名单) 本次优秀案例征集涵盖电子政务、信息…

阿里贾扬清:新一轮AI爆发的推动机制是工程化和开源 | MEET2023

羿阁 整理自 MEET2023量子位 | 公众号 QbitAI 随着Stable Diffusion、ChatGPT的爆火,AI在今年迎来了大爆发。 这不禁让人想问,这些创新背后的推动机制究竟是什么? 在MEET2023智能未来大会上,阿里巴巴集团副总裁、阿里云计算平台事…

教你在Android手机上使用全局代理!

FBI Warning:欢迎转载,但请标明出处:http://blog.csdn.net/codezjx/article/details/8872071,未经本人同意请勿用于商业用途,感谢支持! 前言:在Android上使用系统自带的代理,限制灰常…

这才是计算机科学_人工智能

人工智能 一、前言二、ML2.1 分类2.1.1 决策树2.2.2 支持向量机2.2.3 人工神经网络 三、计算机视觉3.1 Prewitt算子3.2 Viola-Jones 人脸检测算法3.3 卷积神经网络 四、自然语言处理4.1 知识图谱4.2 语音识别 一、前言 之前讲了计算机从发展到现在的过程,计算机很适…

【ChatGPT】《chatGPT Box现已全平台上线,全面整合并以MIT协议开源》- 知识点目录

《chatGPT Box现已全平台上线,全面整合并以MIT协议开源》 这个视频主要介绍的是一款基于ChatGPT的开源工具【ChatGPT Box】; ChatGPTBox插件在chrome应用商店已经上线; 1. 右键菜单呼出对话框 & 位置可以拖拽调整 2. 文字选中问答 2.1 …

Stable Diffusion 母公司开源大语言模型,代号「StableLM」!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 昨天晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型:StableLM。 该模型的 Alpha 版本有 30 亿和 70 亿参数…

Stable Diffusion 母公司开源大语言模型StableLM

4月19号晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型:StableLM。 该模型的 Alpha 版本有 30 亿和 70 亿参数,并将于后续开放 150 亿和 650 亿的参数模型。 Stability AI 的创始人…

科研人论文必备神器(软件、网站、插件等)

科研人论文必备神器(软件、网站、插件等) 仅真实地推荐高效、有用的内容,无广告 文章目录 科研人论文必备神器(软件、网站、插件等)文献查找1.谷歌学术2.Web of Science(WOS)3.PubMed4.知网5.百…

2023年3月份报告合辑 附下载

把坚持当成一种习惯,别人光鲜的背后都有加倍的付出。没有谁比谁更容易,只有谁比谁更努力,三月已经成了过去,四月继续加油! 十二月报告 3.1:2023智慧会议技术白皮书 2023智慧会议技术白皮书 产业分析&#x…

java利用jdbc连接近远程MySQL数据库详细步骤+数据库封装类 --菜鸟小回

java利用jdbc连接近程MySQL数据库详细步骤数据库封装类 ChatGPT点击直接对话:小回公益GPT 文章目录 java利用jdbc连接近程MySQL数据库详细步骤数据库封装类 ChatGPT点击直接对话:[小回公益GPT](https://gpt.huijia.cf/)一、导入驱动包二、连接数据库1. 加…

国内信息安全行业常见法律法规介绍及个人理解

国内信息安全行业常见法律法规介绍及个人理解 前言网络安全法等保分保数据安全法 前言 法律法规,尤其是上位法(相对)是咬文嚼字、晦涩难懂的,常常阅读过后无法得到清晰、明确的理解。 但作为IT从业人员,无论是乙方争取项目机会、实施或设计过…