【2021研电赛】基于深度学习的蛋白质与化合物结合性质预测

本作品介绍参与极术社区的有奖征集|分享研电赛作品扩大影响力,更有重磅电子产品免费领取!

在这里插入图片描述

获奖情况:三等奖

1.作品简介

针对药物发现过程中的药物筛选问题,本设计基于深度学习提出新的神经网络结构和数据处理方式用于预测蛋白质与化合物之间的结合性质。与其他预测方法相比,在数据编码方式上,我们对氨基酸的单独特征和氨基酸处于氨基酸序列中表现出的特征分别进行了建模,使用了多组可学习的特征嵌入对氨基酸进行编码,并使用类似注意力机制的方式从多组特征嵌入获得氨基酸序列的特征嵌入,在网络结构上,我们利用卷积网络、图卷积网络、transformer和多层感知机在处理不同类型数据时所拥有的优势,将不同类型的网络相结合从而充分发挥不同网络的各自优势,建模了蛋白质化学性质与其氨基酸序列的关系、化合物的化学性质与其分子三维空间结构之间的关系以及蛋白质与化合物之间的结合关系。

2.算法介绍

我们利用深度学习技术,训练神经网络完成对蛋白质和化合物的结合性质预测。所设计的神经网络整体结构如图2-1所示。整个神经网络可以被分为三个部分,分别为蛋白质特征提取模块、化合物特征提取模块以及预测模块。其中,蛋白质特征提取模块从氨基酸序列中提取蛋白质的化学性质,得到蛋白质的全局描述;化合物特征提取模块从化合物的图中提取化合物的化学性质,得到化合物的全局性描述;预测模块则根据蛋白质的全局描述和化合物的全局描述判断蛋白质与化合物是否能够相互结合。

3.作品创新

① 为了能够表达氨基酸自身特征以及氨基酸相互组合的特征,我们将蛋白质编码直接编码为可学习的query、key和value,通过类似自注意力(self-attention)的方式完成对具体蛋白质的编码。
② 为了适配化合物分子的图结构,我们使用图卷积网络从化合物中提取特征,并且在图卷积层之间增加残差连接以防止图卷积对图信号的过平滑效应。
③ 使用线性与双线性将结合的方式完成对蛋白质特征和化合物特征的整合。

4.算法流程图

在这里插入图片描述

5.未来展望

本设计基于深度学习提出了新的神经网络结构和数据处理方式用于预测蛋白质与化合物之间的结合性质。我们首先使用合适的方式对蛋白质和化合物进行编码,尽量在特征编码中反映出蛋白质和化合物的关键特点,然后针对拥有不同数据结构蛋白质特征和化合物特征,应用不同类型的神经网络对数据进行适配,以尽量从数据中提取关键信息,最后我们使用ROC曲线与AUC对最终模型的预测性能进行了评估。

我们的设计实现了预期功能,完成了以下目标:
① 对于蛋白质和化合物的编码方式能够成功应用于神经网络的训练,说明所提出的特征编码方式是有效的。
② 神经网络在经过训练后,在测试数据集中又有一定的泛化能力,说明我们所提出的多种类型结合的神经网络能够从蛋白质和化合物中提取关键特征并用于判断两者的结合性质。
我们的设计虽然达成了与其功能,但是仍存在一些缺点和有待进一步探究的问题:
① 我们设计的神经网络虽然具有一定的泛化性能,但是仍然有待提高,因为在实际应用过程中,蛋白质与化合物之间能够反映的几率很小,也就是正负样本比例非常低,因此如果需要将模型投入实际应用,需要模型对于正样本具有很强的识别能力。
② 虽然间接的证明了我们对蛋白质和化合物的编码方式以及数据处理方式是有效的,但是无法分析这些编码方式和处理方式奏效的原因,如果能够分析这些原因,就可以有根据的对神经网络进行改进,从而提高性能,增加实际应用价值。

更多研电赛作品请查看2021年研电赛获奖作品合集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/185192.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将请求映射到servlet的规则

参考资源 详情可以参考:https://jakarta.ee/specifications/servlet/6.0/jakarta-servlet-spec-6.0.html#mapping-requests-to-servlets URL路径的使用 web容器接收到客户端的请求,决定转发给哪个web应用。被选中的web 应用必须具有最长的上下文&…

Node.js中的child_process模块的作用

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

搭载紫光展锐V510平台 移远通信RG500U-EA 5G模组获全球首个GCF认证

近日,搭载紫光展锐V510平台的移远通信工规级5G模组RG500U-EA顺利通过GCF认证,成为全球首款通过该认证的基于紫光展锐平台的5G模组。 GCF认证是一种国际性的产品一致性认证,该认证的通过,表明搭载紫光展锐V510的终端产品可满足不同…

计网----数据库(一)

计网----数据库(一) 一.什么是数据库 数据库是”按照数据结构来组织、存储和管理数据的仓库“。是一个长期储存在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 二.数据库的特点 1.规范化的本地存储 2.加密 3.共享 三.数据库的好处…

时间序列预测:深度学习、机器学习、融合模型、创新模型实战案例(附代码+数据集+原理介绍)

本文介绍->给大家推荐一下我的时间序列预测实战专栏,本专栏平均质量分98分,而且本专栏目前免费阅读。其中涉及机器学习、深度学习、融合模型、个人创新模型、数据分析等一系列有关时间序列的内容,其中的实战案例不仅有简单的模型类似于机器…

【面经】如何查看服务器内存和磁盘空间占用

查看服务器内存占用 free -g查看服务器磁盘空间占用 df -h

精进·第1篇:分享一个3年战略规划框架思路

首发:麦子禾咨询 作者:石头 正如解决问题的思路不止一个,做战略规划的思路、框架、模型,石头认为,肯定也不止华为类的业务领先模型BLM、业务战略执行力模型BEM、从战略规划到战略执行DSTE流程,以及轻量级…

Halcon WPF 开发学习笔记(0):开篇介绍

文章目录 文章专栏Halcon是什么?安装教学视频链接简单来说 Halcon快速开发环境确认新建项目 文章专栏 Halcon开发 Halcon是什么? 史上最全VisionPro和Halcon 的详细对比 Halcon简述 Halcon基础大全(基础算子、高阶算子、数组、分割、字符检测…

【算法与数据结构】17、LeetCode电话号码的字母组合

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:本题需要解决的问题有三个: 一、如何实现数字到字母的映射二、如何实现组合问题三、如何解…

Python进阶该怎么学?有什么书推荐吗?

给大家再分享一下整理出来的Python进阶以及Python实践操作可以参考学习的堪称经典的书籍,同样是豆瓣高分榜!内容有点长,一定要耐心看完。 Python进阶学习书籍 Effective Python:编写高质量Python代码的90个有效方法(…

Read-Easy Excel源码解析(一)

Read&Write-Easy Excel 当我们需要导入大Excel时候,用POI会内存溢出,这时候我们用EasyExcel来解决,它底层采用的是SAX(Simple Api for Xml)事件驱动,解析xml的方式来解析excel文件。 首先我们看他的re…

畜牧业RFID电子耳标读卡器品牌选哪个好?怎么选?

在畜牧业中,RFID电子耳标读卡器是一个非常重要的设备,它可以帮助养殖户追踪和管理动物,进行牲畜的身份识别、盘点计数、自动饲喂、防疫分栏管理、出入栏管理、智能称重等操作,提高生产效率和减少损失。 近年来,随着国…

antd Form 校验自定义复杂判断-validator

antd Form 校验 加入自定义复杂逻辑 <Form.Itemlabel"编码"name"code"rules{[{required: true,validator: (_rule, value) > {if (value ) {return Promise.reject(请输入编码);}return IsExist(value).then((res) > {if (res?.statusCode 20…

广域网加速的作用:企业为什么需要广域网加速?

由于局域网与广域网之间巨大的带宽鸿沟&#xff0c;通过增加带宽来满足膨胀的流量需求是不切实际的。 并且广域网带宽成本较高&#xff0c;增加广域网带宽对任何企业都意味着巨大的成本负担。这些使得控制 管理广域网带宽使用成为必需。 企业为什么要加速广域网? 对重要的企…

在Windows 10上安装单机版的hadoop-3.3.5

1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以不需要了解分布式底层细节的情况下&#xff0c;开发分布式程序。充分利用集群进行高速运算和存储。 2、下载Hadoop&#xff0c;我们在清华大学的镜像站下载 Index of /apache/hadoop/core/hadoop-3.3.6 (t…

【字符串】【双指针翻转字符串+快慢指针】Leetcode 151 反转字符串中单词【好】

【字符串】【双指针翻转字符串快慢指针】Leetcode 151 反转字符串中单词 解法1 双指针翻转字符串快慢指针更新数组大小 ---------------&#x1f388;&#x1f388;题目链接&#x1f388;&#x1f388;------------------- ---------------&#x1f388;&#x1f388;解答链接…

求臻人故事 | 年轻的求臻人,厉害了

在这个快节奏的社会中&#xff0c;我们时常忽略了身边的“小人物”&#xff0c;他们或许默默无闻&#xff0c;或许平凡无奇&#xff0c;但他们的经历、奋斗和成就&#xff0c;却能给我们带来深深的启示。让我们一起走进每个平凡的求臻人世界&#xff0c;聆听他们的“大故事”&a…

使用 AIGC ,ChatGPT 快速合并Excel工作薄

职场数据处理&#xff0c;数据分析汇报与统计的过程中&#xff0c;经常会遇到这样的一个问题那就是需要统计的数据源在多个文件中&#xff0c;多个工作薄中&#xff0c;如果要进行数据处理&#xff0c;汇总的时候会很不方便 例如&#xff1a; 如果要汇总6个月的数据可能就得需…

clang插件对llvm源码插桩,分析函数调用日志(2)--google镜像

tick_plot__compile.ipynb clang插件对llvm源码插桩&#xff0c;分析函数调用日志(1) 分析 进出、链、出 df进出df[ df[tickKind].isin( [FuncEnter,FuncReturn] ) ]#代码中&#xff0c;只有在函数进入时&#xff0c;计算了链条长度 并写磁盘 df入df[ df[tickKind].isin…