DTI综述(更新中)

Deep Learning for drug repurposing:methods,datasets,and applications

综述读完,觉得少了点东西,自己写个DTI综述

Databases(包括但不限于文章中的)

DATABASEDESCRIBE
BindingDB有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
KEGG(Kyoto Encylopedia of Genes and Genomes)集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
Pubchem化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
CCLE对抗癌药物有用
ChemDB提供了化学结构和分子性质,还预测了分子3D结构
CTD(Comparative Toxicogenomics Database)CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
DGIdb从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
DrugBank将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
DrugCentral提供了active chemical entities and dug mode of action
DTC(Drug Target Commons)DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
DTP(Drug Target Profiler)DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
GCLIDA包含DTI for G-protein-coupled receptors(GPCRs)
GtopDB包含已批准的药物和在调查中的化合物的定量生物活性数据
PathwayCommon包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
PharmGKB包含临床以实和研究人员药物反应的遗传变异的综合数据
STITCH存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
Supertarget用于分析DTI和药物副作用
BioSNAPDTI
HUMANDTI
TTD(Therapeutic Target Database)提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
AOPEDF从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。

上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没

数据集

datasetcontentssource
BindingDB药物序列,蛋白质序列,label(0/1)DrugBAN-github
BioSNAP药物序列,蛋白质序列,label(0/1)DrugBAN-github
HUMAN药物序列,蛋白质序列,label(0/1)DrugBAN-github

Representation Learning

Sequence-based

在这里插入图片描述

Drug representations(对于分子化合物).

(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

在这里插入图片描述

Target representations.

(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。

Network/graph-based representation learning

RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

深度学习模型(target-centered)

药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

Modeldrugtarget(pr)architecturetypeyear
DeepAffintiySMILESProtein SPS(Structural property sequence)RNN,CNN,Attention MechanismDTA2019
Rifaioglu et al.SMILESProtein sequence structural,evolutionary and physicochemical propertiesCNNDTA2020
GraphDTAMolecular graphProtein sequenceGCN,DNNDTA2019
DeepConv-DTIFingerprintProtein sequenceCNN,DNNDTI2019
MCPINNECFP&Mol2Vec&SMILESAmino acid sequence & ProtVecDNNCPI2019
Gao et alMolecular graphAmino acid sequenceGCN,LSTM,two-way attention mechanismDTI2018
TransformerCPIMolecular graphProtein sequenceTransformerCPI2020
Tsubaki et al.Molecular graphAmino acid sequenceGCN,CNN,attention mechanismCPI2019
TrimodelBiomedical knoledge graphs about drug and target-Knowledge Graph EmbeddingDTI2019
MOVE
MultiDTI
MolTrans
Yang li et al.
MIRACLE
ImageMol
DrugBANMolecular graphProtein sequenceGCN,CNN,biattentionDTI2023
CLOOME

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/161951.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

需要影视解说配音的看过来,用它就对了

近年来,随着影视、动画等领域的快速发展,声音设计和配音成为了影片制作中不可或缺的一环。然而,并非每个人都拥有天赋般的配音技巧。面对这一困境,幸运的是,现在市面上有很多简单免费好用的配音软件,今天就…

基于B/S架构,包括PC后台管理端、APP移动端、可视化大屏端的智慧工地源码

智慧工地管理平台充分运用数字化技术,聚焦施工现场岗位一线,依托物联网、互联网、AI等技术,围绕施工现场管理的人、机、料、法、环五大维度,以及施工过程管理的进度、质量、安全三大体系为基础应用,实现全面高效的工程…

ant中的environment属性

在ant的配置文件中&#xff0c;可以设置属性environment的值&#xff0c;设置的这个值就作为访问环境变量的前缀。例如声明了environment“env”&#xff0c;那么就可以通过env.<环境变量名称>来访问环境变量。 例如创建了一个Java工程&#xff0c;在工程目录下有一个bu…

2023年震撼!Java地位摇摇欲坠?Java在TIOBE排行榜滑坡至历史最低!

一、Java掉到历史最低 从2023年6月开始Java掉到历史最低排到第4位 2023年10月tiobe编程语言排行榜&#xff0c;Java仍然还是排到了第4位&#xff0c;C# 和 Java 之间的差距从未如此之小。 top 10 编程语言1988年~2023年历史排名 引用tiobe官网上TIOBE Software 首席执行官的话…

[uni-app] canvas绘制圆环进度条

文章目录 需求参考链接基本问题的处理1:画布旋转的问题2:注意arc()的起始位置是3点钟方向3: 如果绘制1.9*Matn.PI的圆环, 要保证其实位置在0点方向?4:小线段怎么画, 角度怎么处理? 源码 需求 要绘制一个如此的进度条 参考链接 uni-app使用canvas绘制时间刻度以及不显示问…

【前端学习】—JS判断数据类型的方式有哪些(八)

【前端学习】—JS判断数据类型的方式有哪些&#xff08;八&#xff09; 一、JS中判断数据类型的场景 二、JS中有哪些数据类型 三、JS判断数据类型的方式有哪些 const arr[]; const object{};const number1; const stringstring;//typeofconst typetypeof arr; console.log(type…

【算法|前缀和系列No.5】leetcode1314. 矩阵区域和

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】【Leetcode】 &#x1f354;本专栏旨在提高自己算法能力的同时&#xff0c;记录一下自己的学习过程&#xff0c;希望…

使用流量管理工具保护 Kubernetes 的六种方法

原文作者&#xff1a;Jenn Gile - F5 NGINX 产品营销经理 原文链接&#xff1a;使用流量管理工具保护 Kubernetes 的六种方法 转载来源&#xff1a;NGINX 中文官网 NGINX 唯一中文官方社区 &#xff0c;尽在 nginx.org.cn 编者按 —— 本文是以下系列博文中的一篇&#xff08;共…

DeFi世界 MXT脱颖而出 利好不断

​​MixTrust希望成为用户在Web3世界的专用金融平台&#xff0c;注重为用户提供个性化的金融服务。而WorldCoin的愿景则是建设一个全球最大的、公平的数字身份和货币体系&#xff0c;强调构建一个涵盖全球范围的身份认证和货币交易系统。 扩展性 在扩展性方面&#xff0c;双方…

Windows11家庭版没有本地组策略编辑器解决

1. 新建一个文本文件将下面代码粘到里面&#xff0c;保存后修改后缀为.cmd或者.bat echo off pushd "%~dp0"dir /b C:\Windows\servicing\Packages\Microsoft-Windows-GroupPolicy-ClientExtensions-Package~3*.mum >List.txt dir /b C:\Windows\servicing\Packa…

pytorch_神经网络构建4

文章目录 循环神经网络LSTM词嵌入skip-Gram模型N-Gram模型词性预测RNN循环神经网络的基础模块实现RNN识别图片RNN时间序列预测词向量模块词向量运用N-Gram模型lstm词性预测 循环神经网络 这个网络主要用来处理序列信息,之前处理图片时大部分是分析图片的结构信息, 什么是序列信…

Kafka SASL认证授权(五)ACL源码解析

Kafka SASL认证授权(五)ACL源码解析。 官网地址:https://kafka.apache.org/ 一、ACL检查流程解析 一起看一下kafka server的启动与监听流程: Kafka -> KafkaServer -> SocketServer、KafkaRequestHandler 其中KafkaServer做相关的初始化,包括SocketServer 与 han…

django无法导入第三方库

引子 有的人可能会很困惑&#xff0c;为什么自己在pip中安装了某个包&#xff0c;但是在django中死活无法导入。 在cmd中能够导入。 启动django&#xff0c;总是无法导入。 本文将会用一分钟解决你的困惑。 正文 那么本文以上述的第三方库dj_db_conn_pool为例&#xff0c;…

STM32 BootLoader设置

编写bootloader程序&#xff1a; 直接复制下面代码到自己程序中。 typedef void (*iapfun)(void); //定义一个函数类型的参数. iapfun jump2app; //设置栈顶地址 //addr:栈顶地址 __asm void MSR_MSP(u32 addr) {MSR MSP, r0 //set Main Stack valueBX r14 }//跳转到…

软件工程与计算总结(十三)详细设计中的模块化与信息隐藏

一.模块化与信息隐藏思想 1.设计质量 好的设计要着重满足以下3方面&#xff1a;可管理性、灵活性、可理解性好的设计需要侧重于间接性和可观察性——简洁性使得系统模块易于管理&#xff08;理解和分解&#xff09;、开发&#xff08;修改与调试&#xff09;和复用。实践者都…

BI零售数据分析:以自身视角展开分析

随着零售业务不断扩展&#xff0c;市场竞争不断加剧&#xff0c;各层级的销售管理人员都急需一张能快速查看销售数据分析报表&#xff0c;能从中知道自己管辖内的业务最近或过去的情况&#xff0c;并依次为依据科学优化销售管理措施。这就要求零售数据分析报表信息足够多、数据…

Mac硬盘检测工具

Mac硬盘检测软件是一款用于检测和诊断Mac硬盘健康状态的工具&#xff0c;帮助用户及时发现潜在的硬盘问题&#xff0c;避免数据丢失和系统故障。通过全面的检测和报告功能&#xff0c;用户可以更好地了解自己的硬盘状况&#xff0c;确保数据的安全和可靠。给大家介绍几款好用的…

PhotoShop批量压缩图片

打开photoshop&#xff0c;在顶部的菜单栏选择文件》脚本》图像处理器。 选择合适的参数&#xff0c;运行即可。

postman请求400错误-日期LocalData

错误日志参考 [nio-8080-exec-3] .w.s.m.s.DefaultHandlerExceptionResolver : Resolved [org.springframework.web.method.annotation.MethodArgumentTypeMismatchException: Failed to convert value of type java.lang.String to required type java.time.LocalDate; neste…

电脑D盘文件凭空消失了?切记3招,轻松恢复文件!

“由于我c盘内存不够了&#xff0c;我就将部分重要的文件保存到了d盘&#xff0c;今天打开d盘后才发现我这些文件凭空消失了。这究竟是什么呀&#xff1f;还有机会找回这些消失的d盘文件吗&#xff1f;” D盘作为电脑中一个重要的磁盘&#xff0c;很多电脑用户也会选择将文件保…