蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧

你知道 AlphaFold2 吗?它真正解决了蛋白质三维结构预测的算法困境,堪称蛋白质界的 chat-GPT4,甚至它的意义不是 chat-GPT4 所能够匹敌的。它为世界疾病治疗药物开发以及探究生物生命之谜提供了通向天神的一条道路,未来是生物的世纪!AlphaFold2再登Nature,从业者都懵了:人类98.5%的蛋白质,全都被预测了一遍,现在,它已经公开了超两亿个蛋白质预测的三维结构,免费无偿提供,让我们感谢这一开源精神。当然,我们也可以先了解AF1,从最开始,到后来的改变!

Alphafold 论文目录结构

在这里插入图片描述

1-3:介绍 Alphafold 的完成背景与其他模型的优势,以及取得的成就

4-5:介绍 Alphafold 的基本思路,预测核心部件(卷积神经网络)以及梯度程序的思路

6-10:介绍 Alphafold 第一阶段的输出——残基距离分布图,以及第二阶段梯度下降程序效果

11-14:说明了核心部件对应的卷积神经网络的输入特征说明,以及选择一些输入因素的原因

15-23:搭建蛋白质可微几何模型以及梯度下降处理的思路及其效果

23-27:Alphafold 对 T0986s2 蛋白质的预测,达到 TM 分数 0.8,展示了神经网络的输入如何影响最终的预测

残差

残差,是指实际观察值与回归估计值的差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。残差图的分布趋势可以帮助判明所拟合的线性模型是否满足有关假设。残差有多种形式,上述为普通残差。为了更深入地研究某一自变量与因变量的关系,人们还引进了偏残差。以某种残差为纵坐标,其它变量为横坐标作散点图,即残差图,它是残差分析的重要方法之一。需分析具体情况,探索合适的校正方案,如非线性处理,引入新自变量,或考察误差是否有自相关性。

蛋白质相似性度量

蛋白质结构相似性通常通过RMSD(均方根偏差)分数、GDT(全局距离测试)分数和模板建模分数(TM-score)来衡量。

参考:蛋白质结构相似性与TM评分= 0.5有多显著? |生物信息学 |牛津学术 (oup.com)

RMSD

两种蛋白质结构的最佳叠加后所有等效原子对的均方根偏差(RMSD),然而,由于结构中的所有原子在计算中的权重相等,RMSD的主要缺点之一是,当RMSD值很大时,它对局部结构偏差比对全局拓扑更敏感。例如,即使核心部分的全局拓扑相同,如果尾部或某些环具有不同的方向,则两种蛋白质结构的RMSD可能很高;仅根据 RMSD 值,这无法与两个结构具有完全不同的拓扑的情况区分开来。很少使用到。

越高越不相似

TM-scores

TM评分是评估蛋白质结构拓扑相似性的指标。它使用Levitt-Gerstein权重计算所有残基对。TM 分数对全局拓扑比局部变化更敏感。此外,由于它采用蛋白质大小依赖性量表来归一化残基距离,因此随机蛋白质对的TM评分的大小与蛋白质大小无关
请添加图片描述

其中L是目标蛋白的长度,Lali是两种蛋白质中等效残基的数量。d i 是两个结构之间等效残基的第 i 对的距离,取决于叠加矩阵;“max”表示确定使公式(1)中的总和最大化的最佳叠加矩阵的过程。规模论坛定义为标准化 TM 评分,即随机蛋白质对的平均 TM 评分的大小与蛋白质的大小无关。

TM 分数保持在 (0, 1) 中,值越高表示相似性越强。

GDT 分数

GDT 分数被广泛用于社区范围的CASP和CAFASP实验,以评估蛋白质结构预测的建模准确性,随机结构对的GDT和MaxSub评分的大小与蛋白质长度具有幂律依赖性(Zhang和Skolnick,[2004](javascript:😉),这使得分数的绝对值意义不大。它还有一个缺点,即相关蛋白质的相似性在很大程度上取决于它们的长度

在大约 90 分的情况下,我们就可以认为从一串氨基酸序列转发成蛋白质折叠出的三维结构问题大部分已经得到解决,在 2020 年前的相关比赛中,从来没有超过 90,甚至是 60。GDT 分数意味着实际三维结构和生成的三维结构的全局距离分数。也可以说是预测结构和真实蛋白质结构相似度的度量值,如下:

image-20230412230608937

而使用 Alpha fold 测试 2018 年的数据,可以达到将近 60。

越高越相似。

lDDT分数(局部距离差测试)

基于刚体叠加的GDT评分无法解释多结构域蛋白中相对结构域取向的变化,需要分别比较每个结构域。

氨基酸缩写表

请添加图片描述

同源序列的共变异可推断哪些氨基酸残基是接触

同源序列(homologous sequences)

同源序列可以用**相似性(similarity)**来度量。注意,**同一性(identity)**指两条序列完全相同。

残基(Residue):

氨基酸之间的氨基和羧基脱水成键,氨基酸由于其部分基团参与了肽键的形成,剩余的结构部分则称氨基酸残基。也就是说在下图中,虚线框外的部分就是残基。

image-20230413200434661

PDB 数据库

Protein Data Bank(以下简称,PDB,https://www1.rcsb.org/)是当今全世界最具公信力的蛋白质数据库之一,每一条蛋白质都有唯一标识,称为PDBID(类似每个人都有自己的身份证号,唯一标识),比如PDBID为1F88的蛋白质在PDB中如下:

1f88

蛋白质结构

请添加图片描述

一级结构

蛋白质的1级结构指的是其氨基酸序列。在PDB中可以下到蛋白质的序列文件,如1F88的序列文件rcsb_pdb_1F88.fasta如下:
第一行记录了该蛋白的信息
第二行开始记录了该条蛋白质的序列,由一个个氨基酸构成。以这个1F88为例,序列中包含了348个氨基酸,说明1F88由348个氨基酸构成,所以1F88的长度为348。

一级结构-序列

3级结构就是空间结构。空间中每一个氨基酸集团由若干个原子构成。每一个原子都会有自己的唯一确定的三维坐标由(x,y,z)表示。

二级结构

蛋白质分子的二级结构(secondarystructure)通常是指蛋白质多肽链沿主链骨架方向的空间走向、规则性循环式排列,或某一段肽链的局部空间结构,即蛋白质的二级结构为肽链主链或一段肽链主链骨架原子的相对空间盘绕、折叠位置,它并不涉及氨基酸残基侧链的构象。

三级结构

蛋白质的三维结构

以1F88蛋白质为例,1F88的3级结构用文件1F88.pdb来描述。可在 pdb 数据库查看:

pdb数据库

请添加图片描述

在知道了每个原子的三维坐标后,我们可以在坐标系中,把每一个原子都标记出来,这样就得到了蛋白质的三维结构的空间图,如1F88序列经过PDB文件的坐标解析后,用Pymol软件打开可以看到他的结构如下:

pymol

蛋白质残基接触

空间中2个氨基酸集团的Ca原子(一般用Ca原子来计算接触)的空间距离小于8Å(Å是距离单位)的时候,我们认定这两个氨基酸是处于接触contact状态。简单讲,就是通过距离来判断是否接触,推断是否能够发生反应。

怎么计算两个氨基酸是否存在接触,以 1f88 为例:

if88.pdb

将pdb坐标文件中2个氨基酸集团中的CA原子分别取出来,然后用空间距离计算公式,计算一下结果便可以得知结果。

  1. MET_Ca的坐标为(x1,y1,z1)=44.718,-5.054,-26.911。ASN_Ca的坐标为(x2,y2,z2)=44.449,-4.763,-23.103。
  2. 代入空间中两点距离公式求这俩坐标之间的距离d。

得出结果为 d = 70.417122Å ,远远大于8Å的距离阈值要求。所以这俩氨基酸在空间中不接触。

CASP是二年一次的蛋白质结构预测竞赛,在CASP竞赛中,有专门的的一项就是接触预测竞赛。那么接触的意义是什么? 通俗的说,接触就是一种约束,有了约束,会决定蛋白质在空间中的空间结构(为什么蛋白质的螺旋往左边倾斜,不往右边倾,就是有一种约束在其中作用),而空间结构决定了蛋白质的功能。有了功能能为药物开发等提供研究基础等。所以对接触进行研究是极具意义的。

蛋白质接触矩阵

在知道什么是接触、接触如何计算之后,我们可以用矩阵的形式,来将一条蛋白质的接触信息展示出来。这个形式就是接触矩阵,或成接触图。

在接触矩阵M中,假设一条蛋白质序列的长度为L。那么这个接触矩阵的维度就是L*L,接触矩阵M是一个沿主对角线对称的矩阵。

矩阵中每一个元素的值要么是0要么是1。0表示不接触,1表示接触。我们可以用i和j来标识。

比如一条长度为10的蛋白质,他的接触矩阵M的维度就是10*10。
如那么第三行第六列为1。就表示该序列的第3个氨基酸与第6个氨基酸他们是接触的。

请添加图片描述

MSA:多序列对比

使用原因:

蛋白质的生成与 DNA 息息相关,而目前地球上绝大多数都是由同一个祖先进化而来的,特定功能的蛋白质在不同物种间也具有极大的结构相关性。而这种特定功能下的蛋白质序列的结构相似性,正是 MSA 多序列对比能够对蛋白质结构预测起一定作用的原因。当然,单序列直接预测蛋白质结构很美好,但存在很大的难度,那这样的话,为什么不利用各种数据库存储的序列信息与对应蛋白质结构关系的宝贵信息,将这个难度大大减低。

原理:

假设存在两个蛋白质,它们之间的作用对于生物极其重要,我们知道,两个蛋白质之间存在化学上的相互作用,意味着存在一定的结构维持这种作用,一旦其中一个蛋白质出现突变,为了维持这种作用,另外一个蛋白质也必须做出配合的突变,否则,生物就将面临死亡。并且,现存的所有生物都是来自于同一个祖先,在这样的情况下,依据统计学概率,提取特征,我们就可以判断相同某些氨基酸是否存在接触的可能。

如下图:我们可以预测位于黑球位置的氨基酸 S 与 氨基酸 H 存在接触的可能,氨基酸 F 与氨基酸 W 存在接触的可能。

其中,每一行氨基酸序列都是来自不同的生物。

image-20230415024117573

image-20230415024631736

Alphafol 从每个残基对的多序列对比中提取出了 484 个特征,还有部分能够明确表现出在 MSA 中缺失部分的特征:

  • 1-hot amino acid type (21D)
  • Profiles: PSI-BLAST (21D)
  • HH280 blits profile (22D)
  • non-gapped profile (21D)
  • HHblits bias, HMM profile (30D)
  • Potts model bias (22D)
  • Deletion probability (1D)
  • Frobe285 nius norm (1D)
  • Gap matrix (1D)

这些特征作为预测残基距离的深度卷积神经网络的输入之一。

Alphaflod 思路

第一步:

基于目标氨基酸序列,在所有的数据库进行爬取,匹配出类似的在动物界中的相关物种的进化方向,再将这个 MSA 信息和一些额外的输入特征相结合,经过处理并重塑为二维数组并输入到深度残差卷积网络中。进而输出一个预测的蛋白质残基距离分布图。实际预测的不是蛋白质的残基距离分布,而是,每对残基之间的距离。

请添加图片描述请添加图片描述

第二步:

结合不同残基间的扭转角度利用梯度下降法得出能够满足这样的残基距离的(不考虑物理力影响的)蛋白质的 3d 结构图。

image-20230415020010363

第三步

结合残基之间的物理力(范德华力)得出一个较为合理的蛋白质三维结构。

思路流程图如下:

image-20230415002812077

特征提取阶段(MSA 提取)用黄色表示,结构预测神经网络(蛋白质残基距离分布图)用绿色表示,潜在构造(基本骨架)用红色表示,结构实现用蓝色表示

蛋白质残基距离分布图

蛋白质每对残基之间的距离只是一个二维数组,里面每个数值都代表一个蛋白质 3d 结构中不同氨基酸之间的距离,比如在 i 行和 j 列的数字代表氨基酸 i 和氨基酸 j 的之间的距离。把这里的距离数字转换为颜色,即每个格子颜色深浅代表两个氨基酸距离。如下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bBT4EC0S-1682786250119)(null)]

其中,SQET······代表氨基酸缩写字母。由于 i 到 j 与 j 到 i 的距离相等,所以蛋白质分布图会以主对角线为中心的对称矩阵。之所以使用蛋白质分布图来进行预测,正是因为无论蛋白质如何旋转、平移都不会改变蛋白质距离分布图。也就是说不同视角下的同一个蛋白质的残基距离分布图一致。从而,我们不用为了预测准确去把蛋白质以某个姿态进行对齐位置。

实际距离与预测距离的残差分布图

其中:

  1. 横轴是残基之间的距离值,竖轴是实际值与预测值的残差
  2. 绿色代表残基呈现接触状态的残差图,网格分布趋向于向右,红线在黑线左侧
  3. 蓝色代表残基呈现非接触状态的残差图,网格分布趋向于向左,红线在黑线右侧
  4. 黑色竖线代表 8 Å 距离的残基对,表示接不接触的距离,大于不接触,小于接触。
  5. 红色表示真实距离

以下为残基距离分布图中的第二十九位残基与其他残基的的残差分布图,可看出,第七副图和第八幅图的效果并不是很好,偏向中间。其中,最高置信度分布会最小变化,集中在红线附近,如第27、28、30、31幅图。距离应该也是在这个附近。

image-20230415000604434

从下面这个图,我们可以看出模型预测的距离和实际距离很接近

image-20230415031218245

预测标准差平均值十分接近于 0 ,标准差越高,模型预测越不确定。

请添加图片描述

扭转角度的梯度计算法

利用残基距离预测分布图与偏移角度进行梯度下降法即可获得能够满足这样的残基距离的(不考虑物理力影响的)蛋白质的 3d 结构图。获得 3 d 结构图的方法为梯度下降法对这些变量进行处理。实际就是把每两个残基之间的 phi 和 psi 角度参数化,方法如下:

不同残基间的扭转角度(phi 和 psi 角度,也就是二级结构的基本构成)构建一个可微分的 蛋白质几何模型,该几何模型输出结果为 x = G ( φ , ψ ) x = G(φ, ψ) x=G(φ,ψ),进而获得 d i j = ∣ x i − x j ∣ d _{ij}= |x_i − x_j| dij=xixj 再与与预测出来的残基距离进行相减的绝对值结果为损失函数,即 L = ∣ x − x ′ ∣ L = |x-x'| L=xx,由于可微,可得, d L d ψ {dL} \over {dψ} dψdL,通过改变角度,减低损失函数值,也就是梯度下降算法计算出残基之间的距离。

其中:

  • φ, ψ 为 phi 和 psi 角度
  • i、j 为氨基酸 i 和氨基酸 j

img

随着,梯度下降的一步步进行,到了 1200 步,就已经有不错的效果了。TM 分数在上升,RMSD 分数在下降。

image-20230415020010363

并且,随着步数的增加,蛋白质间的螺旋结构与非落选结构的残差分布也越来越合理,当然,这里的螺旋与否的判别是通过某种启发式学习得到的。拥有橙色那个图是扭转角度的变化的残差分布图

请添加图片描述

残基扭转角

φ(phi)表示一个肽单位中α碳左边C-N键的旋转角度, ψ(psi)表示α碳右边C-C键的旋转角度。

注:蓝色是 N 原子,白色是 C 原子

image-20230415001721085

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12668.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

融云WICC2023:成为「卷王」的路上,如何更好借力 AIGC

近期,“融云 WICC2023 泛娱乐出海嘉年华”在广州成功举办,行业多方力量与数百位开发者汇聚一堂,共同探讨出海人布局全球的突围之道。关注【融云全球互联网通信云】了解更多 在嘉年华的圆桌会议环节,白鲸出海创始人&CE…

AI明星翻唱还不够!有人要拿它当生活助手,支持聊天点外卖等,1:1复刻原声...

明敏 发自 凹非寺量子位 | 公众号 QbitAI AI孙燕姿爆火,突然让人意识到偶像声音复刻这事儿,可大有搞头啊。 毕竟咱平常看看明星爱豆,也就是为了好看、好听。 如果明星可以和我们随时互动,并且成为自己生活中的小助手,那…

分享 10 几个付费资源,一会删!

2023年了随着疫情的结束,经济也会慢慢的复苏,但是这时你会发现,随着在这个社会上信息差逐渐变大,大家的收入也在不断的进入两极分化,这就是所谓的二八定律! 可能你最近面临着迷茫,工资低&#x…

盘点元宇宙的2022:3次洗牌,1个机会

作者|不空 在元宇宙爆火后的第二年,悲观情绪开始在行业蔓延。 “在过去一年,很多友商走着走着就不见了。” 方糖星球创始人文旻的一句话不仅道出了元宇宙空间赛道的起伏,也总结了元宇宙行业的发展。 复盘2022年,元宇宙…

【小沐学NLP】Python实现聊天机器人(OpenAI,模型概述笔记)

🍺NLP开发系列相关文章编写如下🍺:1🎈【小沐学NLP】Python实现词云图🎈2🎈【小沐学NLP】Python实现图片文字识别🎈3🎈【小沐学NLP】Python实现中文、英文分词🎈4&#x1…

全面拥抱 AI 大模型——务实程序员的范式转变

目录 我一直是一名软件开发爱好者 思考架构

巴比特 | 元宇宙每日必读:90%以上的短剧剧本可以由AI生成?“AI莎士比亚”是否将出现,并给编剧沉重一击?...

摘要:据雪豹财经社报道,今年5月,美国好莱坞爆发了15年以来最大规模的一次编剧罢工,诉求之一是把AI从电影和电视创作中排除,不要试图取代编剧。有厂商称,很多制作短剧的MCN养了五六个编剧,如果用…

2023短剧出海怎么做? 一文看懂海外短剧的数据、案例和解决方案

短剧在中国市场取得了巨大的成功,截止2023年6月30日,短剧在中国大陆的市场每天的收入已经接近1亿人民币。这里的收入是指短剧平台公司,其中各大短剧公司、代理商(分销商)、个人创作者每天在抖音、快手等平台的投放已经…

时隔两个多月,一起来看ChatGPT现况如何?

ChatGPT这股风吹了两个多月,时至今日,各平台上与ChatGPT相关的文章,到现在依旧拥有着不小的流量。三月中旬上线了ChatGPT-4,与我们的文心一言前后脚发布,而后阿里的“通义千问”也展现了不俗的实力,那到现在…

ChatGPT 增长逐渐放缓,不再能吞噬整个网络?

整理 | 陈静琳 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) ChatGPT 的爆火,是昙花一现,还是未来可期? 近日,网站流量分析工具 Similarweb 针对 ChatGPT 目前的数据流量现状进行了一次深度的调研…

OpenAI-ChatGPT最新官方接口《AI绘图》全网最详细中英文实用指南和教程,助你零基础快速轻松掌握全新技术(三)(附源码)

ChatGPT-AI绘图 Image generation Beta 图片生成前言IntroductionUsageGenerationsEdits 编辑 VariationsLanguage-specific tips 特定语言提示Python 语言Using in-memory image data 使用内存中的图像数据Operating on image data 操作图像数据Error handling Node.js 语言Us…

utools 效率桌面工具

我们平时可能需要各种工具插件辅助我们进行开发工作,以此来提高效率,例如翻译插件,变量命名,json格式转换,postman、mock等等 但是这些插件可能遍布于各种平台,例如浏览器,编辑器或者桌面应用…

utools的安装与安装路径更改

utools的安装与安装路径更改 utools简介下载utools更改utools的安装路径 utools简介 uTools your tools(你的工具集) uTools 是一个极简、插件化的现代桌面软件,通过自由选配丰富的插件,打造得心应手的工具集合。 通过快捷键&am…

快速启动的效率工具utools工具使用

说明 最近看到一个快速启动的效率工具utools,个人使用下来挺好的,在这里记录一下。 安装utools 参考: uTools官网:https://u.tools 简单使用 通过鼠标中键可以换出快捷菜单 使用altEnter可以换出工具,输入想要…

utools 找不到本地应用

问题描述 现在我使用utools没有查到本地的软件,因为这个软件貌似是免安装的 解决方法 1.复制文件 2.打开utools 实现效果

utools快速上手使用心得

今天给大家推荐一个让你觉得相见恨晚的工具——utools 这是一个好用的桌面工具插件!电脑高效生产力工具集、手把手教你提高效率——utools的使用 uTools丨高效解决工作中的大小问题、必看!打工人如何用utools提升效率,越早用越早下班 特别适合 做笔记&#xff0…

utools插件开发之监听按键的命令和状态

本篇文章主要讲解utools插件开发,监听按键命令的方法 作者:任聪聪 前提说明 1.utools没有自带的监听enter等按键的api 2.utools赋值需要通过js的全局变量来复制 enter接收参数 在js端中进行接收 赋值需要在preload.js 实际效果 输入内容sddd 按…

uTools入门小结

文章目录 简介使用教程演示软件安装键盘交互文件搜索呼出uTools退出uTools粘贴对应资源弹出匹配工具模糊打开应用网页快开功能剪切板历史图片自动识别 鼠标交互翻译 偏好设置 其他插件markdownJSON格式化工具 一步到位功能安装一步到位推荐安装插件插件推荐端口号查询插件WiFi密…

Cusor+Utools辅助编程

代码自动生成工具Cusor与ChatGPT的深度结合在现代软件开发过程中,代码自动生成工具的应用越来越广泛。它可以提高开发效率,减少重复机械劳动,让开发人员更加关注设计和问题解决。 Cusor是一个开源的代码自动生成工具,它可以根据用户的自然语言描述自动生成对应代码框架…

uTools 效率工具 - chatGPT

uTools 效率工具-chatGPT插件 今天分享一个可以免费使用chatGPT免费版的一个软件,更是一个插件!! 里面包含大量插件,是一个插件市场!! 一、简介 什么是uTools? uTools是一款插件化&#xff0…