类似于ChatGPT的语言模型已被应用于改进针对COVID-19、埃博拉和其他病毒的抗体疗法。
代码看不懂?ChatGPT 帮你解释,详细到爆!
单克隆抗体(Y形)与SARS-CoV-2病毒纤突蛋白(红色)上的结合位点(艺术家的创作)。来源:Juan Gaertner/Science Photo Library。
在疫情高峰期间,研究人员争分夺秒地开发了针对COVID-19的首批有效治疗“药物”:从康复者血液中分离出的抗体分子。
科学家已经证明,生成式人工智能(AI)可以快速获得效价更强的病毒(如SARS-CoV-2和埃博拉病毒)抗体序列,为耗时费力的抗体筛选提供了捷径。该成果发表在《Nature Biotechnology》杂志上,将类似于ChatGPT AI平台的"神经网络"应用于抗体设计,这是AI在蛋白质工程领域应用的一部分。
每年包括乳腺癌和类风湿性关节炎在内的疾病抗体药物在全球销售额超过1000亿美元。研究人员希望,生成式AI(可以根据学习的模式创建文本、图像和其他内容的神经网络)将加速开发,促进对受传统设计方法所限的靶向抗体药物的研发。
“人们对发现和改造抗体以及如何使抗体效价更高有着浓厚的兴趣,”加利福尼亚州斯坦福大学的生物化学家Peter Kim说道,他是《Nature Biotechnology》论文的作者之一。
免疫武器(Immune weapons)
抗体是免疫系统对抗感染的关键武器之一。这些蛋白质备受生物技术产业的青睐,部分原因是它们可被设计改造为与几乎任何可以想象的蛋白质结合,以调控其活性。但是生成具有有效性能的抗体并在这些基础上进行改进涉及到“大量的低效且耗时的筛选”,斯坦福大学的计算生物学家Brian Hie说,他是这项研究的共同负责人。
为了探索生成式AI工具能否削减一些繁重的工作,Hie、Kim以及他们的同事使用了名为蛋白质语言模型的神经网络。这些模型类似于构成ChatGPT等工具基础的“大型语言模型”。但是,蛋白质语言模型不是被输入大量文本,而是在数千万个蛋白质序列上训练而得。
其他研究人员已经使用这样的模型设计了全新的蛋白质,并实现高精度地预测蛋白质的结构。Hie的团队使用了由位于纽约市的科技巨头Meta旗下的Meta AI的研究人员开发的蛋白质语言模型,为抗体序列推荐少量的突变。
这个模型学习了近1亿个蛋白质序列,只在其中几千个抗体序列中进行了训练。尽管如此,该模型计算得出的抗体序列中有出乎意料的高比例可以增强针对SARS-CoV-2、埃博拉和流感病毒的抗体与其目标的结合能力。
对于已获批用于治疗埃博拉病毒的疗法和一种COVID-19治疗方法进行了改进,提高了这些抗体分子识别并阻止病毒用于感染细胞的蛋白质的能力。(这种针对COVID-19的抗体对Omicron及其子变异体无效,Hie说,AI引导的改变也不太可能恢复有效性。)
Kim表示,许多建议的抗体改变发生在与其靶标相互作用的蛋白质的区域之外,这通常是抗体工程努力的焦点。他补充说:“该模型正触及到一些信息,即使是抗体工程领域的专家通常也难以理解。对我来说,这是一个‘哇塞,这里到底发生了什么?’的时刻。”
全新蛋白质(Completely new proteins)
“这是一个人们将用来改进他们的抗体的工具,”英国牛津大学的免疫信息学研究员Charlotte Deane说。“我认为这真的很酷。”但她补充说,许多研究人员希望生成式AI不仅能简单地改进现有的抗体,还能完全创造出新的抗体来结合既定的目标。
Nabla Bio的联合创始人Surge Biswas说,这种能力可以帮助研究人员开发针对其他抗体设计方法难以作用的分子靶点的药物。Nabla Bio是一家总部位于马萨诸塞州波士顿的公司,致力于解决这一挑战。
例如,AI可以帮助解决G蛋白偶联受体等一系列蛋白质的设计问题。G蛋白偶联受体是一类嵌入在细胞膜中的蛋白质家族,与神经系统疾病、心脏病和许多其他疾病有关。Biswas说,生成式AI也可以帮助设计能够结合多个靶点的抗体药物,如肿瘤蛋白和可以杀死这种肿瘤的免疫细胞。
斯坦福大学的生物工程师Possu Huang说,蛋白质语言模型非常强大,对现有蛋白质(包括抗体)的优化非常出色。但是,仅在蛋白质序列上训练的模型可能难以完全创造出可以识别指定蛋白质的全新抗体。
研究人员表示,他们正取得进展。华盛顿州温哥华的生物技术公司Absci于3月份在bioRxiv server上发布的预印本中报告称,他们已经取得了使用AI创造新抗体的第一步。通过结合蛋白质序列和实验数据的模型,他们为用于治疗乳腺癌的一种抗体药物的几个重要区域生成了新设计。
设计全新抗体的一个重要挑战是它们识别特定目标的能力依赖于抗体结构中的松弛环(floppy loops)。研究人员说,这些相互作用已经证明很难用AI来建模。
去年,Huang的团队开发了一个生成式AI工具,以创造出能够通过松弛环结构强烈结合指定目标的蛋白质(例如蛇毒)。Huang说,同样的方法可以帮助创造全新的抗体,但这可能需要比目前可获得的关于抗体与靶点的相互作用的数据更多。
“我认为没有人真正解决了这个问题,”Biswas补充道。
自然进化必须探索大量可能的序列以获得具有有利但罕见突变的机制,这表明学习自然进化策略可能指导人工进化。在这项研究中,我们报告了常规的蛋白质语言模型能有效地通过建议演化可行的突变来进化人类抗体,尽管该模型没有提供任何关于目标抗原、结合特异性或蛋白质结构的信息。我们使用语言模型指导亲和力成熟化对七种抗体进行了进化,仅在两轮实验室进化中对每种抗体筛选获得了20个或更少的变体,将4种临床相关的高度成熟抗体的结合亲和力提高了7倍,将3种未成熟抗体的结合亲和力提高了160倍,同时许多设计还表现出有利的热稳定性和对埃博拉病毒和严重急性呼吸综合症冠状病毒2(SARS-CoV-2)假病毒的病毒中和活性。提高抗体结合的模型还可以指导在不同的蛋白质家族和选择压力下高效地进化,包括抗生素抗性和酶活性,表明这些结果具有广泛的适用性。
阅读原文内容:
https://www.nature.com/articles/d41586-023-01516-w
查看原文信息:
https://doi.org/10.1038/s41587-023-01763-2
往期精品(点击图片直达文字对应教程)
机器学习
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集