大语言模型如何助力药物开发? 哈佛George Church Lab最新综述

大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目,此外,它在化学、生物学等专业领域也展现出深厚的理解能力,进一步提升了其应用价值。本文阐述大语言模型可以在理解疾病机制、药物发现和临床试验三个药物发现的基本阶段展现出重要潜力。

图片

首先,本文展示了过去、现在的药物研发与临床试验中的过程并展现了大语言模型(LLMs)未来在这些阶段的潜在应用。

理解疾病机制:

  • 过去:依赖手动文献和专利搜索。
  • 现在:除了手动文献搜索,还加入了功能基因组学分析。
  • 未来:LLMs将自动识别靶基因,发现生化和药理学原理。

药物发现:

  • 过去:通过天然产物的发现和随机筛选进行药物研发。
  • 现在:使用虚拟筛选和基于结构的手动药物设计。
  • 未来:LLMs将设计新型治疗方法,自动生成药物设计,并自动进行实验。

临床试验:

  • 过去和现在:手动匹配病人与试验、设计临床试验以及收集临床试验数据。

  • 未来:LLMs将自动进行病人匹配、试验设计,并预测试验结果。

01

大语言模型的分类

图片

本文将大语言模型分为两类: 科学大语言模型(Scientific Language Model)一般大语言模型(General Language Model)。两者的对比和差异如下:

科学大语言模型

  • 领域:涉及化学(分子)、生物学(蛋白质、基因)等专门领域。
  • 训练数据:包括化学中的SMILES、IUPAC序列,蛋白质的FASTA序列,基因的FASTA序列等。
  • 任务解决能力:能够处理分子、蛋白质、基因相关的任务,如逆合成规划、反应预测、分子设计、蛋白质结构预测、基因网络分析等。
  • 工具型使用:作为工具,通过获取任务所需信息,生成预测结果(如蛋白质-配体结合亲和力评分)。

通用语言模型

  • 领域:基于更广泛的文本数据,如书籍、互联网、社交媒体等。
  • 训练数据:包括书籍、问答网站、社交媒体、百科等来源。
  • 人类式能力:具备理解背景知识、推理、角色扮演(如化学家)、规划、使用工具和信息检索等能力。
  • 助手型使用:可以像助手一样与用户互动,回答问题、解释复杂概念并帮助用户完成任务。

02

大语言模型在理解疾病机制中的作用图片

这张图表分为两部分,左边展示了疾病研究的关键流程,右边展示了大语言模型(LLM)在这些流程中的具体应用领域。

左侧:疾病研究流程

  1. 临床分型(Clinical Sub-typing)

    • 通过多组学数据的收集(如基因、蛋白质、代谢组等),结合临床分析和伦理法规要求,对疾病进行分型。目的是更好地理解疾病的异质性,从而为后续的靶点发现打下基础。
  2. 靶点-疾病关联(Target-Disease Linkage)

    • 通过基因表达谱分析、多通路分析等方法,结合实验工具(如CRISPR-Cas9、RNA干扰等),寻找并验证疾病与潜在治疗靶点的关联性。这一步对于药物开发至关重要。
  3. 靶点验证(Target Validation)

    • 验证靶点的安全性与可行性,评估其药物开发潜力。涉及靶点安全、药物可及性(Drugability)和测试可行性。靶点的作用机制(如激动剂、拮抗剂、调节剂等)也会在这一阶段进行确认,从而选择合适的治疗方式,如蛋白质、小分子或RNA治疗。

右侧:LLM的应用领域

  1. 基因组分析(Genomics Analysis)

    • LLM可以帮助预测基因变异、启动子区域、转录因子结合位点等信息,从而帮助科研人员在基因组层面理解疾病机制。
  2. 转录组分析(Transcriptomics Analysis)

    • LLM可以处理mRNA表达分析、基因网络分析等复杂数据,辅助研究人员挖掘重要的转录组信息,了解基因的调控模式和表达差异。
  3. 蛋白质靶点分析(Protein Target Analysis)

    • LLM能够预测蛋白质结构、功能注释、蛋白质间相互作用以及配体结合位点等信息,帮助科研人员选择潜在的药物靶点。
  4. 疾病通路分析(Disease Pathway Analysis)

    • LLM在疾病通路分析中能够分析蛋白质与疾病之间的复杂相互作用,识别潜在的治疗靶点和干预途径,从而加速药物开发过程。
  5. 辅助功能(Assistance)

    • LLM还可以提供知识发现、信息检索等辅助功能,帮助科研人员快速获取相关信息,加快研究进程。

03

大语言模型在药物发现中的作用

图片

这张图分为两部分,左边展示了药物发现的过程,右边展示了大语言模型(LLM)在药物发现各阶段的具体应用。

左侧:药物发现过程

  1. 药物类型选择

    • 科学家可以选择不同的治疗方式,包括蛋白质小分子药物RNA。该图以小分子药物为例,展示了它们在药物开发中的应用。
  2. 药物发现流程

    • 命中识别(Hit Identification):通过筛选大量化合物,找到与靶点有初步反应的分子。
    • 命中到先导(Hit to Lead):进一步优化这些初步命中分子,以提高其与靶点的结合能力。
    • 先导优化(Lead Optimization):对先导化合物进行结构改造,增强其疗效和药物特性。
    • 临床前研究(Pre-clinical):在进入临床试验前,评估候选药物的安全性和有效性。
    • 药物候选物(Drug Candidates):通过上述流程,产生最终可供临床试验的候选药物。

右侧:LLM的应用领域

  1. 化学领域(Chemistry)

    • LLM可以用于化学机器人自动化合成、逆合成规划和反应预测等任务,帮助化学家加速化合物的发现。
  2. 计算机模拟(In Silico Simulation)

    • LLM能够进行分子生成蛋白质生成蛋白质-配体相互作用预测,从而加快虚拟药物筛选过程。
  3. ADMET预测

    • LLM能够预测候选药物的药代动力学(Pharmacokinetics)、毒性(Toxicity)和理化性质(Physicochemical Properties),帮助评估药物在人体中的行为。
  4. 先导优化(Lead Optimization)

    • LLM能够通过优化分子结构和蛋白质相互作用,帮助改进候选化合物的疗效和安全性。
  5. 辅助功能(Assistance)

    • LLM还可以提供信息检索和知识解释,帮助研究人员快速获取所需信息,提升药物开发的效率。

04

大语言模型在临床试验中的作用

图片

这张图表左侧展示了临床试验的不同阶段,右侧展示了大语言模型(LLM)在这些阶段中的应用。

左侧:临床试验阶段

  1. 第一阶段(Phase 1)

    • 主要测试药物的安全性和最佳剂量水平。通常在15到50名健康志愿者中进行。
  2. 第二阶段(Phase 2)

    • 探索药物的有效性以及可能的副作用,参与人数通常少于100人。
  3. 第三阶段(Phase 3)

    • 将新治疗与现有治疗进行比较,验证新药物的效果,通常有超过100人参与。
  4. 第四阶段(Phase 4)

    • 药物获批后,评估其长期效果,通常有超过1000名参与者。

右侧:LLM的应用领域

  1. 临床实践(Clinical Practice)

    • ICD编码:帮助生成和优化疾病分类编码。
    • 病人-试验匹配:通过分析患者特征,自动匹配合适的临床试验。
    • 临床试验预测:预测临床试验的成功率和结果。
    • 临床试验规划:协助研究人员制定有效的临床试验计划。
  2. 患者结果(Patient Results)

    • 患者结果预测:根据现有数据预测患者治疗的效果。
  3. 辅助功能(Assistance)

    • 文件撰写:帮助生成临床试验相关文件和报告。
    • 信息检索:快速查找和整理与试验相关的信息。
    • 知识解释:对复杂的医学或药物信息进行解释,方便研究人员和医生理解。

05

成熟度评估: 大语言模型在药物研发的应用

图片

这张图表展示了两种类型的大语言模型的应用成熟度:科学大语言模型(Specialized LMs)一般大语言模型(General LMs),分别在理解疾病机制、药物发现和临床试验中的应用情况。应用成熟度分为四个等级:新生期、进展期、成熟期以及不适用(N/A):

不适用(Not Applicable)

  • 该类大语言模型(LLM)的应用不适合或与给定的下游任务无关。在这种情况下,LLM的范式不被认为是有效或相关的工具。

新生期(Nascent)

  • 该类大语言模型的范式已被初步应用于任务,通常是在计算机模拟环境(in silico)中,但缺乏通过实际实验验证的支持。此阶段的应用更多是理论上的或初步探索,尚未经过现实场景中的测试。

进展期(Advanced)

  • 该类大语言模型的应用已经超越了理论,经过了实际场景中的实验验证。这些实验结果表明,LLM在现实中可以在特定的任务中起到一定的作用,但可能还未广泛部署。

成熟期(Matured)

  • 该类大语言模型的应用已被集成到实际的工作环境中,如医院或制药公司,且有明确证据表明其在这些环境中的有效性和实用性。在这个阶段,LLM已被广泛使用,并产生了显著的实际成果。

理解疾病机制(Understanding Diseases Mechanism)

  • 基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)、蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):

    • 基因组分析(Genomics Analysis)、转录组分析(Transcriptomics Analysis)主要还处于早期
    • 蛋白质靶点分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已经处于较为成熟的阶段

药物发现(Drug Discovery)

  • 化学实验(Chemistry Experiment)、计算机模拟(In-silico Simulation)、ADMET预测(ADMET Prediction)、先导优化(Lead Optimization):

    • 两种模型在药物发现的各个环节中的成熟度也大多为进展期。其中,计算机模拟和ADMET预测的进展较快,有潜力进一步推动药物开发。

临床试验(Clinical Trial)

  • 临床试验实践(Clinical Trial Practice)、患者结果预测(Patient Outcome Prediction)

    • 大语言模型在这些任务上都已经被实际应用。

06

未来方向

未来大语言模型(LLM)在药物发现和开发中的应用方向集中在九个关键领域的改进上。首先,需要加强LLM对生物学知识的整合,包括对分子生成、临床试验数据以及科学术语的准确理解和操作。其次,需要解决伦理、隐私及模型误用的问题,确保数据的安全性并防止潜在的滥用。此外,还需关注公平性和偏见问题,避免模型在不同群体中的不平等表现。

其他方面的改进包括解决LLM生成虚假信息(即“幻觉”)的挑战,提升多模态处理能力,扩展上下文窗口以应对海量生物数据,以及增强对时空数据的理解,特别是在分子动力学模拟等领域。最后,整合专业化LLM和通用LLM的能力,以实现更精确的科学任务处理与广泛的用户交互,推动药物研发的自动化与高效化

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/423452.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【西电电装实习】5. 无人机模块及作用、上位机的操作

文章目录 前言一、硬件结构电源、电源电压测试电路晶振外围陀螺仪信号放大电路及天线空心杯(电极)驱动电路 软件设置整机装配PID 参数设置公式 参考文献 前言 西电电装实习,无人机原理图、上位机的调节方法 一、硬件结构 电源、电源电压测…

UEFI学习笔记(二):edk2构建编译流程

UEFI入门(二):edk2项目编译流程 一、Build流程框架Build的三个阶段:1、Autogen2、Make3、ImageGen 二、编译构建步骤:1. 安装依赖工具2. 初始化构建环境3. 配置工具链和目标4. 定义平台配置5. 构建并编译 三、uefi-too…

C++面试3

一、常用设计模式 https://blog.csdn.net/m0_71530237/article/details/141140118?spm1001.2014.3001.5501 二、死锁以及解决方式? 死锁:一种常见的并发问题,发生在多个进程或线程因为竞争资源而陷入相互等待的状态,导致这些进…

【运维监控】Prometheus+grafana监控flink运行情况

运维监控系列文章入口:【运维监控】系列文章汇总索引 文章目录 一、prometheus二、grafana三、flink配置修改四、prometheus集成grafana监控flink1、修改prometheus配置文件2、导入grafana模板3、验证 本示例通过flink自带的监控信息暴露出来,然后将数据…

提权——Linux

一、系统漏洞提权 #kali的nmap命令 nmap -O 目标ip 通过当前系统的内核版本搜索当前系统的漏洞,进行利用 搜索漏洞 对linux系统的漏洞进行利用(脏牛、脏管道等) 利用漏洞搜索工具,搜索当前系统是否存在一些漏洞 linux-exp…

人工智能学习

🌐前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。 👉【点击跳转到网站:人工智能教程】 什么是人工智能?通俗来讲,就是让机器能像人一样思考。这…

vue3 5个常用的API

Vue3之于Vue2最大的变化,当属composition API了,而除了引入composition API外,一些我们在Vue2上经常使用的东西到了Vue3时也发生了不小的变化,本文将介绍一些有Vue2到Vue3中几个比较重要且常用的知识点。 Options API与Compositio…

世界主要国家跨境数据流动的政策法规及其启示

文章目录 前言一、主要国家加强跨境数据流动的监管措施二、全球跨境数据流动的关键问题三、中国跨境数据流动治理的不足与对策前言 随着数据成为全球经济发展的战略资源,各国政府正积极构建安全有效的治理体系,以扩大数据的社会和经济效益,探讨世界主要国家跨境数据流动的政…

3D云渲染农场为何怎么贵?主要消耗成本介绍

随着对高质量3D动画的需求持续增长,云渲染农场对于旨在以高效速度生产高质量视觉效果的工作室来说变得至关重要。然而,用户经常想知道为什么渲染农场的价格如此之高,理解背后的原因可以帮助艺术家做出更好的选择。 什么是云渲染农场&#xff…

基于Spring Boot的能源管理系统+建筑能耗+建筑能耗监测系统+节能监测系统+能耗监测+建筑能耗监测

建筑能耗数据采集器是一种采用嵌入式微计算机系统的建筑能耗数据采集专用装置,具有数据采集、数据处理、数据 存储、数据传输以及现场设备运行状态监控和故障诊断等功能。 下行具有2路RS485接口、2路RS485/RS232复用接口、1路MBUS接口,支持DL/T645、Modb…

深度学习经典模型之T5

T5(Text-to-Text Transfer Transformer) 是继BERT之后Google的又外力作,它是一个文本到文本迁移的基于Transformer的NLP模型,通过将 所有任务统一视为一个输入文本并输出到文本(Text-to-Text)中,即将任务嵌入在输入文本中,用文本的…

机器学习(西瓜书)第 4 章 决策树

4.1 决策树基本流程 决策树模型 基本流程 在第⑵种情形下,我们把当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别;在第⑶种情形下,同样把当前结点标记为叶结点,但将其类别设定为其父结点所含样本最多…

Maven私服Nexus安装及使用

前言 周末在家闲着无聊,不知道做点啥,就想着自己搭建一个Maven私服来玩玩。刚好使用自己之前在电脑上搭建的虚拟机服务器来操作体验了一把。搭建好私服后,以后自己写的一些小模块啊,工具包啥的就可以发布到自己的私服上了&#xf…

2024网络安全人才实战能力白皮书安全测试评估篇

9月10日,国内首个聚焦“安全测试评估”的白皮书——《网络安全人才实战能力白皮书-安全测试评估篇》(以下简称“白皮书”)在国家网络安全宣传周正式发布。 作为《网络安全人才实战能力白皮书》的第三篇章,本次白皮书聚焦“安全测…

上海市高等学校信息技术水平考试 C程序设计(2020D场)全解

C语言程序一定是从mian函数开始的;在主函数中,一次又一次调用了其他函数,但不代表程序是在代码行的最后一个函数结束;而是在主函数中,遇到了return 0 才会程序结束。 标识符:在编程语言中,标识符…

Ubuntu下安装最新版本Apache2文件服务器

文章目录 1.最新版本Apache2安装2. Apache2配置2.1 端口配置2.2 创建软连接,生成文件服务2.3 隐藏Apache2服务版本号2.4 添加用户,设置Apache2文件服务密码2.5 重启Apache2服务 3. 执行后效果 1.最新版本Apache2安装 注意:安装最新版本必须升级Ubuntu为2…

【鸿蒙】HarmonyOS NEXT星河入门到实战6-组件化开发-样式结构重用常见组件

目录 1、Swiper轮播组件 1.1 Swiper基本用法 1.2 Swiper的常见属性 1.3 Swiper的样式自定义 1.3.1 基本语法 1.3.2 案例小米有品 2、样式&结构重用 2.1 Extend:扩展组件(样式、事件) 2.2 Styles:抽取通用属性、事件 2.3 Builder:自定义构建函数(结构、样式、事…

CentOS 7停更官方yum源无法使用,更换阿里源

CentOS 7官方源已经停止维护,导致无法使用yum更新软件。通过尝试使用阿里云、清华大学等第三方源解决,现以阿里云第三方源进行配置: 1、备份原有的yum源配置文件 # cp -a /etc/yum.repos.d /etc/yum.repos.d.bak 2、删除原有的yum源配置文…

基于鸿蒙API10的RTSP播放器(五:拖动底部视频滑轨实现跳转)

拖动前播放位置: 拖动后播放位置: 在Slider组件中,添加onChange方法进行监听,当视频轨道拖放结束时,触发this.seekTo()函数,其中seekTo函数需要传递一个视频已播放时长作为参数 Slider({ value: this.p…

基于Neo4j知识图谱的构建及可视化

基于Neo4j知识图谱的构建及可视化 前言 手把手教你基于Neo4j构建知识图谱可视化系统。有任何疑问或者需要提供帮助都可以私信我。 一、环境搭建 1.1 安装JDK 下载和安装Neo4j之前,首先必须 安装Java JDK,因为Neo4j是基于Java的图形数据库&#xff0c…