浙大团队撰写75页科学语言大模型综述,全面梳理Sci-LLMs最新研究进展

7a5495f578c80fc06baa6005b405d3d1.gif

大型语言模型(LLMs)已成为推动自然语言理解能力变革的关键力量,标志着人工智能通用性方面的重大突破。LLMs 的应用已超越传统自然语言的范畴,覆盖了各类科学学科中开发的专用科学语言系统,从而推动了科学语言大模型(Sci-LLMs)的诞生。

作为科学人工智能领域的崭新方向,Sci-LLMs 值得深入研究。然而,目前关于 Sci-LLMs 的进展调查尚属不足。本综述从生命科学和物质科学等视角,围绕生物和化学两个领域全面回顾和梳理了 Sci-LLMs 的最新进展,着重分析了针对文本科学知识、小分子化合物、大分子蛋白质、基因组序列以及多模态科学数据的 LLMs,共计 75 页,引用了 300 余篇参考文献。

综述由浙江大学杭州国际科创中心生物与分子智造研究院 AI 交叉中心团队组织撰写,参与人员来自浙江大学计算机科学与技术学院、浙江大学化学与生物工程学院、浙江大学药学院、之江实验室等多个跨学科单位。

c9c57e4a1551b762c03d674972a10bc2.png

论文链接:

https://arxiv.org/pdf/2401.14656.pdf

相关文献列表:

https://github.com/HICAI-ZJU/Scientific-LLM-Survey

33832ce8e4c9c4273789b45282fcf803.png

▲ 图1. 分子、蛋白、基因语言的示例图

这篇综述系统地回顾了 Sci-LLM 的技术发展,从生物化学领域研究方向出发,全面总结了五个具体研究主题:

  • 文本科学大语言模型

  • 分子大语言模型

  • 蛋白质大语言模型

  • 基因组大语言模型

  • 多模态科学大语言模型

每个主题都分别从模型、数据集、评估、总结四个方面展开描述。

d456e6b7c3715bda4e6066176a68fef8.png

▲ 图2. 本综述的Sci-LLMs研究范围

2f25e1ae39633af42bb6cc2a5710a4f3.png

▲ 图3. 本综述的科学大语言模型的进化树

552c87b7335a8e1113c1c237fcf441d4.png

文本科学大语言模型

该综述首先深入探讨了文本科学大语言模型(Text-Sci-LLM),如图 4 所示。所谓文本科学大语言模型,是指使用专业文本语料库(如科学文献)训练得到的模型。该章节主要从生物和化学领域出发,描述了多个相关模型,数据集和评估方法,并采用了一种名为 KnowEval 的评估方法,考察在基础知识,专业知识和创新知识方面的能力。

f4cef1cb5b804e224c7c34515f26d4d5.png

▲ 图4. 文本科学大型语言模型概述

42c27425bb5c8693ffe4f9836da3366c.png

分子大语言模型

该综述提供了对分子语言大模型(Mol-LLM)的概述,如图 5 所示,包括各种模型及功能,使用的数据集和评估标准。模型方面列举了诸多基于不同架构的分子语言模型,重点关注这些模型如何解释和处理化学语言,然后从预训练和 benchmark 两个方面对数据集进行整理,此外还通过分子性质预测、相互作用预测、反应预测和分子生成对模型进行评估,尤其是对分子生成领域提供了关键的评估指标。

931222fc7c9a0a5cd27436e5247d2180.png

▲ 图5. 分子大语言模型概述

3d832381b5f656c8ea2ad19395a4827f.png

蛋白质大语言模型

该综述回顾了蛋白质语言大模型(Prot-LLM)的进展,如图 6 展示。在过去数年里,大语言模型在蛋白质研究领域取得了重要突破,为深入理解及操控蛋白质提供了新的技术。本章节首先整理并分析了基于不同架构的蛋白质语言模型,然后列举了广泛使用的数据集,最后阐述了评估方法,包括结构/功能预测和序列设计,为蛋白质模型的进一步发展提供重要的技术支持。

728ff3c552dea79cd1cb2c7e3ce50779.png

▲ 图6. 蛋白质大语言模型概述

05498530339bda9fc1f8aeda7d1a8055.png

基因大语言模型

该综述中还探讨了基因语言大模型(Gene-LLM)在计算生物学领域的发展,如图 7 所示。本章节对 Gene-LLM 的模型架构、数据集和评估方法进行了详细介绍。文中深入探讨了这些模型在计算生物学中用于分析 DNA 和 RNA 序列的应用,强调了这些模型在理解基因功能、预测染色质谱、剪接位点、结合位点及结构的重要性,并阐述了它们在序列生成、分析序列变异和进化方面的能力。

3613375b1ea8cd53d01fa83918e51c14.png

▲ 图7. 基因组大语言模型概述 

e079f74d266188fc2911d532c85e85b6.png

多模态科学大语言模型

最后,该综述深入探讨了集成多种科学语言的多模态科学大模型(MM-Sci-LLMs),涵盖文本、分子、蛋白质及基因等多种模态。本章节对这些模型的架构设计和能力进行了详细分析。同时,审视了训练和评估模型所需的数据集,并指出了模型评估的关注要点。多模态科学大模型融合了多种科学语言的交互,是当前 Sci-LLMs 领域的研究热点。

0d28b6c6c83b1119fb19b829ecdb57f7.png

▲ 图8. 多模态大语言模型概述

b3f08b669f10a88ea4df0adcc882fcc1.png

研究挑战

尽管过去的研究在科学大语言模型(Sci-LLMs)领域取得了显著成果,但不可否认的是,这一领域仍处于初级阶段。本文对现有研究进行了深入审查,提出了尚待解决的几个关键挑战。

1. 训练数据:数据是人工智能模型开发的基础。本文认为,预训练数据集的规模、微调数据集的质量和跨模态数据集的匮乏是影响该领域增长和有效性的关键因素。

2. 模型架构和学习目标:尽管大多数 LLMs 依赖基于 Transformer 的架构来学习语言中的语义相关性,但这种方法对 Sci-LLMs 可能不是最优的。首先,科学语言通常包含比常规自然语言句子更长的序列;其次,当前的语言模型难以明确包含关键的 3D 结构信息;最后,自然语言通常以自回归方式生成,然而,Sci-LLMs 的理想学习目标应允许模型从整个序列中捕获语义信息来生成。

3. 模型评估:对科学大模型的有效评估一直是研究难点。尽管本文列举了诸多计算指标,可以为生成的蛋白质或分子提供质量评估。然而这些指标并不是决定性的,实验室中的湿实验仍然是验证的黄金标准,但它们通常超出许多 AI 研究团队的范围和能力。这一差距凸显了迫切需要更强大、更可靠的计算评估和基准测试系统。

4. 伦理问题:在开发和应用 Sci-LLMs 时,考量伦理问题至关重要的,特别是在处理敏感的生物数据时,需要严格的控制措施。此外,与常规的大语言模型类似,Sci-LLMs 也可能会加剧其训练数据中所存在的偏见,从而导致科学研究结果产生偏差。

799411e4bf2596a8d112126f3eab4f0e.png

未来展望

为推动人工智能驱动的科学发现,文章提出了以下七个关键研究方向: 

1. 构建更大规模、高质量和跨模态的训练数据集; 

2. 将 3D 结构和时间信息集成到基于语言的建模方法中; 

3. 探索 Sci-LLMs 与外部知识的协同作用; 

4. 结合物理模拟 (Physical Simulation);

5. 使用专业工具(Tools)和智能体(Agents)增强 Sci-LLMs;

6. 开发 Sci-LLMs 的评估工具和基准; 

7. Sci-LLMs 与人类价值观的超级对齐(Super-alignment)。 

这篇综述对科学大语言模型在生物化学领域的发展进行了系统回顾。文章阐述了科学语言的基本概念,包括科学文本、分子、蛋白质和基因,并深入研究了各类科学语言特点,分析了 Sci-LLMs 的最新进展,包括深入探讨模型架构、功能、数据集和评估方法。最后,确定了四个关键挑战,并提出了多个具有前景的研究方向。本综述旨在为人工智能和生命科学、物质科学等交叉领域提供全面的资源,促进合作,推动“人工智能助力科学”(AI for Science)的发展。

AI交叉中心团队简介

浙江大学杭州国际科创中心生物与分子智造研究院 AI 交叉中心团队致力于大型语言模型和知识图谱等新兴通用人工智能技术在合成生物、分子材料、生命健康等领域的应用研究。近年来与多学科团队合作开展AI科学交叉研究,先后提出化学元素知识图谱 ElementKG、基于“知识增强+提示学习”的分子图对比学习 KANO、知识增强的蛋白质预训练模型 OntoProtein、多层次提示增强的蛋白质预训练模型 PromptProtein、基于知识指令的文本-蛋白质跨模态大模型 InstructProtein、面向单细胞转录组学数据分析的图神经网络模型 scDeepSort、细胞通信知识图谱关联推断模型 SPATalk 等等。近两年在 Nature  Machine  Intelligence、Nature Communications 等发表多篇 Nature 子刊论文,以及在 NeurIPS、ICML、ICLR、AAAI、IJCAI 等人工智能顶会发表多篇 AI  for  Science 研究论文。

团队GitHub主页:

https://github.com/HICAI-ZJU

近期部分论文:

● Knowledge graph-enhanced molecular contrastive learning with functional prompt, Nature Machine Intelligence, 2023.

● Direct prediction of gas adsorption via spatial atom interaction learning, Nature Communications, 2023.

● Learning Invariant Molecular Representation in Latent Discrete Space, NeurIPS, 2023. ● Newton-Cotes Graph Neural Networks: On the Time Evolution of Dynamic Systems, NeurIPS, 2023.

● Multi-level Protein Structure Pre-training with Prompt Learning, ICLR, 2023.

● Graph Sampling-based Meta-Learning for Molecular Property Prediction, IJCAI, 2023.

● Knowledge-graph-based cell-cell communication inference for spatially resolved transcriptomic data with SpaTalk, Nature Communications, 2022.

● De novo analysis of bulk RNA-seq data at spatially resolved single-cell resolution, Nature Communications, 2022.

● OntoProtein: Protein Pretraining With Gene Ontology Embedding, ICLR, 2022.

● Molecular Contrastive Learning with Chemical Element Knowledge Graph, AAAI, 2022.

更多阅读

b292d11a316acd03f566092aa829cbff.png

f6d4d2b4d5c07c823fc9a96f2dae1cc9.png

9a20b4d06271b46cde3c6dd8a3f4aaa0.png

2ea7ad5df33eda5dbeb091df8eb2dcc7.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

47dde69c12be40f8cbb797a0c5f85924.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

f837e4e74e9c1c3845cbedd6999a008d.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/249007.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式学习第十四天

1.结构体(2): (1)结构体类型定义 (2)结构体变量的定义 (3)结构体元素的访问 (4)结构体的存储: 内存对齐: char 按照1字节对齐 …

Coppeliasim倒立摆demo

首先需要将使用Python远程控制的文件导入到文件夹,核心是深蓝色的三个文件。 本版本为4.70,其文件所在位置如下图所示,需要注意的是,目前不支持Ubuntu22的远程api: 双击Sphere这一行的灰色文件,可以看到远程…

【Redis】理论基础 - 概览

文章目录 1. 定义2. 主要特性1)内存存储2)数据结构多样性3)持久化4)主从复制5)事务支持 3. 使用场景1)缓存2)消息队列3)实时统计与计数4)分布式锁 总结 Redis&#xff08…

探索设计模式的魅力:精准解读桥接模式-用桥接模式构建可扩展的软件系统

设计模式专栏:http://t.csdnimg.cn/nolNS 目录 一、了解桥接模式:探索抽象和实现的分离 1.1 开-闭原则 1.2 组合/聚合复用原则 1.3 定义 1.4 用意 1.5 基本思想 1.6 组成部分 1.7 桥梁模式的示意性系统的结构图 二、桥接模式的优势&#xff1a…

android远程投屏应用

客户端app地址:https://gitee.com/youzilzk/blue1.git 服务端地址:https://gitee.com/youzilzk/blue-server1.git 一。服务端部署 1.安装postgres 2.导入项目下blue.sql文件 3.修改配置application.properties和config.properties,其中applic…

Qt 基础之QDataTime

Qt 基础之QDataTime 引言一、获取(设定)日期和时间二、时间戳三、时间计算 (重载运算符) 引言 QDataTime是Qt框架中用于处理日期和时间的类。它提供了操作和格式化日期、时间和日期时间组合的功能。QDataTime可以用于存储和检索日期和时间、比较日期和时间、对日期和时间执行算…

Mac删除自带的ABC输入法,简单快捷

一、下载PlistEdit Pro软件 二、终端执行 sudo open ~/Library/Preferences/com.apple.HIToolbox.plist 三、其中有一个数字下面的KeyboardLayout Name的value为“ABC”,这就是ABC输入法,点击上面的Delete按钮,删除整项ABC内容&#xff0c…

2023强网杯复现

强网先锋 SpeedUp 要求2的27次方的阶乘的逐位之和 在A244060 - OEIS 然后我们将4495662081进行sha256加密 就得到了flag flag{bbdee5c548fddfc76617c562952a3a3b03d423985c095521a8661d248fad3797} MISC easyfuzz 通过尝试输入字符串判断该程序对输入字符的验证规则为9…

01、全文检索 ------ 反向索引库 与 Lucene 的介绍

目录 全文检索 ------ 反向索引库 与 LuceneSQL模糊查询的问题反向索引库反向索引库的查询 Lucene(全文检索技术)Lucene能做什么Lucene存在的问题Solr 和 Elasticsearch 与 Lucene 的关系 全文检索 ------ 反向索引库 与 Lucene MySQL一些索引词汇解释 …

如何使用Docker部署JSON Crack

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷9

某企业根据自身业务需求,实施数字化转型,规划和建设数字化平台,平台聚焦“DevOps开发运维一体化”和“数据驱动产品开发”,拟采用开源OpenStack搭建企业内部私有云平台,开源Kubernetes搭建云原生服务平台,选…

【算法】Partitioning the Array(数论)

题目 Allen has an array a1,a2,…,an. For every positive integer k that is a divisor of n, Allen does the following: He partitions the array into n/k disjoint subarrays of length k. In other words, he partitions the array into the following subarrays: [a1,…

3 款最好的电脑硬盘数据迁移软件

您将从本页了解 3 款最好的 SSD硬盘数据迁移软件,磁盘供应商提供的软件和可靠的第三方软件。仔细阅读本文并做出您的选择。 什么是数据迁移? 数据迁移是将数据移动到其他计算机或存储设备的过程。在日常工作活动中,常见的数据迁移有三种&…

[Vue3] useRoute、useRouter

useRoute 返回当前路由地址。相当于在模板中使用 $route。必须在 setup() 中调用。用于在组件中获取当前路由的信息,返回一个包含路由信息的对象。这个函数适用于那些不需要监听路由变化的场景,只是获取当前路由信息的静态数据。 useRouter 返回 route…

[嵌入式系统-7]:龙芯1B 开发学习套件 -4- LoongIDE 集成开发工具的使用-创建应用程序工程、编译、下载、调试

目录 前言: 步骤1:设置工作工作空间 步骤2:设置工具链 步骤3:创建裸机应用程序 步骤4:创建带实时操作系统的应用程序 步骤5:编译 步骤6:下载调试 前言: LoongIDE集成开发环境…

ubuntu gedit主题更改

ubuntu16.04 gedit 编辑器又有首选项如何设置主题 这里下载主题 将主题XML复制到 /usr/share/gtksourceview-3.0/styles 文件夹内; 使用gsettings 命令设置喜欢的配色方案,使用方式如下:(实测不带.xml后缀哦) gsettings set org.gnome.gedi…

CleanMyMac X.4.14.6中文版新功能介绍,mac系统垃圾清理

近些年伴随着苹果生态的蓬勃发展,越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现,它的使用逻辑与Windows存在很多不同,而且随着使用时间的增加,一些奇奇怪怪的文件也会占据有限的磁盘空间,进而影响使用…

Docker本地部署Firefox浏览器并结合内网穿透公网访问

文章目录 1. 部署Firefox2. 本地访问Firefox3. Linux安装Cpolar4. 配置Firefox公网地址5. 远程访问Firefox6. 固定Firefox公网地址7. 固定地址访问Firefox Firefox是一款免费开源的网页浏览器,由Mozilla基金会开发和维护。它是第一个成功挑战微软Internet Explorer浏…

Windows Server 2025 Azure Arc 介绍

Azure Arc 是一个扩展 Azure 平台的桥梁,可帮助你构建可灵活地跨数据中心、边缘和多云环境运行的应用程序和服务。使用一致的开发、操作和安全模型来开发云原生应用程序。 Azure Arc 可在新的和现有的硬件、虚拟化和 Kubernetes 平台、物联网设备和集成系统上运行。…

数据可视化工具之选,三选一?

在数据可视化的世界中,选择一款合适的工具对于提升工作效率和洞察力至关重要。本文将对三款主流数据可视化工具进行详细比较,包括山海鲸可视化、Echarts和D3.js,以帮助您做出明智的选择。 山海鲸可视化 山海鲸可视化是一款免费且功能强大的…