通过提示工程将化学知识整合到大型语言模型中

在当今快速发展的人工智能领域,大型语言模型(LLMs)正成为科学研究的新兴工具。这些模型以其卓越的语言处理能力和零样本推理而闻名,为解决传统科学问题提供了全新的途径。然而,LLMs在特定科学领域的应用面临挑战,主要是因为它们缺乏对复杂科学概念的深入理解。

为了克服这一难题,本文提出了一种创新的“领域知识嵌入的提示工程”方法,旨在通过将特定领域的知识整合到提示(prompts)中,来增强大型语言模型(LLMs)在科学领域特别是化学、生物学和材料科学中的应用性能。这种方法在包括能力、准确性、F1分数和幻觉下降等指标上,超越了传统的提示工程策略。通过针对复杂材料(如MacMillan催化剂、紫杉醇和锂钴氧化物)的案例研究,展示了该方法的有效性,并强调了当LLMs配备特定领域的提示时,它们作为科学发现和创新的强大工具的潜力。

方法

这种方法的核心思想是利用领域专家的知识和推理过程来指导LLMs,使其能够生成更准确、更具相关性的回答。图1展示了“提示工程框架的整个过程”(The Whole Process of Prompt Engineering Framework)。该框架从数据集的构建开始,研究人员首先从化学、生物学和材料科学领域中收集和整理相关的信息,创建了专门针对这些领域的数据集。接着,这些数据被用来形成特定的任务,这些任务旨在评估和提升大型语言模型(LLMs)在特定科学问题上的表现。

数据集构建和答案评估方案

数据集的构建是一个关键步骤,它直接影响了后续评估大型语言模型(LLMs)性能的准确性和可靠性。研究团队采取了一种系统化的方法来选择和构建数据集,以确保它们能够全面覆盖化学工程领域的关键方面。

首先,团队将焦点放在了有机小分子、酶和晶体材料这三个类别上。这些类别不仅在化学工程中具有广泛的应用,而且各自代表了不同的科学规模和复杂性。有机小分子常用于制药开发和作为分子探针,酶在生物催化和治疗干预中扮演着关键角色,而晶体材料则是半导体技术和光伏设备中不可或缺的组成部分。

为了确保数据集的质量和相关性,研究团队从专业的数据库中提取了数据。例如,有机小分子的数据来源于PubChem数据库,这是一个包含大量化学结构和相关属性信息的公共数据库。对于酶,团队从UniProt数据库中提取信息,这是一个提供蛋白质序列和功能信息的数据库,其数据来源于科学文献和计算分析。晶体材料的数据则来自Materials Project数据库,该数据库提供材料属性和晶体结构的信息。

在提取了这些物质的信息后,研究团队设计了一系列问题,这些问题旨在评估LLMs在预测和推理这些物质的物理化学属性、生物过程和结构信息方面的能力。这些问题覆盖了从基本的物理化学属性,如分子公式、熔点、密度、溶解度、分子量,到更复杂的生物过程,如酶的活性位点、底物、产物和生物学途径。

研究团队还考虑了不同任务的输出类型、推理范式和链式思考(CoT)的复杂性,将问题分为不同的组别。例如,一些任务可能只需要通过逻辑推理就能得出数值答案,而另一些任务则可能需要依赖实验数据。一些任务可能需要特定的领域知识来进行文字推理,而其他任务则可能涉及到常见的或不常见的属性检索。

为了评估LLMs的性能,研究者们特别设计了一套综合性能评价体系。这套体系通过多个维度来衡量模型的性能,包括能力(Capability)、准确性(Accuracy)、F1分数(F1 Score)和幻觉下降(Hallucination Drop)。这些指标共同构成了一个多角度的评价框架,旨在深入理解模型在处理科学问题时的实际能力。

能力(Capability):这一指标关注的是模型是否能够对提出的问题给出回答。不同于准确性,能力指标不评价答案的正确性,而是衡量模型对问题的响应能力。如果模型能够针对问题生成一个回答,无论答案的正确与否,该指标都会给予正面评价。这种评价方式有助于识别模型在特定任务上的可行性,即使在答案不完全准确的情况下。

准确性(Accuracy):与能力指标相辅相成,准确性指标衡量的是模型给出的答案与真实答案之间的一致性。在这一指标下,答案越接近真实情况,获得的评分就越高。准确性是评价模型性能的关键因素,因为它直接关系到模型输出的可靠性。

F1分数(F1 Score):F1分数是精度(Precision)和召回率(Recall)的调和平均值,常用于评估分类任务的性能。在这项研究中,F1分数用于评估模型在多项选择题中的表现。一个高的F1分数意味着模型在保持高精确度的同时,也能够覆盖到更多的正确答案,从而在综合评价模型性能时提供了一个平衡的视角。

幻觉下降(Hallucination Drop):这一指标是研究者们为了评估模型产生不准确或“幻觉”回答的倾向而特别引入的。幻觉现象指的是模型在没有足够信息支持的情况下,仍然生成看似合理但实际错误的答案。幻觉下降指标通过计算模型回答的能力与其准确性之间的差异来量化这一现象,从而帮助研究者识别和改进模型在特定任务上可能出现的问题。

图2展示了问题构建和答案评估过程的流程。首先,他们会将模型对于每个问题的回答与真实答案进行比较,然后根据上述指标进行打分。例如,在能力指标的评价中,只要模型给出了回答,无论对错,都会得到一定的分数。而在准确性指标的评价中,答案与真实答案的一致性将直接影响得分。F1分数则需要模型在多项选择题中的表现既要精确又要全面。最后,幻觉下降指标会根据模型在能力与准确性上的表现差异来计算。

科学预测作为LLM问答问题:

科学预测任务的构建和执行是一个精心设计的流程,它充分利用了大型语言模型(LLMs)的先进能力,尤其是它们的零样本(zero-shot)和少样本(few-shot)推理能力。这些能力使得LLMs能够在没有针对特定任务进行过专门训练的情况下,通过理解问题的上下文来生成回答。

研究者们首先将科学问题转化为LLMs可以处理的问答形式。这种形式允许模型通过分析问题的文本描述来识别关键信息,并据此生成答案。例如,一个关于化合物稳定性的问题可能会被构建为:“给定化合物X的属性Y,它是稳定的吗?”这样的格式不仅清晰地指出了问题的核心,也为模型提供了生成答案所需的直接线索。

在提示工程的过程中,研究者们特别关注了提示词的上下文确定。提示词是直接呈现给模型的问题描述,它们的选择和构造对于引导模型生成准确答案至关重要。这个过程可以数学化地表达,即通过确定提示词P的上下文,使得LLMs能够有效地给出答案A。这可以表示为函数f(P, Q),其中Q是原始问题,P是提示,A是模型生成的答案,而f代表LLMs本身。

为了优化提示,研究者们采取了一种系统化的方法来评估不同提示对模型输出的影响。他们的目标是找到能够最大化模型输出与真实答案S一致性的提示。这涉及到一个优化问题,可以通过搜索不同的提示词P来解决。优化的目标是最大化一个评估函数g(f(P, Q), S),该函数衡量模型答案A与真实答案S的一致性。

图3阐述了不同提示工程方法的主流形式。这些方法包括零样本提示(Zero-shot Prompting)、少样本提示(Few-shot Prompting)、专家提示(Expert Prompting)、零样本链式思考(Zero-shot CoT)和少样本链式思考(Few-shot CoT)。在零样本提示中,LLMs被要求直接回答问题,而不提供任何上下文或示例。少样本提示则提供了几个示例,帮助模型理解并复制回答的格式和内容。专家提示通过角色扮演指导,使LLMs能够生成类似专家所写的回答。零样本CoT提示通过加入“让我们逐步思考”的触发句,引导模型进行逐步的推理过程。而少样本CoT提示则进一步提供了解决类似问题的思考链示例,以协助模型执行当前任务。

在实际操作中,研究者们可能会测试多个版本的提示,并评估它们在一组科学问题上的表现。他们可能会使用不同的提示策略,并比较这些策略在能力、准确性、F1分数和幻觉下降等指标上的表现。例如,如果研究者们正在处理一个关于晶体材料带隙的问题,他们可能会设计一个提示,如:“晶体材料的带隙是指...(这里提供带隙的定义和重要性),给定材料Z的电子结构,它的带隙是多少?”这样的提示不仅提供了问题的具体信息,还通过定义和背景信息来引导模型进行推理。

领域知识嵌入的提示工程:

领域知识嵌入的提示工程策略是这项研究的核心创新之一,图4详细描述了领域知识嵌入提示工程的步骤,包括角色扮演、CoT(Chain-of-Thought)示例和领域知识整合。它通过结合多个专家的知识和推理过程来增强大型语言模型(LLMs)的科学推理能力。这一策略的实施涉及以下几个关键步骤:

首先,研究团队汇集了不同领域的专家,这些专家对其专业领域内的知识和常见推理模式有着深刻的理解。这些专家被邀请参与到角色扮演中,他们需要从自己专业的角度出发,提供对特定科学问题的解答。

接着,专家们提供了一系列的CoT(Chain-of-Thought)示例。CoT示例是一种展示问题解决过程的方法,它详细阐述了从识别问题到找到答案的每一个步骤。与传统的零样本CoT方法相比,领域知识嵌入的提示工程策略不仅要求模型进行推理,还要求它们在这个过程中利用专家提供的精确背景知识和准确的人类推理示例。

例如,如果LLMs面临的任务是预测一个有机小分子的溶解度,领域专家可能会提供一个详细的CoT示例,展示如何根据分子的极性、分子间作用力以及分子大小等因素来推理溶解度。这个示例将包括对这些因素如何影响溶解度的详细解释,以及如何将这些因素综合起来得出最终的预测。

在这一过程中,专家的知识和推理示例被嵌入到提示中,形成了一种多专家混合的提示策略。这种策略不仅提供了一个领域的深度知识,还通过多个专家的视角来丰富问题的解决路径。这使得LLMs能够在一个更加丰富和多元的知识背景下进行推理,从而提高了它们生成准确和相关回答的能力。

这种策略还有助于减少LLMs在科学任务中的“幻觉”现象,即模型在缺乏足够信息的情况下生成看似合理但实际上错误的答案。通过提供精确的背景知识和准确的推理示例,领域知识嵌入的提示工程策略引导模型更加贴近人类的科学推理过程。

结果

研究者们对五种不同的提示工程策略进行了评估,包括零样本(Zero-shot)、少样本(Few-shot)、专家(Expert)、零样本链式思考(Zero-shot CoT)以及领域知识嵌入的提示工程方法。这些策略在三个数据集上的表现——有机小分子、酶和晶体材料——被全面比较。结果显示,领域知识嵌入的提示工程方法在多数任务和评价指标上均优于传统方法。

图5 展示了不同提示工程策略在所有任务上的“能力(Capability)”和“准确性(Accuracy)”的总体表现。领域知识嵌入的提示工程方法在这项评估中显示出其独特的优势。由于这种方法结合了专业知识和推理示例,它能在多个任务上都展现出较高的能力和准确性,特别是在那些需要复杂推理和专业知识的领域。这表明,与传统的提示工程方法相比,领域知识嵌入的提示可以显著提高LLMs在科学任务上的性能。

图 7 通过输出类型对提示工程的性能进行了细致的比较分析。这一图表揭示了大型语言模型(LLMs)在不同任务类型上的表现,包括数值逻辑推理、实验数据推理、逻辑文字推理和基于实验数据的文字推理。每种任务类型都对模型的理解和推理能力提出了不同的要求。

领域知识嵌入的提示工程方法在所有任务类型上均显示出其优越性,与传统的提示工程策略相比,它在“能力”、“准确性”、“F1分数”和“幻觉下降”等关键指标上均有显著提升。特别是在需要复杂逻辑推理的任务上,领域知识嵌入的提示能够显著提高LLMs的性能,这表明了将专业知识整合到提示中对于提升模型在科学领域应用的有效性至关重要。

图8显示领域知识嵌入的提示工程方法在各种推理范式中均显示出其有效性,特别是在需要深入领域知识的任务上。例如,在领域知识直接推理任务中,该方法能够帮助LLMs更好地利用其预训练阶段吸收的专业知识,从而生成更准确和可信的答案。

图10 表展示了大型语言模型(LLMs)在处理有机小分子、酶和晶体材料这三种不同材料类别的任务时的性能差异。

对于有机小分子,研究者们发现,随着分子复杂性的增加,即分子重量的增加和元素组成的多样化,LLMs的预测准确性逐渐下降。特别是,当分子重量超过300 g/mol或包含超过五种不同元素时,性能显著下降。

的预测方面,LLMs的准确性与当前对这些酶的研究深度密切相关,而与酶的大小,即氨基酸数量,关系不大。这意味着,如果一个酶在学术界得到了广泛的研究和理解,LLMs预测其属性的准确性就越高。

对于晶体材料,LLMs在预测那些具有较大、更复杂组成以及低对称性晶体结构的材料时准确性降低。然而,属于三斜、立方或六角晶系的晶体结构更可能产生更好的预测结果,这可能是因为这些结构更规则,且在科学文献中的数据更丰富。

图11 在论文中展示了针对 MacMillan 第二代咪唑啉酮催化剂的提示工程案例研究。MacMillan 催化剂因其在有机催化领域的开创性贡献而获得了 2021 年诺贝尔化学奖,这一创新对合成化学和化学工业产生了深远的影响。在这一案例研究中,研究者们利用领域知识嵌入的提示工程方法,旨在评估 LLMs 在整合有关分子复杂细节和预测其潜在应用方面的性能。通过精心设计的提示,LLMs 能够展示其在分析 SMILES 序列和进行基本算术运算方面的熟练程度。LLMs 还能够利用催化剂的机理和示例,准确预测特定底物的催化产物,从而凸显了模型在为化学催化剂的实际应用和工业应用提供信息方面的潜力。

领域知识嵌入的提示工程证明了其在化学、材料科学和生物学等领域的有效性。未来的工作可以探索将该方法扩展到其他科学领域,如物理学、地质学和医学,以及整合外部数据集和特定领域的工具,以进一步提升LLMs的推理能力。

论文链接:https://arxiv.org/pdf/2404.14467

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/339306.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣173题:二叉搜索树迭代器(含模拟面试)

❤️❤️❤️ 欢迎来到我的博客。希望您能在这里找到既有价值又有趣的内容,和我一起探索、学习和成长。欢迎评论区畅所欲言、享受知识的乐趣! 推荐:数据分析螺丝钉的首页 关注微信公众号 数据分析螺丝钉 免费领取价值万元的python/java/商业…

蓝奏管理器iapp源码V3

蓝奏登录注册,简单管理文件夹等都没问题,就是上传接口需要有能力的人抓包进行修复一下(我留了之前还能正常使用的接口,也是蓝奏官方的,所以参照一下就行。),这个应该也不是什么大问题&#xff0…

【自然语言处理】【Scaling Law】Observational Scaling Laws:跨不同模型构建Scaling Law

相关博客 【自然语言处理】【Scaling Law】Observational Scaling Laws:跨不同模型构建Scaling Law 【自然语言处理】【Scaling Law】语言模型物理学 第3.3部分:知识容量Scaling Laws 【自然语言处理】Transformer中的一种线性特征 【自然语言处理】【大…

Ansible04-Ansible Vars变量详解

目录 写在前面6 Ansible Vars 变量6.1 playbook中的变量6.1.1 playbook中定义变量的格式6.1.2 举例6.1.3 小tip 6.2 共有变量6.2.1 变量文件6.2.1.1 变量文件编写6.2.1.2 playbook编写6.2.1.3 运行测试 6.2.2 根据主机组使用变量6.2.2.1 groups_vars编写6.2.2.2 playbook编写6.…

第17篇:JTAG UART IP应用<四>

Q:如何通过JTAG UART发送命令控制开发板的外设比如LED? A:Quartus硬件工程以及Platform Designer系统在第一个Nios II工程--Hello_World的Quartus硬件工程基础上添加PIO,表示DE2-115开发板上的18个红色LED。 Nios II软件工程对应…

mysql中EXPLAIN详解

大家好。众所周知,MySQL 查询优化器的各种基于成本和规则的优化会后生成一个所谓的执行计划,这个执行计划展示了接下来具体执行查询的方式。在日常工作过程中,我们可以使用EXPLAIN语句来查看某个查询语句的具体执行计划, 今天我们…

JMeter的基本使用

JMeter的基本使用三步骤:1.添加线程、2.添加请求、3.添加查询结果的内容 如果需要添加token请求头来验证,则需要再加上一步骤:添加请求头 1.线程 添加线程的方式 主要修改者三个属性值 Number of Threads:并发线程数 Ramp-up…

LabVIEW通过以太网控制PLC程序开发

在使用LabVIEW通过以太网控制PLC程序开发时,需要综合考虑硬件、软件和通信协议的协调工作。以下是详细步骤、注意事项、重点和难点分析,以及几种实现方式及其特点的概述。 实现步骤 确定硬件和软件环境: 确定PLC型号和品牌(如西门…

Java 18新特性深度解析:提升开发效率与性能的革新工具

在Java的世界中,每一次更新都带来新的惊喜和挑战。Java 18作为长期支持版本,不仅延续了Java语言的稳定性和可靠性,还引入了一系列令人兴奋的新特性,旨在进一步提升开发者的生产力和应用程序的性能。本文将深入探讨Java 18中的关键…

【一刷《剑指Offer》】面试题 29:数组中出现次数超过一半的数字

力扣对应题目链接:169. 多数元素 - 力扣(LeetCode) 牛客对应题目链接:数组中出现次数超过一半的数字_牛客题霸_牛客网 (nowcoder.com) 核心考点 : 数组使用,简单算法的设计。 一、《剑指Offer》对应内容 二…

2024后端服务架构升级

文章目录 背景改造方案新架构图技术选型思考 服务拆分公共组件设计自部署算法服务排期计划 全球多活改造背景架构图分布式ID 背景 1、xx业务经过多轮的业务决策和调整,存在非常多技术包袱,带了不好的用户体验和极高的维护成本 2、多套机房部署&#xf…

数学建模之MATLAB入门教程(上)

前言: • MATLAB是美国Math Works公司出品的商业数学软件,用于数据分析、无线通信、深度学习、图像处理与计算机视觉、信号处理、量化金融与风险管理、机器人,控制系统等领域。 • MATLAB将数值分析、矩阵计算、科学数据可视化以及非线性动…

JavaScript基础(十一)

String对象的方法 上一次说了String,那也少不了方法。 length 字符串长度 charAt(a) 返回指定位置的字符,(这里a代表下标,它返回的就是下标a对应的字符) concat(b) 连接字符串,b是被合并的对象名,和加号拼接一样…

上位机图像处理和嵌入式模块部署(f407 mcu中tf卡读写和fatfs挂载)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 很早之前,个人对tf卡并不是很重视,觉得它就是一个存储工具而已。后来在移植v3s芯片的时候,才发现很多的soc其实…

鬼刀画风扁平化粒子炫动引导页美化版

源码介绍 分享一款引导页,响应式布局,支持移动PC 添加背景图片,美化高斯模糊 ,删除蒙版人物部分,更图片人物画风更美好 删除雪花特效 替换字体颜色 添加底备案号 预留友情连接 效果预览 源码下载 https://www.qqmu.com/3381.h…

华为交换机的基本配置

实验拓扑: 实验目的:认识二层交换机和二层交换技术的工作原理;认识三层交换和三层交换技术。 三层功能简而言之就是了具有路由的功能,设备可以充当网关和路由器。 实验要求:公司的两个部门用vlan进行划分&#xff0c…

Redis篇 哈希表在redis中的命令

哈希命令 一.哈希表的基本认识二. 哈希表在redis中的命令1.hset,hget2.hdel3.hkeys,hvals4.hexists5.hgetall6.hmget7.hlen8.hincrby和hincrbyfloat 一.哈希表的基本认识 在JAVA数据结构中,我们就已经接触到了哈希表, 在当时,我们主要用到的哈…

ICPC训练赛补题集

ICPC训练赛补题集 文章目录 ICPC训练赛补题集D - Fast and Fat (负重越野)I-路径规划G. Inscryption(邪恶铭刻)NEW Houses雪中楼(西安交通大学)L.BracketGenerationE - Checksum D - Fast and Fat (负重越野) 原题链接:原题链接 题意:体重大的背体重小的…

如何借VR之手,让展厅互动更精彩?

VR虚拟现实技术以其卓越的沉浸式体验为特点,引领用户踏入一个全新的虚拟世界,正因如此,它开始被广泛应用于展厅、商业等多个领域。那么,今天,让我们就来了解一下这种技术是如何为展厅带来精彩互动体验的吧!…

法国工程师数电练习题——有限状态机

1. 有限状态机 1.1 问题背景描述 给定的有限状态机由其状态图表示,具有两个输入E1和E2以及一个输出S。状态机为下图。请为以下输入序列绘制这个Moore机的时序图: 1) 在t50纳秒时,E1E211 2) 在t150纳秒时,E1E200 …