BioMistral 7B: 生物医学领域的开源多语言AI模型

人工智能咨询培训老师叶梓 转载标明出处

尽管目前有许多开源的针对健康领域的大模型可供使用,但现有模型在数据隐私风险、模型性能以及多语言支持方面的局限性,限制了它们在医疗领域的应用。为了克服这些限制,研究者们提出了BioMistral,一个专门为生物医学领域设计的开源大型语言模型。它是由法国阿维尼翁大学和南特大学的研究团队共同开发的。该模型基于Mirstral模型,并进一步在PubMed Central上进行了预训练,以适应生物医学领域的专业需求。

BioMistral 

研究团队选择了PMC(PubMed Central)开放获取子集作为数据源,这是一个全面且可自由访问的医学研究论文集合。此选择受到PMC-LLaMA、PubMedBERT和SciFive等模型成功的启发,这些模型在医学应用的语言建模方面展示了显著的提升。

重点放在了允许商业使用的子集上,包含了在不同创作共用许可(如CC0、CC BY、CC BY-SA和CC BY-ND)下的文档。这确保了模型输出的可重用性,甚至可以用于商业目的。

在预处理阶段,研究者们旨在优化数据集以提高训练效率,同时考虑到硬件限制。目标是在Jean Zay HPC的20小时限制内,对Mistral模型进行1.5个epoch的进一步预训练。这一决策与Zephyr模型的建议相符,即观察1.5倍的语料库足以显著提升模型性能,超出这一阈值的边际效益有限。研究者们从预处理的PubMed Central语料库中精心挑选了30亿个token,大约对应147万份文档。数据集主要由英文文档组成(占语料库的98.75%),其余部分包括荷兰语、德语、法语等9种语言。策略上强调多语言数据集方法,优先考虑非英语文档,并辅以英文文本,以确保训练数据集的多样性和代表性,达到30亿token的目标。原始文本文档使用Mistral分词器进行预处理,包括分词和规范化流程。

在模型适应方面,研究者们利用Mistral 7B Instruct v0.1作为基础模型进行适应,原因在于其设计上适合在提示中纳入指令,并且能够使用有限的数据集进行微调以适应不同的任务。BioMistral 7B的预训练设置在很大程度上与Mistral 7B Instruct v0.1保持一致。优化方面,采用了AdamW优化器和余弦学习率调度器。模型架构继承了Mistral的标准transformer架构,包括Grouped-Query Attention、Sliding Window Attention和Rolling Buffer Cache等功能。所有模型,包括量化版本,都保持了2048个token的输入上下文长度,并结合了FlashAttention-2。

为了提高训练效率,研究者们引入了一种后分词分组方法,该方法通过聚合由序列结束标记(</s>)标记的可变大小序列,无需填充即可填满模型的2048-token序列。这减少了87.88%的序列数量,从而加快了epoch时间。

模型融合方法是一种提高模型性能和跨领域泛化能力的策略。本质上是将多个预训练模型的参数结合起来的过程,这样做的目的是在不需要额外训练的情况下增强模型的效果。在BioMistral项目中,研究者们特别关注了几种模型融合技术,包括SLERP、TIES和DARE。

SLERP(Spherical Linear Interpolation) 是一种在球面上进行线性插值的方法,它允许在两个模型参数集之间实现平滑过渡,同时避免了直接平均模型权重时可能发生的信息损失。SLERP通过保持模型参数的几何结构来减少信息丢失,这对于维持模型性能至关重要。

TIES(Task-agnostic Interpolation of Expertise) 是一种模型融合方法,它通过从每个模型中创建“任务向量”来实现。这些向量通过减去一个共同的基础模型(如Mistral 7B Instruct)来隔离每个模型的独特贡献。然后,这些向量与基础模型的参数平均,以减少模型间的干扰,并通过稀疏向量和符号共识方法来提高性能。

DARE(Delta-Aware Redundancy Elimination) 是对TIES方法的改进,它通过随机修剪和重新调整比例来减少delta参数的冗余,主要是将它们设置为零。这种方法在保持或提高原始模型性能的同时,减少了模型参数的冗余。

量化技术对于在更小的设备上执行大型语言模型至关重要,因为它通过最小化内存需求使模型更加亲民。在本研究中,研究者们调查了两种核心技术:Activation-aware Weight Quantization(AWQ)和BitsandBytes(BnB)。AWQ利用了权重重要性不同的洞察,允许跳过量化关键权重以减轻性能下降。而BnB量化则为整个模型分配4位或8位的固定精度。

表1描述了用于评估的医学问答任务的基准,包括每个任务的训练、验证和测试问题数量,以及答案选项。只有PubMedQA在提示中包含了上下文信息。表格中提到的“Clinical KG”指的是“Clinical Knowledge”。

性能评估

BioMistral 7B模型的评估是通过一系列英语医学推理任务来进行的,这些任务从4个著名的医学语料库中选取,涵盖了遗传学、解剖学和临床案例等多个专业领域。这些数据集包括医学专业人士遇到的现实世界场景、医学院入学考试格式以及基于PubMed内容的理解测试。这些数据集的特点见表1。

MMLU:包含57个学科的考试问题,研究团队专注于与医学和临床知识相关的6个学科,这些问题被合并成一个综合的医学相关基准,包含1089个问题。由于MMLU缺乏训练数据,研究者在MedQA上微调模型,并在MMLU上评估其泛化性能。

MedQA:以美国医学执照考试(USMLE)的格式呈现问题,包含多样的医学知识,如患者档案、疾病症状和药物剂量要求。训练集包含10178个样本,测试集包含1273个问题。MedQA提供两种配置:四选一(MedQA)和五选一(MedQA 5-options)问题格式。

MedMCQA:包含超过193k个多项选择题,每个问题都有4个选项,从印度医学院入学考试(AIIMS/NEET)中提取。它涵盖了21个医学科目中的2400个医疗话题。训练集包含183k个样本,验证集包含4183个问题。由于6150个问题的测试集没有答案键,研究者采用了与Wu等人(2023年)相似的方法,使用验证集进行评估。

PubMedQA:包含211k个人工生成的多项选择题样本和1000个专家标记的样本。在评估中,研究者坚持需要推理的设置,即模型必须根据给定的PubMed摘要作为上下文和相应的问题来预测是、否或可能。使用211k个人工标记的样本进行微调,并在BigBio(Fries等人,2022年)和Chen等人(2023年);Singhal等人(2023a)协议中指定的500个专家标记的样本上进行验证和测试。

尽管生物医学语言模型已经在英语、中文、法语和西班牙语等多种语言中得到了广泛的评估,但它们在非原生语言中的性能仍然相对未被充分研究。为了填补这一空白,研究者使用GPT-3.5 Turbo(版本1106)通过OpenAI API进行自动翻译,将基准测试翻译成7种语言:西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语和中文。尽管自动翻译存在挑战,但这些工具近年来已经取得了显著改进,使得成本效益高的多语言评估成为可能。

所有的指令都遵循GPT-4医学评估的指南,每个任务都以多项选择题(MCQA)的形式呈现,答案选项与字母(A到D或A到E)相关联。在推理过程中,模型基于输入提示预测下一个token,为词汇表中的每个token生成概率。为了确保相关性,词汇表被过滤,只包括与预期答案选项相对应的token(在这里,是选择字母)。这种方法防止了模型生成不相关的token或幻觉。

监督微调(SFT)是一个关键步骤,涉及在注释数据上微调模型,使其适应特定任务。为了优化BioMistral的性能,超越仅通过少量学习所能实现的,研究者在BioMistral 7B模型和基线开源模型上进行了SFT,使用表1中指定的训练集。然而,传统的SFT方法可能资源密集。为了应对这一挑战,研究者采用了QLoRa微调方法和8位量化技术作为更具成本效益的替代方案。

表2展示了3次上下文学习的性能,得分代表准确率,并在3个随机种子上平均。BioMistral 7B Ensemble、DARE、TIES和SLERP是将BioMistral 7B和Mistral 7B Instruct组合的模型融合策略。最佳模型以粗体显示,第二佳模型下划线标注。

性能分析

在少样本学习评估中,BioMistral 7B模型在3次上下文学习中的表现被测试,这是基于每个数据集训练集中随机选择的3组样本进行的。由于模型的上下文窗口大小限制为2048个token,因此样本数量被限制为3。在表2中,我们可以看到BioMistral 7B在10个任务中的8个上超过了Mistral 7B Instruct,这表明了领域适应的有效性。此外,在3次场景中,BioMistral 7B在所有任务上都超过了其他所有开源的生物医学基线模型。例如,在MedQA的4选1和5选1选项中,BioMistral 7B显示出比其他模型更高的准确率,分别提高了9.6%和11.1%。

表3展示了BioMistral模型和相关基线模型在监督微调后的性能,以准确率衡量。总得来说SFT几乎在所有数据集上都进一步提高了模型的性能。与少样本学习评估中的趋势相似,BioMistral 7B在10个任务中的7个上超过了Mistral 7B Instruct,并且在每个任务上都超过了其他所有开源的生物医学基线模型。在PubMedQA上,BioMistral 7B的性能有了显著提升,最终超过了其前身。

在前面讲的3种模型融合方法(SLERP、TIES和DARE)被评估以确定它们的效益。所有模型均通过将Mistral 7B Instruct和BioMistral 7B等权重参数(各占50%)合并而成。在少样本学习和监督微调两种场景中进行了研究。在少样本学习场景中,还包括了一种集成方法,称为BioMistral 7B Ensemble,它聚合目标token的对数概率,并作为基线。在这两种场景中,使用模型融合策略在所有考虑的多项选择问答(MCQA)任务上一致性地提高了所有开源模型的性能。然而,没有任何融合策略普遍优于其他策略,每种策略在特定任务上展现出最高的性能。例如,在少样本学习场景中,BioMistral 7B Ensemble在大学生物学上提高了3.7%的准确率,在PubMedQA上提高了30.4%,但这种策略在解剖学上导致了2.7%的性能下降。在所有融合方法中,SLERP作为最有效的方法,显示出比BioMistral 7B高出5.11%的平均准确率增益。相比之下,DARE和TIES方法分别带来了4.35%和0.82%的平均增益。

在表9中报告了所有模型在7种目标语言上少样本学习性能的详细情况。结果以准确率表示,跨3个随机种子平均。总体来看,与英语基准相比,模型和任务的性能普遍下降,这可能归因于自动翻译的质量。尽管如此,GPT-3.5 Turbo在所有语言上都实现了有竞争力的性能,尽管略低于英语。我们观察到,GPT-3.5 Turbo和开源医学模型之间的性能差异在各种语言中相似,这可能表明开源模型缺乏目标语言的训练数据,而GPT-3.5 Turbo具有更好的多语言能力。对于给定的模型和任务,性能可能在不同语言之间变化。例如,在BioMistral 7B的MedQA上,最低的性能是阿拉伯语(26.3%),而最好的是西班牙语(33.7%),差异为7.4%。同样,这种趋势在GPT-3.5 Turbo中观察到,中文准确率为40.0%,西班牙语为49.0%。值得注意的是,BioMistral 7B和Mistral 7B Instruct在所有任务和语言中一致地展现出相似的性能。此外,DARE、TIES和SLERP融合变体在所有任务和语言中始终优于原始模型和现有的开源医学模型,表明在多语言环境中具有更好的鲁棒性。

表4概述了不同量化技术对BioMistral性能的影响。值得注意的是,BnB 8位量化在诸如MMLU Clinical Knowledge和Anatomy等数据集上显示出准确率的提升,分别增加了0.65%和1.00%。然而,对于MedQA的4选1和5选1任务,观察到性能略有下降,分别下降了2.61%和1.06%。另一方面,MedMCQA在所有量化方法中平均性能下降了4.05%,而PubMedQA在使用AWQ方法时准确率显著提高了24.1%。尽管AWQ + GEMV模型具有高压缩率和竞争力性能,但在RTX 3090上处理MMLU专业医学测试集的推理时间最慢,需要421秒。相比之下,AWQ + GEMM模型实现了86.23%的更快推理时间,在57.96秒内完成了同样的任务,尽管性能略有损失。此外,4位和8位BnB方法显示出更慢的推理时间,分别需要133秒和177秒,同时占用更少的内存并产生性能权衡,使AWQ + GEMM方法成为最具吸引力的选择。

确保模型校准对于保证预测概率与现实结果一致至关重要。一个校准良好的模型准确地反映了其预测所关联的信心水平。为了评估校准,研究者采用了预期校准误差(ECE)指标,它量化了预测概率和实际结果在不同置信水平之间的差异。较低的ECE值表示更好的校准,意味着模型的信心估计更可靠。表5显示了BioMistral 7B及其基础模型与其他开源医学模型在各种语言中的校准和置信度得分。BioMistral 7B及其基础模型与其他模型相比展现出更差的校准和置信度得分,可能由于与LLaMa基础模型的校准基线存在差异。此外,额外的PubMed预训练在所有语言中提高了校准,特别是在英语和法语中(ECE增益3.3%),而在中文中观察到一些退化(损失1.6%)。这表明需要针对不同语言进行特定的校准调整,强调了语言特定考虑的重要性。值得注意的是,不同模型中存在语言特定的平均置信度变化。例如,与Mistral 7B系列中的其他语言相比,中文模型展现出较低的置信度水平,而阿拉伯语模型在基于LLaMa的模型中落后。分析揭示了模型融合方法倾向于降低校准度,表明模型性能和校准之间可能存在权衡。

语言模型的真实性对于防止错误观念和信仰的传播至关重要。研究者采用了TruthfulQA基准测试(Lin等人,2022)来评估真实性,该测试评估了LLMs在817个问题和38个类别(如金融和政治)上的事实性和合理性输出。为了评估医学领域,研究者专注于与健康和医学相关的类别。评估包括两个零样本提示:一个通用评估提示和一个从MediTron-7B文章中派生的提示(见图4)。表8显示,BioMistral 7B在两个提示上都优于其他模型,并比GPT-3.5 Turbo提高了4.0%。然而,值得注意的是,没有任何单一模型在所有任务上始终优于其他模型,这表明每个模型都有特定的优势和劣势。值得注意的是,与原始BioMistral 7B相比,BioMistral 7B DARE的表现较差。有趣的是,告知模型它们正在被测试真实性显著提高了它们的表现。然而,当面对模仿现实世界用户交互的提示时,性能往往会下降。这种下降可能源于提示中缺乏对偏见的认识或任务理解能力的下降。零样本提示对PMC-LLaMA 7B和MediTron7B模型提出了挑战,这些模型在科学和心理学类别中难以提供正确的答案。

评估分析展示了BioMistral 7B模型在多个维度上的性能,包括少样本学习、监督微调、模型融合策略、多语言泛化能力、量化技术的影响、校准度和真实性。这些评估结果为BioMistral 7B在生物医学领域的应用提供了全面的视角,并指出了未来改进的方向。

论文链接:https://arxiv.org/abs/2402.10373

模型链接:https://hf-mirror.com/BioMistral

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/399441.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【并查集、树的直径】P2195 HXY造公园 题解

题意 P2195 codeforces 455c&#xff0c;两道一样的题 给出一个由 n n n 个点&#xff0c; m m m 条边组成的森林&#xff0c;有 q q q 组询问,每次询问有以下两种情况 输入 o p 1 op 1 op1 时&#xff1a;给出点 x x x&#xff0c;输出点 x x x 所在的树的直径。 输…

Linux--C语言之分支结构

文章目录 一、分支结构&#xff08;一&#xff09;概念&#xff08;二&#xff09;条件构建1.关系表达式&#xff1a;2.逻辑表达式&#xff1a;3.常量/变量&#xff1a;值是否非0&#xff0c;取值&#xff08;0|1&#xff09; &#xff08;三&#xff09;选择结构的形式1.单分支…

idea项目注册在nacos错误:Cannot determine local hostname

一开始想把项目注册在nacos上&#xff0c;启动报错是这样的&#xff0c;而且yml文件也不生效&#xff0c;因为默认端口是8080&#xff0c;我在yml文件中写了8081没用&#xff0c;正好nacos的配置也在yml文件中。各种百度&#xff0c;各种依赖添加删除&#xff0c;反复启动没用 …

振德医疗选择泛微千里聆RPA,助力电商、人事业务流程自动化

振德医疗用品股份有限公司成立于1994年&#xff0c;中国A股上市公司&#xff0c;是医用敷料和感控防护产品主要的供应商之一。 &#xff08;图片素材来自振德医疗官网&#xff09; 振德医疗的业务在线上线下齐发力。目前拥有5个国内生产基地&#xff0c;3个海外工厂&#xff0…

SQL Server 2022的游标

《SQL Server 2022从入门到精通&#xff08;视频教学超值版&#xff09;》图书介绍-CSDN博客 《SQL Server 2022从入门到精通&#xff08;视频教学超值版&#xff09;&#xff08;数据库技术丛书&#xff09;》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) 游标是SQL Serv…

分布式知识总结(一致性Hash算法)

文章收录在网站&#xff1a;http://hardyfish.top/ 文章收录在网站&#xff1a;http://hardyfish.top/ 文章收录在网站&#xff1a;http://hardyfish.top/ 文章收录在网站&#xff1a;http://hardyfish.top/ 一致性Hash算法 假如有三台服务器编号node0、node1、node2&…

【系统维护】Dll文件修复工具使用教程,Windows系统必备!

一、dll文件是什么 dll文件是是一种Windows操作系统下的可执行文件格式&#xff0c;包含可由多个程序同时使用的代码和数据的文件&#xff0c;它的主要作用是实现代码和数据的共享&#xff0c;从而节省内存和硬盘空间&#xff0c;并提高程序的性能和可维护性 二、如何解决dll文…

云计算实训26——部署LVS负载均衡项目

LVS LVS是linux virtural server的简称——免费、开源、四层负载均衡 工作原理&#xff1a; 通过linux达到负载均衡好和linux操作系统实现高性能高可用的linux服务集群&#xff0c;具有良好的可靠性、可扩展性、可操作性、可扩展性、从而实现以低廉的成本实现最优的性能。LV…

PTA 7-21 求特殊方程的正整数解

7-21 求特殊方程的正整数解&#xff08;15分&#xff09; 本题要求对任意给定的正整数N&#xff0c;求方程的全部正整数解。 输入格式&#xff1a; 输入在一行中给出正整数N&#xff08;≤10000&#xff09;。 输出格式&#xff1a; 输出方程的全部正整数解&#xff0c;其…

Wise Registry Cleaner:程序员必备的电脑加速工具!

前言 但你知道吗&#xff1f;随着时间的推移&#xff0c;Windows注册表就像是一个不断膨胀的宇宙&#xff0c;里面充满了无效、过时或残留的“星际垃圾”&#xff1b;这些看似不起眼的碎片&#xff0c;却在悄然间拖慢了你的电脑速度&#xff0c;让系统变得不那么“听话”&#…

CSS3下拉菜单实现

导航菜单&#xff1a; <nav class"multi_drop_menu"><!-- 一级开始 --><ul><li><a href"#">Power</a></li><li><a href"#">Money</a></li><li><a href"#"…

React + React-tsparticles + Tsparticles完成炫酷的登录特效

效果(动态) npm i react-tsparticles2.12.2 npm i tsparticles2.12.0 注意:最好和上面的版本一样,不然会出现一个报错,具体如何解决的话去官网吧,上面的版本是没有问题的 代码块 总计6个代码块, options里面是相关粒子的配置 完整代码 import ./index.sass import { Form, Inp…

【简历】宜宾某学院简历:通过率低,JVM是必考点,不能写了解

注&#xff1a;为保证用户信息安全&#xff0c;姓名和学校等信息已经进行同层次变更&#xff0c;内容部分细节也进行了部分隐藏 简历说明 这是一份25届的宜宾某二本学院的Java简历&#xff0c;那么这个简历&#xff0c;因为说二本的校招&#xff0c;主体在小公司&#xff0c;…

Redis的过期策略与内存淘汰机制详解

文章目录 Redis的过期策略1. 定时删除2. 惰性删除3. 定期删除 Redis的内存淘汰机制1. noeviction2. volatile-random3. volatile-ttl4. volatile-lru5. volatile-lfu6. allkeys-random7. allkeys-lru8. allkeys-lfu LRU与LFU算法总结 Redis作为一种高性能的键值对存储系统&…

OJ-0813

题目 示例&#xff1a; 输入&#xff1a; 1-2abcd 输出&#xff1a; -1参考 import java.util.Arrays; import java.util.HashSet; import java.util.Scanner; import java.util.Set; import java.util.Stack;public class Main {// 保存数字的栈static Stack<Long> nu…

Qt使用lupdate工具生成.ts文件

Qt提供了lupdate工具&#xff0c;用于从源代码中提取需要翻译的字符串【1】&#xff0c;并生成或更新.ts文件 注解【1】&#xff1a;使用tr()函数&#xff08;或者QCoreApplication::translate()等其他相关的翻译函数&#xff09;来标记所有需要翻译的文本。例如&#xff1a; …

WEB应用(十五)---文件包含

文件包含的概念 在各种开发语言中都提供了内置的文件包含函数&#xff0c;可以使得开发人员在一个代码文件中直接包含&#xff08;引入&#xff09;另外一个代码文件。 由于文件包含可以达到复用和方便修改的目的&#xff0c;在代码设计中常常使用。 大多数情况下&#xff0…

Ethercat学习-SOEM主站源码解析(DC部分)

文章目录 SOEM DC模式源码简介示例用图ecx_porttimeecx_parentportecx_configdc如果从站不支持DC如果从站支持DC SOEM DC模式源码简介 示例用图 本文中都会围绕着这个图来讲&#xff0c;从站的port编号依次为0&#xff0c;3&#xff0c;1&#xff0c;2 在SOEM中&#xff0c;与…

【vulnhub】Broken: Gallery靶机

靶机安装 下载地址&#xff1a;Broken: Gallery ~ VulnHub 信息收集 靶机IP发现 nmap 192.168.93.0/24 端口扫描 nmap -A 192.168.93.167 -p- 目录扫描 dirsearch -u http://192.168.93.167 页面访问&#xff0c; 没有可用的信息 尝试22端口的ssh进行爆破 hydra -L roc…

算法的学习笔记——二进制中 1 的个数(牛客JZ15)

&#x1f600;前言 在计算机科学中&#xff0c;二进制是计算和存储数据的基础。理解二进制中的基本运算有助于我们解决各种编程问题。一个经典的问题是&#xff1a;给定一个整数&#xff0c;如何快速计算该整数的二进制表示中1的个数。 &#x1f3e0;个人主页&#xff1a;尘觉主…