LLM in Medical Domain: 一文速览大语言模型在医学领域的应用

© 作者|杨锦霞

机构|中国人民大学

研究方向|多模态学习

来自:RUC AI Box

进NLP群—>加入NLP交流群

引言:近期,大型语言模型在各种任务上展现出优异的性能,展示了广阔的应用前景。然而,在医学领域,现有的模型主要是单一任务系统,缺乏足够的表达能力和交互能力。因此,目前的模型与实际临床工作流程中对它们的期望之间存在差距。虽然大型语言模型的出现和发展为交互式医学系统带来了希望,但由于其可能生成错误的输出和产生幻觉等问题,不能直接应用于实际场景。目前关于大模型在医学领域的研究主要集中在评估现有模型性能、构建适用的数据集以及指令微调等方面。

Large Language Models Encode Clinical Knowledge

http://arxiv.org/abs/2212.13138

本文的主要工作包括benchmark构建、LLM评测和指令微调。

  • 提出一个涵盖医学检查、医学研究和消费者医疗问题的医学问答benchmark:MultiMedQA。这是一个由七个医学问答数据集组成的基准,包括六个现有数据集和新引入的一个数据集。这是一个评估LLM临床知识和问答能力的多样化基准,包括多项选择题、需要对医疗专业人员的问题进行较长格式回答的数据集,以及需要对非专业人员可能提出的问题进行较长格式回答的数据集。本文还提出了一个医生和非专业用户评估框架,从多个维度来评估LLM性能。

  • 本文在MultiMedQA上评估了PaLM及Flan-PaLM。通过结合各种提示策略(few-shot, chain-of-thought and self-consistency prompting),Flan-PaLM在MedQA(USMLE),MedMCQA,PubMedQA和MMLU临床主题上超过了SOTA性能。特别是,它比之前的MedQA上的SOTA(USMLE)提高了17%以上。

acc4eacc79f7384cc24858cb2b6dcdc2.png

  • 由于在生成长文本的数据集上,Flan-PaLM和临床医生的结果显示出一定gap。本文提出了使用Instruction Prompt Tuning对Flan-PaLM进行微调。使用soft prompt作为在多个医学数据集之间共享的初始前缀,然后是相关的特定于任务的prompt(由instructions和/或few-shot示例组成,可能是CoT)以及实际问题和上下文。通过随计选取和人工评估过滤,最终使用40个来自HealthSearchQA,MedicineQA和LiveQA的例子用于Instruction Prompt Tuning训练,得到Med-PaLM模型。

ac37adce3d8d008858616ac265eb50e0.png

Towards Expert-Level Medical Question Answering with Large Language Models

http://arxiv.org/abs/2305.09617

本文提出了Med-PaLM 2,是上面Med-PaLM工作的改进,它通过结合PaLM 2、医学领域微调和提示策略(包括一种新颖的ensemble refinement策略)来提升性能。Med-PaLM 2 在 MedQA 数据集上的得分高达 86.5%,比 Med-PaLM 提高了19%。

51e62f5be11d2e10185079536e3dcac1.png

在CoT和self-consistency的基础上,本文提出了一个新的提示策略:ensemble refinement (ER)。ER涉及两个阶段:首先,给定一个prompt和一个问题,模型输出多个解释和答案。然后,以原始prompt、问题和上一步的生成输出为条件进行提示,模型会生成更加精细的解释和答案。这可以理解为self-consistency的泛化,LLM汇总第一阶段的答案而不是简单的投票,使LLM能够考虑其生成的解释的优点和缺点。在这里,为了提高性能而多次执行第二阶段,然后最后对这些生成的答案进行多数投票以确定最终答案。

8c802492269983402190c8b622210017.png

下表展示了Med-PaLM 2 在不同的提示策略下的性能。可以看出ensemble refinement改进了CoT和SC,从而促使策略在这些基准测试中获得了更好的结果。

f083eaf7fd94968266f0726e58a30042.png

本文还引入了两个对抗性问题数据集来探索这些模型的安全性和局限性。

ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge

http://arxiv.org/abs/2303.14070

ChatDoctor是一个主要在LLaMA上微调的医学领域的大语言模型。

  • 收集对话数据集:出于真实性的考虑,本文从在线医疗咨询网站“HealthCareMagic”收集了约10万条真实的医患对话,并对这些数据进行了人工和自动过滤等预处理,并命名为 HealthCareMagic-100k。此外,从在线医疗咨询网站 iCliniq2 收集了大约1万条医患对话用于以评估模型的性能。

  • 外部知识大脑:如果模型能够根据给定的权威可靠知识进行回答,那么模型的准确性将大大提高。对于医疗场景中的问答,本文收集并编译了一个数据库,其中包括大约 700 种疾病及其相关症状、进一步的医学测试或措施以及推荐的药物治疗。该数据库可以随时更新,无需重新训练模型。除了疾病数据库,一些权威的信息源也可以作为外部知识大脑,例如维基百科。

8f344e5e7d6c84af3e6ce84ca10d5dc5.png

  • ChatDoctor可以检索相应的知识和可靠的来源,以更准确地回答患者的询问。构建完外部知识大脑后,通过构造适当的prompt让ChatDoctor自主检索其所需要的知识。

1233339bfce793ea247b042947df37b8.png

本文先通过Stanford Alpaca的数据微调以获得对话的能力,然后在收集的医学对话数据集上微调。为了测试基于知识大脑的ChatDoctor模型的能力,向该模型询问了一些最近的医学问题,例如上图中的Mpox(monkeypox,猴痘),由于这是一个新术语,ChatGPT 完全无法回答它,而 ChatDoctor 可以自主检索 Mpox 的维基百科内容并给出准确的答案。

BenTsao: Tuning LLaMA Model With Chinese Medical Instructions

http://arxiv.org/abs/2304.06975

本文提出了本草模型(原叫“华驼“),一个生物医学领域的中文LLM。BenTsao建立在开源LLaMa-7B模型的基础上,整合了来自中国医学知识图谱(CMeKG)的结构化和非结构化医学知识,并采用基于知识的指令数据进行微调。

8f2ee4c31f790a442eb2e63442f6e05f.png

数据集:医学知识有各种类型,一般包括结构化的医学知识,如医学知识图谱,和非结构化的医学知识,如医学指南等。本文利用了中国医学知识图谱CMeKG,该图谱提供了有关疾病、药物、症状等的医学知识,并借助ChatGPT构造了8000 多个指令数据形成指令数据集,用于监督微调。

指标:对于医学问答任务,本文引入了一个新的评估指标 SUS。SUS 指标由三个维度组成:安全性 Safety,可用性Usability和流畅性 Smoothness。Safety 评估生成的响应是否有可能误导用户并对他们的健康构成威胁,Usability 评估生成的响应反映医学专业知识的程度,Smoothness 衡量生成的流畅度。

本文构建了一组中文对话场景测试集,同时为了评估模型性能招募了五名具有医学背景的注释员通过SUS维度进行评分。平均SUS分数如下表所示。尽管LLaMA获得了最高的安全分数,但其回答中信息含量较低。本文的华拓模型显着提高了知识的可用性。

bb63324d0df3525fe8872b48021f1b53.png

Galactica: A Large Language Model for Science

http://arxiv.org/abs/2211.09085

本文指出,计算的最初希望是解决科学中的信息过载问题。本文训练了一个大语言模型Galactica,能够更好的自动组织科学知识。Galactica是在人类科学知识的大型语料库上进行训练的,语料库包括4800 万篇论文、教科书和讲义、数百万种化合物和蛋白质、科学网站、百科全书等。

本文提出了一组专门的tokenization用于不同的输入模态。对于引用、氨基酸序列、DNA序列等输入,使用[START_{ }]和[END_{ }]来包装文本。比如,对于引用,使用[START_REF] 和 [END_REF]来包装。本文还引入<work> token来表示逐步推理,模仿内部工作记忆上下文,同时还构造提示数据集将分步推理包装在<work></work>中。下图展示了使用<work> token来调用外部工具(python)并实现逐步计算的过程。

31a9281af6f37c4c0edff565dfb9086b.png

本文将prompts与通用语料库一起包含在预训练中,并对Galactica各种科学任务上进行了测试。在医学问答数据集 PubMedQA 上结果为77.6%,在MedMCQA上结果为52.9%,均在当时达到最高水平。

Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding

http://arxiv.org/abs/2304.05368

本文在临床语言理解任务上对GPT-3.5、GPT-4 和 Bard 进行了全面评估。任务包括命名实体识别、关系提取、自然语言推理、语义文本相似性、文档分类和问答,并在此过程中提出了一种新颖的提示策略,self-questioning prompting(SQP)。SQP旨在通过鼓励模型更加了解自己的思维过程来提高模型性能,使他们能够更好地理解相关概念从而达到更深入的理解。下图是 SQP 的一般构建过程:

5343b355e385ba94ab3d58418157bf9d.png

下表将提出的SQP与现有的提示方法进行了比较,突出显示了各自的指导方针和目的。

4a1a44797489b3aa34a71b9ff54126de.png

下面展示了六个任务的SQP模板,每个模板中突出显示了核心的自我提问过程。这些带下划线和粗体的部分说明了 SQP 如何生成与任务相关的目标问题和答案,从而指导模型的推理。

44d25b21bc7ee2ccab7fb6f878543d6b.png

本文的评估强调了采用特定任务学习策略和提示技术(如 SQP)的重要性,以最大限度地提高 LLM 在医疗保健相关任务中的有效性。实验结果显示 GPT-4 的整体性能更好,5-shot SQP 提示策略更好。

CAN LARGE LANGUAGE MODELS REASON ABOUT MEDICAL QUESTIONS?

http://arxiv.org/abs/2207.08143

本文主要测试 GPT-3.5(Codex 和 InstructGPT)是否可用于回答和推理基于现实世界的困难问题,即医学问题。主使用两个多项选择的医学考试问题和一个医学阅读理解数据集进行测试。本文研究了多种提示场景:CoT、zero- and few-shot和retrieval augmentation。

ae315c722daa1bb31d12e077337f212c.png

Retrieval augmentation探究了将模型与额外的上下文联系起来是否可以提高回答的准确性,使用BM25检索器和维基百科作为知识库。给定一个问题   、一个答案选项  ,对文章  进行检索:

bfc15a15a7ea2936a8d9fbd3c7412923.png

DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task

http://arxiv.org/abs/2304.01097

本文在ChatGLM的基础上构造中文的医学模型。

数据集构建:通过翻译 ChatDoctor的数据集来利用英文的高质量数据集。考虑到专业的大规模翻译代价较高,这里作者通过利用 ChatGPT 来采用一种简单且低成本的方法进行大规模翻译。首先构建高质量数据集:通过ChatGPT翻译选取的示例;然后使用这部分数据配对的中英文数据微调一个语言模型(如BART-based model),该语言模型就能获得专家级的知识并作为大语言模型的一个替代从而降低大规模翻译成本。对于疾病数据库里的知识,作者也利用 ChatGPT来构造指令数据。

53711a23049670f528abdfb115923bcd.png

Prompt Designer:为了得到更加可靠的模型输出,本文利用Prompt Designer来预处理用户输入。Prompt Designer首先从输入中提取相关关键字,如疾病名称或症状,然后使用疾病名称作为标签并根据疾病知识库生成简短描述。Prompt Designer的输出包括有关疾病症状、诊断、治疗方案和预防措施的信息。然后将这部分输出作为DoctorGLM输入的Info {...}部分。通过提供专业生成的提示,提示设计者扩展了DoctorGLM针对特定疾病的专业知识和可靠性。

d58cb9a6e71910afc80d4811061e7efd.png

Visual Med-Alpaca: A Parameter-Efficient Biomedical LLM with Visual Capabilities

本文提出Visual Med-Alpaca,是一个开源的、参数高效的生物医学基础模型,可以与医学“视觉专家”集成以进行多模态生物医学任务。该模型建立在LLaMa-7B架构上,使用由GPT-3.5-Turbo和人类专家协作策划的指令集进行训练。利用几个小时的指令调整和即插即用的视觉模块,Visual Med-Alpaca 可以执行各种医学任务。

数据集构建:从 BigBIO 存储库中的各种医学数据集中提取医学问题,然后提示 GPT-3.5-Turbo 合成这些问题的答案,之后执行多轮人工过滤和编辑来优化问答对,从而产生包含 54k 指令的高质量指令集。

视觉模态:Visual Med-Alpaca 支持两个不同的视觉expert:Med-GIT 和 DePlot。Med-GIT 是一个用于图像到文本生成的模型,这里使用 ROCO 数据集进行微调,以促进专门的放射学图像字幕生成。DePlot可以将图形或图表的图像转换为表格,其输出可以直接用于提示预训练的大型语言模型。

由于基础模型提供了一个模块化且适应性强的框架用于整合各种视觉模块,在此框架内,任何多模态的任务都可可以分为两个基本阶段:图像到文本的转换和基于文本的推理。在本文中,视觉专家(即视觉基础模型)将医学图像转换为中间文本表示,然后将转换后的数据用于提示预训练的 LLM,利用 LLM 固有的推理能力来生成适当的响应。

Visual Med-Alpaca 通过提示增强方法连接了文本和视觉模态。首先,图像输入被送入类型分类器,选择对应的视觉模型后得到文本输出,然后将其附加到文本输入以用于后续推理过程。然后,prompt manager将从图像和文本输入中提取的文本信息合并到 Med-Alpaca 的prompt中,之后再进行文本的推理产生输出。

7a17d1a45188198cacf0272d0f57162a.png

XrayGLM: The first Chinese Medical Multimodal Model that Chest Radiographs Summarization

最近,大型通用语言模型取得了显著的成功,能够遵循指令并生成与人类类似的回应。这种成功在一定程度上推动了多模态大模型的研究和发展,例如MiniGPT-4等。然而,这些多模态模型在医学领域的研究中很少见,虽然visual-med-alpaca在医学多模态模型方面取得了一些有成效的工作,但其数据仅限于英文诊断报告,对于推动中文医学多模态模型的研究和发展并不利。因此,为了解决这个问题,本文开发了XrayGLM模型。

本文借助ChatGPT和公开的胸片图文对数据集,构造了中文的X光片-诊断报告数据集,并使用该数据集在 VisualGLM-6B上进行微调训练。

f96fd6432d6a5701b0d85ac415f6d431.png

总结:现有的大语言模型在医学方面的工作集中在评测、微调、多语言、多模态、数据集构建等方面,仍然处于探索和初步阶段,医学领域的安全性问题更加重要,交互式医学系统还需要进一步发展和完善。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37763.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【NLP】首个支持联网的中文 AI 问答模型,开源了!

2021 年 12 月&#xff0c;OpenAI 正式推出 WebGPT&#xff0c;该项目的横空出世&#xff0c;标志着基于网页搜索的问答新范式的诞生。 在此之后&#xff0c;New Bing 首先将网页搜索功能整合发布&#xff0c;随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。 大模型在联…

清华ACL2023 | WebCPM:首个联网支持中文问答开源模型

来自&#xff1a;PaperWeekly 进NLP群—>加入NLP交流群 2021年12月 WebGPT 的横空出世标志了基于网页搜索的问答新范式的诞生&#xff0c;在此之后&#xff0c;New Bing 首先将网页搜索功能整合发布&#xff0c;随后 OpenAI 也发布了支持联网的插件 ChatGPT Plugins。大模型…

刚刚!马斯克开源Twitter算法,GitHub Star数已破万!

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 ChatGPT种子用户招募&#xff08;无限制次数直接使用&#xff09; ChatGPT调研报告&#xff08;仅供内部参考&#xff09; 文心一言、GPT3.5及GPT4…

招募:AICG内容联合创作计划 | AIGC实践

AIGC&#xff08;AI Generated Content&#xff0c;人工智能自动生成内容&#xff09;必将成为小微创业团队进行低成本内容运营的最佳实践。 你同意这个观点吗&#xff1f; 如果我们恰好想法一致&#xff0c;或许可以一起搞点事情&#xff0c;探索一下商业场景下&#xff0c;应…

【原创】实现ChatGPT中Transformer模型之输入处理

作者&#xff1a;黑夜路人 时间&#xff1a;2023年7月 Inputs Process&#xff08;输入处理层&#xff09;实现 我们看整个绿色框的整个位置&#xff0c;就是Inputs Process&#xff08;输入处理层&#xff09;。 在输入处理层&#xff0c;其实非常容易理解&#xff0c;主要就…

Visual Studio Community 2022 + Win10 编译 OpenCPN 5.9.0 记录

前言 前两天尝试用vs2017编译OpenCPN5.0.0&#xff0c;前后折腾了两三天总算编译成功了。官网给出的编译过程比较简单&#xff0c;我在实际编译过程中遇上了很多很多的问题&#xff0c;最多的就是缺少库&#xff0c;好在最后编译通过了。 后来浏览OpenCPN官网的时候发现发布了…

jmeter简单使用以及报告生成

jmeter入门 前置准备jmeter目录介绍jmeter常用组件jmeter简单食用 第一次写文章&#xff0c;主要就是一些简单的自学笔记&#xff0c;记录一下自己以后能方便看&#xff0c;大家需要的话也可自行取用&#xff0c;这些年干下来&#xff0c;我发现内容不重要&#xff0c;重要的是…

学会 IDEA 中的这个功能,就可以丢掉 Postman 了

点击关注公众号&#xff0c;Java干货及时送达&#x1f447; 转自&#xff1a;oschina 作者&#xff1a;凯京技术团队 my.oschina.net/keking 前言 接口调试是每个软件开发从业者必不可少的一项技能&#xff0c;一个项目的的完成&#xff0c;可能接口测试调试的时间比真正开发写…

分享:python+Windows自带任务计划程序,实现定时自动删微信的video文件夹

目录 0. 背景1. 使用python实现删微信的video文件夹1.1 代码1.2 打包 2. 使用python实现自动添加任务计划程序2.1 代码2.2 打包 3. 使用bat脚本方便操作3.1 手动删.bat3.2 加入定时任务.bat 0. 背景 pc微信实在太占用磁盘空间了&#xff0c;特别是其中的视频文件夹。所以有了这…

搭建本地服务器+jshtml访问mysql并显示输出

文章目录 人生苦短&#xff0c;先问chatgpt1. 用Tomcat配置本地网站2. 访问本地网页3. js访问本地mysql并显示在html中 PS: Chatgpt实在是有点强~~ 今天是悲伤的一天&#xff0c;把mysql密码忘了&#xff0c;网上搜的方法没用&#xff0c;本来以为卸载部分组件就好&#xff0c;…

3句代码,实现自动备份与版本管理

前言&#xff1a; 服务器开发程序、测试版本等越来越多&#xff0c;需要及时做好数据的版本管理和备份&#xff0c;作为21世界的青年&#xff0c;希望这些事情都是可以自动完成&#xff0c;不止做了数据备份&#xff0c;更重要的是做好了版本管理&#xff0c;让我们可以追溯我们…

【编程实践】Linux Shell 编程:使用 循环和递归 实现斐波那契数列代码

用 Linux Shell 编程语言递归实现斐波那契数列代码:循环和递归 Linux Shell 编程语言是一种强大的工具,它可以轻松地实现程序设计语言中的常见算法。 斐波那契数列 斐波那契数列是一种经典的算法,它的定义如下: 斐波那契数列(Fibonacci Sequence)是以递归的方法来定义: …

chatgpt赋能python:Python下载与运行指南-让Python脚本更容易使用

Python下载与运行指南 - 让Python脚本更容易使用 Python已经成为世界上最流行的编程语言之一。Python具有简单易用的特点&#xff0c;几乎可以开始创建任何类型的应用程序或脚本。如果你是一名新手或是一名经验丰富的开发者&#xff0c;Python都是一款优秀的编程语言。 本篇文…

人教版初中英语听力软件,人教版初中英语听力mp3

新目标英语九年级上册Tapescripts所有的翻译 east东方的、eagerness热心、eagle鹰、ear耳朵&#xff0c;听力、early早等。 词汇解析一、east 英 [iːst]   美 [iːst]    adj. 东方的adv. 向东方n. 东方&#xff1b;东部1、east的基本意思是“东&#xff0c;东方”&…

英语语音题

语音题 a i i在nd和gh前发[ai] y th 词首[θ] the、ther结尾[] ch tion ow[哦][奥] oo ar ed 清读[t] 浊元读[d] t、d后读[id] 清&#xff1a;破客服吃屎&#xff0c;戳死赐死 ea o s ou e 欸 b ure 呃 优呃 屋呃 h gh ex 后有元[igz] 后有辅[iks] c al ai wh w在wr、…

ChatGPT: Optimizing Language Models for Dialogue

1.简介 最近ChatGPT很好&#xff0c;本文根据https://openai.com/blog/chatgpt/翻译总结的。 ChatGPT: Optimizing Language Models for Dialogue。如标题&#xff0c;ChatGPT为了对话使用的。 ChatGPT是InstructGPT的兄弟模型&#xff0c;它被训练为以提示prompt的方式遵循…

挑战OpenAI,马斯克宣布xAI正式成立:目标是“了解宇宙真实本质”!

挑战OpenAI&#xff0c;马斯克宣布xAI正式成立&#xff1a;目标是“了解宇宙真实本质”&#xff01; 一、马斯克官宣xAl硬刚OpenAl二、创始团队1/3成员是华人三、马斯克下了一盘棋 北京时间7月13日凌晨&#xff0c;马斯克在Twitter上宣布&#xff1a;“xAI正式成立&#xff0c;…

昨天OpenAI GPT-4,今天微软Copilot,轮番上阵碾压谁?

来源&#xff1a;《飞哥说AI》公众号 作者&#xff5c;高佳 创意&#xff5c;李志飞 微软Copilot横扫Office全系产品&#xff0c;正式改名为Microsoft 365 &#xff0c;其野心昭然。 微软全家桶自带AI智能驾驶模式&#xff0c;意味着 Windows 全AI系列新品将火速渗透各行各业…

自然语言处理:Word2Vec

每种动物都有自己的语言&#xff0c;机器也是&#xff01;自然语言处理&#xff08;NLP&#xff09;就是在机器语言和人类语言之间沟通的桥梁。 NLP通常有情感分析、文本挖掘、信息抽取、信息检索、问答/对话系统&#xff08;聊天机器人&#xff09;、语音识别、机器翻译等应用…

周鸿祎:ChatGPT可能两三年内产生自我意识;字节加入大模型之战;Ubuntu下一版本默认不再支持Flatpak| 极客头条...

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&#xf…