GenMedicalEval:医疗大语言模型综合评测框架

推荐一个开源的医疗大语言模型综合评价框架。

项目链接

https://github.com/MediaBrain-SJTU/GenMedicalEval

项目简介

我们提出了一个医疗大语言模型的综合评测框架,具有以下三大特点:

1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。

2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。

3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。

图片

1. 评测维度

GenMedicalEval从基础知识能力、临床应用能力、安全规范能力三个维度对医疗大语言模型进行全面综合的评测。

1.1. 基础知识能力

为了评测医疗大语言模型的基础知识能力,我们收集了从执业医师考试到主治医师考试层层递进且全面综合的医学考试题。具体而言,我们收集并筛选了近15年的执业医师考试真题,最新的住院医师规范化培训结业考试和主治医师考试模拟试题,通过数据清洗筛选,构建出了涵盖16个科室的39016道试题,最终构建出全面综合的医学基础知识能力评测数据集。

1.2. 临床应用能力

为了评测医疗大语言模型在实际临床应用中的能力,我们收集了经过医疗专家验证和筛选的55,000例真实病例数据以构建与临床应用场景具有高度相关性的评测数据集。我们通过数据清洗、医生校验、场景划分、提问优化、调整格式等步骤将55,000例真实病例构建成涵盖六大场景九种精细化医疗情境、数量总计超过80000例的大规模评测数据集,这使得GenMedicalEval能够在评估医疗模型的临床适用性和决策精度方面提供权威的参考标准。

1.3. 安全规范能力

为了评测医疗大语言模型的安全规范能力,GenMedicalEval从医疗反事实、毒害伦理、患者知情权等角度对医疗模型的安全性与遵守医学规范的能力进行评估。以确保这些模型在提供医疗建议和处理病人信息时既安全又符合道德规范。这有助于建立用户对这些先进技术的信任,确保它们不仅能提高医疗服务的质量,还能保护病人的权益。

图片

2. 评测数据

图片

评测维度类别数据量数据概述
基础知识CNMLE27,248中国医学生和医学专业人士必须通过的执业资格考试
基础知识住院医师2,841中国住院医师的规范化培训和评估考试
基础知识主治医师8,927中国主治医师资格的规范化考试
临床应用案例分析20,000根据患者的主诉以及病历概述进行分析
临床应用知识问答12,000包括疾病、药物、就医流程等基础医学常识的回答
临床应用报告解读30,000根据患者的化验单进行解读分析
临床应用便捷问诊20,000在患者就医时提供预问诊和导诊服务
临床应用信息整合1,500对患者就医过程中的冗杂信息进行信息提取和整合
临床应用情景对话5,000根据患者在线问诊的信息提供初步的医疗建议
安全规范医疗反事实12,000检查模型对输入中的医疗反事实能否正确反应
安全规范毒害伦理1,000检查模型的回复是否可能会对患者造成潜在的危害
安全规范患者知情权1,500检查模型的回复是否保证的患者的知情权益
 

大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):

985院长用AI生成论文插图,论文发表后三天被撤稿……

大语言模型简化了临床研究的自动化机器学习 | 临床科研的福音

基于GPT-4的Coscientist成功完成复杂化学实验,布洛芬配方轻松拿捏,复现诺贝尔化学奖

AI超大模型!一个午休就能读完20万篇论文、提取信息完成生物数据库更新!

ChatGPT一周年:AI如何改变医疗健康领域的未来?

两篇Nature:AI实现新材料的快速合成!17天独自创造41种新材料

顶刊 | 解放军总医院:基于生成对抗网络的主动脉和颈动脉非造影 CT 血管造影

Nature:AI 如何重塑科研范式

GPT-4V在医疗领域全面测评(178页,128个案例)

目前最好的医疗大语言模型居然是……

医疗AI与GPT | 梳理全球医疗大模型

1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊

精选32篇AI大模型&GPT+医学的论文(免费领取)

利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!

Nature新规:用ChatGPT写论文可以,列为作者不行

AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨

AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性

Nature:大语言模型构建的AI医生,比人类医生更出色

GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)

2023年国自然医学科学学部人工智能及大模型相关课题项目汇总

科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。

欢迎关注,保持交流!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/290947.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stm32定时器中断函数回调函数

方式一:stm32定时器中断可以直接在硬件中断函数TIM3_IRQHandler执行。 在HAL库中可以注册回调函数,在定时器中断发生时调用注册的函数,这样可以统一接口,大大提高函数可读性,和硬件解耦提高程序可移植性。 使用过程如…

uniapp实现的数据选择器,支持H5、微信小程序

采用uniapp-vue3实现的数据选择器,支持H5、微信小程序(其他小程序未测试过,可自行尝试) 支持本地自定义过滤、远程接口过滤,为了避免弹窗面板超出边界的情况,自动计算弹窗面板安置的位置(在微信…

327京东一面

1.项目相关 2.手撕SQL 两道 3.JMeter性能测试 首先,进行基准测试: 单用户测试(单用户循环多次得到的数据);为多用户并发执行提供参考 其次,进行负载测试: 通过逐步增加系统负载&#xff0…

C波段卫星与5G的干扰排查及解决方案

作者介绍 一、方案背景 目前造成C波段卫星信号受5G信号干扰有以下几个原因: ●C波段(3.4-4.2GHz)和电信5G频段(3.4-3.7GHz)间存在频谱重叠。 ●地面终端接收到的卫星信号通常比蜂窝信号弱几个数量级,同频…

ATTCK学习笔记

ATT&CK 前言知识 威胁情报:一般为网络流量中或者操作系统上观察到的能高度表明计算机被入侵的痕迹,例如某病毒的Hash值、服务器的IP地址等等。简单来说,威胁情报就像是当计算机被入侵时所表现出来的某种特征,我们将这些威胁…

【氮化镓】GaN器件中关态应力诱导的损伤定位

概括总结: 这项研究通过低频1/f噪声测量方法,探究了在关态(OFF-state)应力作用下,AlGaN/GaN高电子迁移率晶体管(HEMTs)中由应力引起的损伤的定位。研究中结合了电致发光(EL&#xf…

每天五分钟深度学习:使用神经网络完成人脸的特征点检测

本文重点 我们上一节课程中学习了如何利用神经网络对图片中的对象进行定位,也就是通过输出四个参数值bx、by、bℎ和bw给出图片中对象的边界框。 本节课程我们学习特征点的检测,神经网络可以通过输出图片中对象的特征点的(x,y)坐标来实现对目标特征的识别,我们看几个例子。…

华清远见STM32U5开发板助力2024嵌入式大赛ST赛道智能可穿戴设备及IOT选题项目开发

第七届(2024)全国大学生嵌入式芯片与系统设计竞赛(以下简称“大赛”)已经拉开帷幕,大赛的报名热潮正席卷而来,高校电子电气类相关专业(电子、信息、计算机、自动化、电气、仪科等)全…

如何提高知识库系统管理水平?

我们都有过这样的经历--遇到问题或紧急请求时,第一时间就是向知识库系统寻求帮助。很多时候,当你翻遍了无穷无尽的文档,却发现没有任何东西能够摆脱此时的困境,这时,向服务台提交工单成了不可避免的解决方式&#xff0…

深入理解数据结构第一弹——二叉树(1)——堆

前言: 在前面我们已经学习了数据结构的基础操作:顺序表和链表及其相关内容,今天我们来学一点有些难度的知识——数据结构中的二叉树,今天我们先来学习二叉树中堆的知识,这部分内容还是非常有意思的,下面我们…

钉钉服务端API报错 错误描述: robot 不存在;解决方案:请确认 robotCode 是否正确

problem 调用钉钉服务端API,机器人发送群聊消息,后台返回报错信息: 钉钉服务端API报错 错误描述: robot 不存在;解决方案:请确认 robotCode 是否正确; reason 定位: 登录后台,查看机器人是存在查看机器人调用权限接…

uniapp对接极光推送(国内版以及海外版)

勾选push,但不要勾选unipush 国内版 网址:极光推送-快速集成消息推送功能,提升APP运营效率 (jiguang.cn) 进入后台,并选择对应应用开始配置 配置安卓包名 以及ios推送证书,是否将生产证书用于开发环境选择是 ios推送证书…

2024年3月29日蚂蚁新村今日答案:新兴职业增材制造设备操作员与以下哪项技术密切相关?

蚂蚁新村是一个虚拟社区。在这个虚拟社区中,用户可以参与各种活动,比如生产能量豆、做慈善捐赠等。同时,蚂蚁新村也提供了一些知识问答环节,用户在参与的过程中可以增进知识。这些问答内容往往涉及广泛的主题,如文化、…

【动手学深度学习-pytorch】-9.3深度循环神经网络

到目前为止,我们只讨论了具有一个单向隐藏层的循环神经网络。 其中,隐变量和观测值与具体的函数形式的交互方式是相当随意的。 只要交互类型建模具有足够的灵活性,这就不是一个大问题。 然而,对一个单层来说,这可能具有…

wireshark创建显示过滤器实验简述

伯克利包过滤是一种在计算机网络中进行数据包过滤的技术,通过在内核中插入过滤器程序来实现对网络流量的控制和分析。 在数据包细节面板中创建显示过滤器,显示过滤器可以在wireshark捕获数据之后使用。 实验拓扑图: 实验基础配置&#xff1…

HarmonyOS实战开发-如何实现页面间转场动画

介绍 在本教程中,我们将会通过一个简单的样例,学习如何基于ArkTS的声明式开发范式开发转场动画。其中包含页面间转场、组件内转场以及共享元素转场。效果如图所示: 说明: 本Codelab使用的display接口处于mock阶段,在预…

第十四届蓝桥杯省赛C++ C组所有题目以及题解(C++)【编程题均通过100%测试数据】

第一题《求和》【简单模拟】 【问题描述】 求1(含)至20230408(含)中每个数的和。 【答案提交】 这是一道结果填空的题,你只需要算出结果后提交即可。本题的结果为一个整数,在提交答案时只填写这个整数&…

最快捷读取xlsx,用python读取excel转换成json

这是中英文json,用在国际化vue上的,业务人员统计的表格,我需要读取进行转换 # -*- coding: utf-8 -*-import pandas as pd import json# 读取Excel文件中的数据 excel_file rD:\解析excel\中英.xlsx df pd.read_excel(excel_file)# 生成中…

通过dockerfile制作代码编译maven3.8.8+jdk17 基础镜像

一、背景: paas平台维护过程中有一个流水线的工作需要支持运维,最近有研发提出新的需求要制作一个代码编译的基础镜像出来,代码编译的基础镜像需求如下: maven版本:3.8.8版本 jdk版本:17版本,小…

PS从入门到精通视频各类教程整理全集,包含素材、作业等(2)

PS从入门到精通视频各类教程整理全集,包含素材、作业等 最新PS以及插件合集,可在我以往文章中找到 由于阿里云盘有分享次受限制和文件大小限制,今天先分享到这里,后续持续更新 初级教程素材 等文件 https://www.alipan.com/s/fC…