医疗版ChatGPT直播评测!治疗方案与真人医生96%一致

杨净 发自 凹非寺
量子位 | 公众号 QbitAI

国内首个医疗大模型,已经在“接诊”患者了。

0efcf5e459d414162b75e769377255e7.png

最近,一组AI医生医院真实站岗数据曝光:

  • 共接诊120多名患者,从问诊、检查到诊疗方案全流程覆盖;

  • 涉及心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科七大疾病科室,患者疾病类别多元,复杂程度不一;

  • 医学水平不输国内三甲医院主治医生,与真人医生诊疗方案一致性达到96%;

  • 来自北大人民医院、中日友好医院、阜外医院和友谊医院等国内顶尖医院的7位专家教授围观点赞。

这样公开化、规模化的AI医生评测,在国内是首次,放眼全球也是第一次见到

更想不到的是,背后的主角MedGPT——基于Transformer的1000亿参数大模型,才刚问世一个月。

目前在实际诊疗中,它已经具备多轮连续对话和多模态能力。而在未来规划中,MedGPT还会上线医疗版的Plugin Store,预计将搭载1000+医疗应用,极大丰富AI医生的诊疗工具,提升诊疗效率。

从上述这些数据与表现来看,96%的一致性,想不到。

这样的迭代速度,更想不到。

MedGPT直播首秀:接待百名患者

这场直播首秀其实是一场实打实的人机医学一致性评测。除了AI医生MedGPT外,还有10位来自四川大学华西医院的主治医师共同参与。

为了保证评测的权威性和科学性,一方面由国内顶尖医院的专家教授组成评审团,进行审核和多维度打分。

另一方面,整个流程也进行了特别的设计。简单来说,患者进屋问诊,但是是和有医师执业资格的“翻译员”对话。翻译员把患者主诉在电脑上分别传递给真人医生和AI医生,如此多轮往复,最终根据检查结果,给出诊断。

就像当初AlphaGo大战围棋,中间帮助Alpha执行“落子”动作的执棋手,就是这个“翻译员”的角色了。

aac63fea4e2e9428ff8255efbbe06413.png

这样一来AI医生与真人医生之间互不干涉,且条件基本一致,双方就能给出独立的判断。

1720c4d3f3c4e2b56e082bbc4fae9f1e.png

最终,经过一天的鏖战,真人医生综合得分为 7.5分,AI 医生综合得分为 7.2分,比分结果上一致性达到了96%。

c91183a51404647b3c2400f76a3dd68f.png

在评审过程中,专家们也发现了一些意想不到的“惊喜”:

比如,出现漏诊误诊的概率比较小。

北大人民医院薛峰主任就发现,MedGPT通过多轮询问,根据患者脚底板疼痛症状,竟然在最后可以推断诊断出「有可能出现压迫颈神经」这样的结果。

这也就是说,从知识储备上,AI医生其实可能高于一个经验不太丰富的医生。

另外,MedGPT就诊时的“沉稳”表现也得到了点赞。

中日友好医院心内科主任医师任景怡就表示:我觉得最好的一点是当诊断尚不明确时,MedGPT并不会轻易给出结论,而是要坚持通过继续问诊或检查收集更多信息。

于是即便MedGPT还存在一定问题,她还是给了比真人医生还高的分数,并直言:这是里程碑的结果

99e97c42578a88f3010c7fe9a15953e7.png

不可否认的是,MedGPT还有些问题需要调整,几位专家指出它会出现偶尔过度给出治疗建议、重复推荐检查项目、某些概念表述不准确,以及无法实现查体等局限——要想MedGPT更加可用,这些意见一定程度比正面评价还要重要。

但总的来说,首个医疗大模型的公开首秀的结果还算不错。

总结下来,首先是大模型的基本能力都有,语义理解、多轮对话、多模态识别等,还能像OpenAI那样通过插件商店链接到各种行业应用。

还有通用大模型被广为诟病的对齐和准确性问题,MedGPT整个流程结果也不输真人医生。

再从行业维度来看,确实能真正从医学角度为医生提供有效帮助,提升患者疾病管理效率。

此次真实测试过程中可以看到,它能基于有效问诊以及医学检查数据,MedGPT得以进行准确的疾病诊断,并为患者设计疾病治疗方案。

51ec55369f1beb8288f12e18e3dfba48.png

甚至在诊后,MedGPT还会在患者收到药品后进行用药指导与管理、智能随访复诊、康复指导等智能化疾病管理工作。

目前它基本覆盖ICD10的60%疾病病种,这意味着常见病症都能Hold住~

还能7*24小时不间断干活,一旦规模化落地辅助医生诊疗,能大大提升医疗效率,对于分级诊疗,医疗资源普惠,都能够发挥一定作用。

首个医疗大模型如何炼成?

医疗向来是AI落地中专业性最强、壁垒性最高,对安全要求最高的领域之一。

以往用户们会习惯性使用信息搜索来帮助自己做一些初步的疾病判断,但信息鱼龙混杂,普通用户缺乏专业知识无法进行有效筛选,最终导致往往会收效甚微。

但又因为这个领域牵涉到每个人的生命健康,市场需求和社会价值一直很大。

因此自ChatGPT诞生以来,关于何时能在医疗领域“上岗”发挥作用,就备受产学研各界专家的关注。

诚如“弱智吧”成为检验各个通用大模型能力的Benchmark一样,各个大模型的医疗能力也在美国执业医师资格考试USMLE中摩拳擦掌。

早些时候, 哈佛大学教授曾亲自下场测试ChatGPT辅助诊断的表现。

结果显示,ChatGPT在45个案例中39个诊断正确,并为30个案例提供适当的分诊建议。这样的表现已经超过现有机器诊断水平,接近医生。

另一个代表,谷歌健康团队打造的Med-PaLM 2,它能回答各种医学问题,据称是首个在美国医疗执照考试中达到专家水平的大语言模型。

9a426c73423e348b5fae2f8b7c7c8fdf.png

但能做题并不能意味着就能落地应用。

GPT-4为首的通用大模型,他们高度依赖文本统计概率生成答案。相信大家也能感知到它很擅长一本正经地胡说八道,如果应用在日常交流,倒也乐在其中。

但要是应用到行业中去,往往非专业人士会难以察觉,这就会引发各种风险,尤其又像医疗这种民生行业,对内容生成的把控要求更高,容不得半点差池。

更不用说医疗本身覆盖知识面广而繁杂,而且从整个就医流程来看,诊前、诊中、诊后都涉及各种各样长尾任务,所需高质量数据可能并不比通用模型小,且大部分数据不是靠网上摘取。

2d0e1b154c9cbf6a16cd978b0d7dc350.jpeg

这对企业来说,不单只是算法、算力和数据的考验,而是一整套系统工程性难题。

既然如此,作为国内首个医疗大模型MedGPT,又是如何做到的呢?

简单总结:专业大模型,以及多种准确性机制保架护航

首先,一上来就打造医疗大模型

此前专业大模型的思路是,先打造一个大模型,再利用专业数据做监督微调。但MedGPT直接是以医疗数据预训练、微调以及超100名医生参与RLHF机制。

3635583c5a4798d48fff3e5815188437.png

这就需要企业既要在垂直行业深耕,还要有AI技术实力。这就需要提及它背后的缔造者——医联

在行业上,作为互联网医疗的早期入局者,医联已经积累了超过150万医生和2000万患者,稳固的医患关系链长期互动之下,形成了大量专业的医学数据。

此外医联长期关注医疗与技术的深度融合,已打造了近140个疾病管理标准化流程,涉及肿瘤、心脑血管、糖尿病等常见病症,覆盖1000多个病种,形成了一整套全数字化全流程疾病管理体系。

互联网医疗时代,这些疾病管理体系可以为行业提供线上管理的有效依据,提升行业整体效率。而在AI赋能下的数字医疗行业来临之时,这便成了AI医疗的重要依托。

16458d75eec3a1f5e37aba3092f761a6.jpeg

至于在AI方面,这家公司很早就开始关注并进行谋划:早在2017年医联就建立起医疗大数据结构化能力;2018年就将NLP、CV等AI技术应用落地,比如智能体液检测、智能分诊、口腔影像识别等场景。

2019年还推出针对单病种/分阶段的AI诊疗模型,曾联手多家医院及机构,创建亚洲首个多发性硬化症领域的早筛AI模型,帮助患者提前1-3年提升多发性硬化症的风险预测和防控能力。

这些前期在AI领域的摸索以及长期的医学与前沿技术的融合,成为医联能率先在行业内推出医疗大模型并应用的基础,可以说这一切绝非偶然。

让我们再往深看一步,为了保证医疗大模型的准确性和一致性,医联从模型到实际应用同样做了不少工作。

包括模型算法的一致性校验机制、多维度诊疗评测机制,以及基于专家评议的真实世界医生一致对标机制

0f89594ae7c3756fc4b14b51cfca9c3e.png

比如,在为患者输出正式答案前,会先经过临床医学规则器的校验。还有招募真实医生在电脑前判断,然后将两者结果交给专家委员会评议,以此来对标真实医生。

基于这样的方法论,医联团队率先为专业大模型的打造在行业中打了个样。

医疗AI2.0大幕拉开

最后回到MedGPT公开评测这件事情本身,也带来了大模型发展进程中的三点趋势。

第一、医疗AI2.0大幕已经拉开,系统复杂性问题将会得到解决

以大模型为代表的AI2.0时代的到来——对话即入口,让所有的应用场景都得到了重新定义。被AI所辐射的千行百业也深处于变革之中。

81f214907afcc8f1f8c5ef50cd2a360f.png

以往AI 1.0,NLP、CV、多模态等单点技术蓬勃发展,医疗AI应用场景丰富多样,他们强规则、具有可控性。但场景、数据之间没有打通,导致泛化能力不强,无法处理系统性、复杂性的问题。

得益于Transformer,打破了模态、数据、任务场景之间的壁垒。医疗场景中,利用海量医学文本与数据中,进行高并发/长距离学习整合,一些复杂性、系统性问题可以得到解决。

如果继续畅想,结合医联的云药房、云检验等云化能力,不仅是AI医生本身疾病管理能力会得到提升,患者甚至可以摆脱地理限制,轻松完成所有疾病从预防、诊断、治疗、康复的全流程管理路径。

这其实也并不难想象,只需要知道有一个能看各个专科领域并且比肩三甲医院医生的AI医生能够24小时在你身边为你出诊,同时,检验检测服务在家附近1公里就能全部完成。

有去三甲医院排队挂号看病经历的同学应该都懂——专家挂不上号、检验检查等一个月,这都是时有发生的事情。降本增效、解决行业问题,走入医疗的下一个时代,就是靠MedGPT这类专业模型做的。

第二、大模型的行业红利并非在科技巨头手中,而在有场景有数据的玩家手里

相信大家都或多或少有所看到,目前医疗领域的专用大模型和产品正在不断问世,最具代表性的产品来自谷歌和微软这两个大厂。

谷歌Med-PaLM 2目前正在尝试多模态能力,比如自己检查X光片后给出诊断。在今年晚些时候将对一小部分谷歌云用户开放。

3e5fee2f76f36ed8d8c983f292ad07b8.gif

还有被微软200亿美元收购的Nuance,借由微软OpenAI合作之便,正在将GPT-4集成到临床笔记软件DAX中,以减轻临床医生的负担。

前者的大模型还没有到真正落地,后者无非是集成通用大模型的API,其行业的准确性和一致性无法得到保障。

但MedGPT一亮相就惊艳全场,并拿下多个行业首次:

首次突破AI医生多轮对话的难题;

首次实现从有效问诊到医学检查的跨越;

首次实现AI给出准确诊断和治疗方案;

首次AI具备全流程诊断能力……

这与垂直领域深耕、有场景有数据有关。

医联在医疗行业有9年深耕,积累了丰富的知识、数据和应用,构筑起了深厚的技术和用户壁垒。

一旦实现大模型技术的应用, 在现有的用户场景基础之下,将会迅速规模化落地。这是其他想入局者无法拥有的先发优势。

上一次AI浪潮来袭时,最终也是场景玩家率先吃掉AI红利。

现在同样也依旧是场景玩家吃掉大模型红利,只不过技术路径已经明晰,落地速度自然要比以往快得多。

第三,医疗AI落地提速,也侧面印证了大模型的发展趋势——

雪球效应展现,从技术到应用部署的飞轮会越转越快

ChatGPT最开始只会一本正经地胡说八道,短短几个月内基于用户反馈、插件开发生态,真正被各行业的人加入到工作流中,并上线了端侧应用。

还有Midjourney、Stable Diffusion被人诟病无法画手的问题,也能在短短几周内解决;以及国内大模型涌现、更新速度加快,文心一言一个月能迭代四次等等。

大模型-应用-数据”的加速闭环一旦打通,那么产业落地的速度将会比上一波浪潮更快。

151a6f03bc739cb48a3282b80ee6c1c6.jpeg

而医联大模型MedGPT一个月就进入到真实患者全流程测试阶段。在此之后,根据数据飞轮迭代大模型,落地速度只会越来越快。

或许很快,医疗AI2.0就会惠及到每个人身边。

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15045.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用ChatGPT思维分析硬科技创新趋势

2015年初夏,我去参加了在北京举办的联想科技大会。在会上,联想、英特尔、微软三位CEO第一次并肩上台发言,他们的演讲中都透露出对移动互联网行业的苦恼和无奈。尤其是微软的新CEO萨提亚纳德拉(Satya Nadella)&#xff…

微软为ChatGPT打造专用超算!砸下几亿美元,上万张英伟达A100打造

萧箫 发自 凹非寺量子位 | 公众号 QbitAI 微软砸下大几亿美元,专门为训练ChatGPT打造了一台超算—— 上万张英伟达A100芯片打造,甚至专门为此调整了服务器架构,只为给ChatGPT和新必应AI提供更好的算力。 △图源:微软 不仅如此&…

一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣

作者丨好困 来源丨学术头条 编辑丨新智元 点击进入—>3D视觉工坊学习交流群 【导读】最近,来自苏黎世大学的研究团队发现,ChatGPT在多个NLP标注任务上胜过众包工作者,具有较高一致性,且每次标注成本仅约0.003美元,比…

第2章信息技术发展

信息技术是在信息科学的基本原理和方法下,获取信息、处理信息、传输信息和使用信息的应用技术总称。从信息技术的发展过程来看,信息技术在传感器技术、通信技术和计算机技术的基础上,融合创新和持续发展,孕育和产生了物联网、云计…

ES+Redis+MySQL,这个高可用架构设计太顶了!

大家好,我是宝哥! 背景 会员系统是一种基础系统,跟公司所有业务线的下单主流程密切相关。如果会员系统出故障,会导致用户无法下单,影响范围是全公司所有业务线。所以,会员系统必须保证高性能、高可用&#…

私有云到底是不是云?

私有云是不是云?这是一个问题。 大部分认为私有云不是云的人都是出于自身利益的立场,试图抹黑私有云。虽然私有云在某些场景下功能不如公有云强大,但否定私有云就像否定残疾人的人类地位,或者否认个人电脑是计算机一样。 尽管私有…

借由Net5.5G,看到运营商的新沧海

我们都记得这样一句诗:“东临碣石,以观沧海”。 想要看到沧海的壮阔波澜,就先要抵达碣石山这样可以看到大海的地方。在数字化的发展过程中,往往一个技术或产业趋势就是一座碣石山,借由它可以看到描绘着未来机遇的新沧海…

面向对象编程之父 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 17 日,在 1969 年的今天,国际电信联盟第二十四届行政理事会正式通过决议,决定把国际电信联盟的成立日—5 月 17 日定为…

通过chatGPT学习:L2网络和L3网络?

下面的总结是通过chatGPT4进行的。 1、 L2网络和L3网络 L2网络和L3网络是计算机网络中的两种不同的网络类型,它们有一些不同的特点和应用场景。 L2网络,也被称为数据链路层网络, 主要是通过物理地址(MAC地址)来转发…

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT 1 模型创新2 前期调研2.1 难以解决的问题 3 Method3.1 方法3.2 数据集3.2.1 RE3.2.2 NER3.2.3 EE 3.3 评价指标3.3.1 RE3.3.2 NER3.3.3 EE 4 效果 转载和使用规则:更多论文解读请关注&a…

OSI模型七层

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击查看学习资料) OSI将计算机网络体系结构(architecture)划分为以下七层&#xff…

【时间之外】系统管人,能行?(冷眼旁观连载之三)

这次是这个系列的第三篇。最近一直在搞chatGPT的应用,在写代码这方面,GPT真的很牛,几乎没有它不会的问题,简直比雇了一个高级程序员还好,而且是724小时,永不休息! 回到主题,下面继续…

在群晖中部署VoceChat

一、简介 VoceChat 是一款支持独立部署的个人云社交媒体聊天服务。15MB 的大小可部署在任何的服务器上,部署简单,很少需要维护。前端可以内嵌到自己的网站下,数据完全由用户自己掌握,传输过程加密。VoceChat 从 Slack, Discord, …

Midjourney AI绘画中文教程详解(完整版)模型、命令、参数与各种高级用法

我有一种预感,您一下子看不完这篇内容,您得【收藏】一下,以便下次接着看~~ Midjourney AI绘画中文教程,Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。 只要输入想到的文字,就能通过人…

Midjourney Discord的使用手册

探索Midjourney之旅,学习绘画与AI,一同成长。加入「阿杰与AI」公众号,参与内容社群建设。 1.Midjourney 新手快速起步指南2.Prompts-提示指令3.Explore Prompting-提示指令的探索4.Blend-叠加5.Midjourney Discord的使用手册6.Versions-版本…

ChatGLM-6B 部署与 P-Tuning 微调实战

自从 ChatGPT 爆火以来,树先生一直琢磨想打造一个垂直领域的 LLM 专属模型,但学习文本大模型的技术原理,从头打造一个 LLM 模型难度极大,所以这事儿就一直搁置了。 但最近一个月,开源文本大模型如雨后春笋般接踵而至&…

chatgpt赋能python:Python如何打开Word文档?

Python 如何打开 Word 文档? Python 是一种强大的编程语言,可以帮助我们完成各种重复性工作,其中包括自动化文件的处理。在这篇文章中,我们将学习如何使用 Python 打开 Word 文档。本文将介绍三种不同的方式:使用 Pyt…

chatgpt赋能python:Python创建Word文档指南

Python创建Word文档指南 在今天的数字时代,Word文档仍然是最常见和使用的文档类型之一。Python是一个强大的编程语言,可以用于自动化创建各种类型的文档,包括Word文档。在本篇文章中,我们将介绍如何使用Python创建Word文档&#…

奇舞周刊第486期:ChatGPT 的狂飙之路

记得点击文章末尾的“ 阅读原文 ”查看哟~ 下面先一起看下本期周刊 摘要 吧~ 奇舞推荐 ■ ■ ■ ChatGPT 的狂飙之路 最近随着 ChatGPT 爆火出圈,网络上各种关于 ChatGPT 的争论声也不断;有些人把它当成一个更高级的聊天机器人,有人兴奋地看到…

ChatGPT 如何应用于决策?Rationale 带你狂飙!

ChatGPT 回答多领域问题的能力之强悍,引发了全球关注。许多人将 ChatGPT 视为对话式 AI 或生成式 AI 发展史上的一个重要里程碑。从 ChatGPT 本身的生产力来看,它可以帮助人们完成很多事,比如写项目申报书、写股票查询代码,甚至写…