利用大型语言模型协作提升甲状腺结节超声诊断的一致性和准确性| 文献速递-基于深度学习的癌症风险预测与疾病预后应用

Title

题目

Collaborative Enhancement of Consistency and  Accuracy in US Diagnosis of Thyroid Nodules Using  Large Language Models

利用大型语言模型协作提升甲状腺结节超声诊断的一致性和准确性

Background

背景

Large language models (LLMs) hold substantial promise for medical imaging interpretation. However, there is a lack of studies on their feasibility in handling reasoning questions associated with medical diagnosis.

大型语言模型(LLMs)在医学影像解读中具有巨大的潜力。然而,关于其在处理与医学诊断相关的推理问题方面的可行性研究尚不足够。

Method

方法

US images of thyroid nodules with pathologic results were retrospectively collected from a tertiary referral hospital between July 2022 and December 2022 and used to evaluate malignancy diagnoses generated by three LLMs—OpenAI’s ChatGPT 3.5, ChatGPT 4.0, and Google’s Bard. Inter- and intra-LLM agreement of diagnosis were evaluated. Then, diagnostic performance, including accuracy, sensitivity, specificity, and area under the receiver operating characteristic curve (AUC), was evaluated and compared for the LLMs and three interactive approaches: human reader combined with LLMs, image-to-text model combined with LLMs, and an end-to-end convolutional neural network model.

2022年7月至2022年12月期间,从一家三级转诊医院回顾性收集了具有病理结果的甲状腺结节超声图像,并用于评估由三个大型语言模型(LLMs)生成的恶性肿瘤诊断——OpenAI的ChatGPT 3.5、ChatGPT 4.0和Google的Bard。评估了诊断的一致性,包括模型之间和模型内部的一致性。随后对LLMs的诊断性能进行了评估和比较,包括准确性、敏感性、特异性和受试者工作特征曲线下面积(AUC),并比较了三种互动方法:人类读片者与LLMs结合,图像到文本模型与LLMs结合,以及端到端卷积神经网络模型。

Conclusion

结论

LLMs, particularly integrated with image-to-text approaches, show potential in enhancing diagnostic medical imaging. ChatGPT 4.0 was optimal for consistency and diagnostic accuracy when compared with Bard and ChatGPT 3.5.

大型语言模型(LLMs),特别是与图像到文本的方法相结合时,在提升医学影像诊断方面显示出潜力。与Bard和ChatGPT 3.5相比,ChatGPT 4.0在一致性和诊断准确性方面表现最佳。

Results

结果

A total of 1161 US images of thyroid nodules (498 benign, 663 malignant) from 725 patients (mean age, 42.2 years ± 14.1 [SD]; 516 women) were evaluated. ChatGPT 4.0 and Bard displayed substantial to almost perfect intra-LLM agreement (κ range, 0.65–0.86 [95% CI: 0.64, 0.86]), while ChatGPT 3.5 showed fair to substantial agreement (κ range, 0.36–0.68 [95% CI: 0.36, 0.68]). ChatGPT 4.0 had an accuracy of 78%–86% (95% CI: 76%, 88%) and sensitivity of 86%–95% (95% CI: 83%, 96%), compared with 74%–86% (95% CI: 71%, 88%) and 74%–91% (95% CI: 71%, 93%), respectively, for Bard. Moreover, with ChatGPT 4.0, the image-to-text–LLM strategy exhibited an AUC (0.83 [95% CI: 0.80, 0.85]) and accuracy (84% [95% CI: 82%, 86%]) comparable to those of the human-LLM interaction strategy with two senior readers and one junior reader and exceeding those of the human-LLM interaction strategy with one junior reader.

对725名患者(平均年龄42.2岁,标准差±14.1;其中516名女性)的1161张甲状腺结节超声图像(498个良性,663个恶性)进行了评估。ChatGPT 4.0和Bard在模型内部显示出高度至几乎完美的一致性(κ范围为0.65–0.86 [95% CI: 0.64, 0.86]),而ChatGPT 3.5显示出中等至高度一致性(κ范围为0.36–0.68 [95% CI: 0.36, 0.68])。ChatGPT 4.0的准确率为78%–86%(95% CI: 76%, 88%),敏感性为86%–95%(95% CI: 83%, 96%),而Bard的准确率和敏感性分别为74%–86%(95% CI: 71%, 88%)和74%–91%(95% CI: 71%, 93%)。此外,使用ChatGPT 4.0时,图像到文本与LLM结合的策略表现出与两名高级读片者和一名初级读片者的人机交互策略相当的AUC(0.83 [95% CI: 0.80, 0.85])和准确性(84% [95% CI: 82%, 86%]),并且超过了仅有一名初级读片者的人机交互策略的表现。

Figure

图片

Figure 1: Diagram of study profile. The top box depicts three distinct model deployment strategies: human–large language model (LLM) interaction, in which a human reader initially interprets the image and the LLM generates a diagnosis; image-to-text–LLM, which employs an image-to-text model followed by LLM diagnosis; and convolutional neural network (CNN), which uses an end-to-end CNN model for image analysis and diagnosis. The middle box illustrates the analysis of LLM agreement and diagnostic performance using American College of Radiology Thyroid Imaging Reporting and Data System criteria. The bottom box illustrates the comparison of the three strategies in distinguishing between benign and malignant thyroid nodules.

图1:研究概况示意图。顶部框显示了三种不同的模型部署策略:人类与大型语言模型(LLM)的互动,其中人类读片者首先解读图像,然后由LLM生成诊断结果;图像到文本与LLM结合的策略,先使用图像到文本模型,然后由LLM进行诊断;以及卷积神经网络(CNN)策略,使用端到端的CNN模型进行图像分析和诊断。中间框展示了使用美国放射学会甲状腺影像报告和数据系统标准分析LLM的一致性和诊断性能。底部框则展示了三种策略在区分良性和恶性甲状腺结节中的比较。

图片

Figure 2: Flowchart of inclusion and exclusion criteria for patients and US im ages. FNA = fine-needle aspiration.

图2:患者和超声图像的纳入和排除标准流程图。FNA = 细针穿刺。

图片

Figure 3: Screenshots show the input prompts used and responses generated by ChatGPT 3.5 (OpenAI; https://chat.openai.com/) based on a single thyroid nodule. This response was recorded as a diagnosis of malignant.

图3:截图显示了基于单个甲状腺结节使用ChatGPT 3.5(OpenAI;https://chat.openai.com/)的输入提示和生成的响应。此响应被记录为恶性诊断。

图片

Figure 4: Screenshots show the input prompts used and responses generated by ChatGPT 4.0 (OpenAI; https://chat.openai.com/) based on a single thyroid nodule. This response was recorded as a diagnosis of malignant.

图4:截图显示了基于单个甲状腺结节使用ChatGPT 4.0(OpenAI;https://chat.openai.com/)的输入提示和生成的响应。此响应被记录为恶性诊断。

图片

Figure 5: Screenshots show the input prompts used and responses generated by Bard (Google; https://bard.google.com/) based on a single thyroid nodule. This response was recorded as a diagnosis of malignant.

图5:截图显示了基于单个甲状腺结节使用Bard(Google;https://bard.google.com/)的输入提示和生成的响应。此响应被记录为恶性诊断。

Table

图片

Table 1: Demographic and Clinical Characteristics of  Patients

表1:患者的人口统计和临床特征

图片

Table 2: Intra-LLM and Inter-LLM Agreement in Predicting Benign versus Malignant Thyroid Nodules

表2:大型语言模型(LLM)内部及不同LLM之间在预测良性与恶性甲状腺结节方面的一致性分析

图片

Table 3: Performance of Google Bard and ChatGPT 4.0 in Predicting Benign versus Malignant Thyroid Nodules

表3:Google Bard 和 ChatGPT 4.0 在预测良性与恶性甲状腺结节中的表现

图片

Table 4: Performance of Image-to-Text–LLM, Human-LLM Interaction, and CNN Strategies in Predicting Benign versus Malignant Thyroid Nodules

表4:图像到文本-LLM、人类-LLM交互和CNN策略在预测良性与恶性甲状腺结节中的表现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/406421.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis内存管理

Redis使用Jemalloc(默认编译)来进行内存的管理: Jemalloc将内存分成许多不同的区域,每个区域成为arena,areana之间相互独立。Jemalloc通过创建多个arena来减少线程申请内存的操作冲突。一般arena数量为cpu数量*4. arena以chunk为单位向操作…

FPGA 综合笔记

仿真时阻塞赋值和非阻塞赋值 Use of Non-Blocking Assignment in Testbench : Verilog Use of Non-Blocking Assignment in Testbench : Verilog - Stack Overflow non-blocking assignment does not work as expected in Verilog non-blocking assignment does not work a…

Python使用QtSide6(PyQt)编写界面

1、安装QtSide6 开始菜单cmd 创建虚拟环境 python -m venv env2 进入虚拟环境 call env2/scripts/activate 安装Pyside6 pip install Pyside6 2、设计Qt界面 打开designer.exe,设计界面 点击菜单【窗体】【View Python Code...】,点击【全部复制】…

HarmonyOs透明弹窗(选择照片弹窗样式)

1.鸿蒙中需要实现一个如下图的弹窗 2.由上图中可以得出,只需要三个Text组件依次向下排列,弹窗背景设置透明即可,弹窗代码如下(仅展示弹窗样式): /**** 自定义选择图片弹窗** 外部定义需要导出*/ CustomDialog //自定义弹窗 export…

android13顶部状态栏里面调节背光,不隐藏状态栏面板

总纲 android13 rom 开发总纲说明 目录 1.前言 2.代码分析 3.修改方法 4.编译运行 5.彩蛋 1.前言 android13顶部状态栏里面调节背光,这个时候状态栏面板会被隐藏掉,有些需求就需要不隐藏这个面板。 2.代码分析 查找亮度条属性 id/brightness_slider ./frameworks/b…

TOMCAT入门到精通

目录 一 WEB技术 1.1 HTTP协议和B/S 结构 1.2 前端三大核心技术 1.2.1 HTML 1.2.2 CSS(Cascading Style Sheets)层叠样式表 1.2.3 JavaScript 二 WEB框架 2.2后台应用架构 2.2.1单体架构 2.2.2微服务 2.2.3单体架构和微服务比较 三 tomcat的…

2024Go语言面试宝典Golang零基础实战项目面试八股力扣算法笔记等

2024最新Golang面试八股文,以及各种零基础全套实战项目,经典力扣算法题以及常见的面试题型,大厂面试题。go语言面试必备。包括GO基础类、GO并发编程、GO RUNTIME、微服务、容器技术、Redis、MySQL、Linux、缓存、网络和操作系统、消息队列、分…

房产系统架构开发小程序分析

房产系统架构开发小程序在当前市场中具有显著的优势和潜力。以下是对房产小程序的分析: 用户需求满足:房产小程序通过提供楼盘信息查询、VR看房体验、购房流程指南等功能,满足用户对房产信息的需求,并提供更加便捷的用户体验 。…

NSSCTF练习记录:[SWPUCTF 2021 新生赛]crypto6

题目: 先转为base16 JZLVK6CNKRATKT2ENN2FUR2NGBGXSMDYLFWVC6SMKRAXOWLKKF2E6VCBO5HVISLXJZVEKMKPI5NGY再转base32 NWUxMTA5ODktZGM0My0xYmQzLTAwYjQtOTAwOTIwNjE1OGZl再转base64,得到答案 5e110989-dc43-1bd3-00b4-9009206158fe

如何使用GPT-SoVITSS生成各种角色的语言

百度网盘 请输入提取码 项目来自b站UP主花儿不哭 一,先除去背景声音————人生伴奏出去背景声音 1.下载后,按下面路径打开,打开文件beta,打开go-webui程序 回车,然后稍等一下,等待网页打开 2.勾选如下…

day6JS-DOM(文档对象模型)

DOM树 DOM 操作 1. 获取元素 1.1 根据id名获取元素 document.getElementById("id名"); 案例&#xff1a; <body><div id"box">div盒子</div><h1>一级标题</h1><script>console.log(document.getElementById(&quo…

群晖NAS万兆网卡跑不满的真正原因

公司有几台群晖NAS,型号有DS2419+,和RS2418+,DS1821+,阵列都做了RAID6。当年都是花了大价钱买的存储,都上了万兆网卡,前面两个型号的速度速度始终在300MB左右徘徊,始终跑不满万兆,尤其大容量迁移的时候非常痛苦,之前200TB的数据迁移,整整用了一个月。 今天特意拿了群…

vue vite创建项目步骤

1. 创建vue项目 node版本需18以上 不然报错 npm init vuelatest2. 项目配置 配置项目的icon配置项目的标题配置jsconfig.json 3. 项目目录结构划分 4.css样式的重置 npm install normalize.cssreset.css html {line-height: 1.2; }body, h1, h2, h3, h4, ul, li {padding…

SpringBoot教程(二十五) | SpringBoot整合Sharding-JDBC分库分表

SpringBoot整合Sharding-JDBC分库分表 前言1. 什么是Sharding&#xff1f;2. 什么是Sharding-JDBC&#xff1f; 所需的maven依赖注意点&#xff08;关于shardingsphere的配置情况&#xff09;实操一&#xff1a;如何水平分表1. 步骤说明2. 创建数据库和表3.配置application.pro…

如何将TRIZ技术融入到智能家居的产品设计流程中?

在探讨如何将TRIZ&#xff08;发明问题解决理论&#xff09;技术融入智能家居产品设计流程中时&#xff0c;我们首先需要理解TRIZ作为一种系统化的创新方法论&#xff0c;其核心在于提供一套科学的工具和算法&#xff0c;帮助解决复杂的技术难题&#xff0c;加速产品创新过程。…

(LLM) 很笨

大型语言模型 (LLM) 并非你所想的那样。你被骗了。LLM 很笨&#xff0c;非常笨。事实上&#xff0c;它们更接近数据库&#xff0c;而不是人类。 这就是为什么人工智能仍然处于征服智能的第一步……如果有的话。 终极煤气灯效应 建立前沿人工智能的成本很高。前沿人工智能需要大…

C++系列-多态的基本语法

多态的基本语法 多态的含义静态多态动态多态 多态的底层原理多态中的final和overridefinaloverride: 多态的应用和优点计算器简单实现电脑组装的实现 《游山西村》 南宋陆游 莫笑农家腊酒浑&#xff0c;丰年留客足鸡豚。 山重水复疑无路&#xff0c;柳暗花明又一村。 箫鼓追…

STL—list—模拟实现【迭代器的实现(重要)】【基本接口的实现】

STL—list—模拟实现 1.list源代码 要想模拟实现list&#xff0c;还是要看一下STL库中的源代码。 _list_node里面装着指向上一个节点的指针prev&#xff0c;和指向下一个节点的指针next&#xff0c;还有数据data 并且它给的是void*&#xff0c;导致后面进行节点指针的返回时…

GitHub开源的轻量级文件服务器,可docker一键部署

文件服务器 介绍安装使用命令使用API调用 介绍 项目github官网地址 Dufs是一款由Rust编写的轻量级文件服务器&#xff0c;不仅支持静态文件服务&#xff0c;还能轻松上传、下载、搜索文件&#xff0c;甚至支持WebDAV&#xff0c;让我们通过Web方式远程管理文件变得轻而易举。…

免费生产设备日志采集工具

使用咨询: 扫码添加QQ 永久免费: Gitee下载最新版本 使用说明: CSDN查看使用说明 功能: 定时(全量采集or增量采集) SCADA,MES等系统采集工控机,办公电脑文件. 优势1: 开箱即用. 解压直接运行.插件集成下载. 优势2: 批管理设备. 配置均在后台配置管理. 优势3: 无人值守 采集端…