基于LLM的生成式聊天工具,如ChatGPT或谷歌的MedPaLM,具有巨大的医疗潜力,但它们在医疗保健中不受管制的使用将存在固有的风险。一篇发表在《Nature Medicine》新研究讨论了当今时代最紧迫的国际问题之一:如何监管大型语言模型(LLM),特别是在医学健康领域。
“大型语言模型是具有非凡会话技巧的神经网络语言模型。它们产生类似人类的响应并参与交互式对话。然而,它们经常会产生令人高度信服的陈述,这些陈述可被验证为错误的或不适当的回应。至今,仍无法确定这些模型反馈的任何结论的支持证据的质量、证据水平或与临床信息的一致性。在医疗咨询方面,这些聊天机器人是不安全的工具,有必要开发确保患者安全的新框架,“德累斯顿工业大学Else Kröner Fresenius数字健康中心医疗器械监管科学教授Stephen Gilbert说。
大型语言模型的监管审批面临的挑战
大多数人在寻求医疗咨询之前会在线检索他们的症状。搜索引擎在决策过程中发挥重要作用。未来将LLM聊天机器人集成到搜索引擎中可能会增加用户对模仿对话的聊天机器人给出的答案的可信度。已经证明,当问及医疗问题时,LLM可以提供非常危险的信息。
LLM的基本方法不包括医学“基准真值”模型,本质上是危险的。聊天界面的LLM已经提供了有害的医疗反馈,并在未经批准的情况下违反伦理道德应用于患者“实验”。在欧盟和美国,几乎每个医疗LLM的使用都需要被监管和控制。在美国,由于缺乏可解释性,它们被取消了作为设备(“non devices”)的资格。具有可解释性、低偏差、可预测性、正确性和可验证输出的LLM目前尚不存在,也不能豁免于当前(或未来)的监管措施。
在本文中,作者描述了LLM可以在当前框架下找到的有限应用场景,他们描述了开发人员如何寻求创建可以批准为医疗设备的基于LLM的工具,并探索了保护患者安全的新框架的开发。“目前的LLM聊天机器人不符合医疗保健中人工智能的关键原则,如偏见控制,可解释性,监督系统,验证性和透明度。为了在医学设备中占有一席之地,聊天机器人的设计必须具有更高的准确性,安全性和临床疗效,并且必须得到监管机构的证明和批准,“Gilbert教授总结道。
阅读原文内容:
https://www.sciencedaily.com/releases/2023/07/230703133029.htm
查看原文信息:
Stephen Gilbert, Hugh Harvey, Tom Melvin, Erik Vollebregt, Paul Wicks. Large language model AI chatbots require approval as medical devices. Nature Medicine, 2023; DOI: 10.1038/s41591-023-02412-6
往期精品(点击图片直达文字对应教程)
机器学习