用于医疗领域的聊天机器人ChatDoctor

ChatGPT系列文章


文章目录

  • ChatGPT系列文章
  • ChatDoctor
  • 数据集
  • 模型训练
  • 参考资料


ChatDoctor

ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge

论文地址:https://arxiv.org/pdf/2303.14070.pdf

在通用领域中的大型语言模型 ChatGPT,在遵循指令和产生类似人类的响应方面取得了显着的成功。 但是语言模型并未针对医学领域量身定制,导致答案准确性较差,无法为医学诊断、药物治疗等提供合理的建议。

因此,本文收集了一些关于医学领域的数据集,然后基于Meta的LLaMA进行微调(毕竟chatGPT非开源)。不仅是医学领域,这篇文章的做法可以扩展到很多其他的专有领域中。

在医疗领域,通过利用医患对话数据对大模型进行微调,可以显著促进该模型在医学领域的应用。特别是在医疗资源匮乏的地区,可以使用聊天医生来支持患者的初步诊断和分诊,可以显著提高现有医疗系统的效率。
在这里插入图片描述

数据集

由通用数据集(掌握对话能力)和医患对话数据集(保障领域质量)组成。

通用数据集自然是Stanford Alpaca,52K instruction-following的数据。
作者们收集的InstructorDoctor-205k数据集,其中包含5000个生成的医患对话和20万个真实的医患对话,以保障准确性和多样性,以用于对大型语言模型进行微调。
5000 次医患对话。包括700多种疾病及其相应的症状、所需的医学检查和推荐的药物。同时,为了提高数据和模型质量,疾病数据库中的元组(疾病的名称、相应的症状等等)将被输入到ChatGPT API中以自动生成指令和对话数据,即生成患者和医生之间的对话。
20万个真实的医患对话。5000 次医患对话虽然确保了准确性,但对话的多样性很低。因此作者们从在线医疗问答网站"Health Care Magic.”中收集了约20万份真实的医患对话(会删除医生和患者的名字,并使用语言工具来纠正回答中的语法错误等操作)。
通过使用这些 205k 医患对话对 LLMs 进行微调的模型,能够更好理解患者需求、提供建议。

一些例子如下,
在这里插入图片描述

模型训练

基于InstructorDoctor-205k的微调过程,有如下几个关键点

使用6个A100训练18小时
batch size为192,learning rate为2×10−5,训练3个epoch
最大长度为512个token,warmup为0.03,没有weight decay
ChatDoctor的代码已经开源了:https://github.com/Kent0n-Li/ChatDoctor

包括数据集!看一眼数据长这样(维持Alpaca的数据格式):

	  {"instruction": "If you are a doctor, please answer the medical questions based on the patient's description.","input": "Doctor, I have been experiencing sudden and frequent panic attacks. I don't know what to do.","output": "Well, based on what you're telling me, it sounds like you may be suffering from panic disorder. The best course of action is to start with psychotherapy and mental health counseling. Additionally, we should conduct an electrocardiogram to make sure that there are no physical issues causing your panic attacks. We will also need to perform a depression screen and a toxicology screen to rule out any other underlying causes. Finally, I would recommend a comprehensive psychological and psychiatric evaluation and therapy to help manage your symptoms."},{"instruction": "If you are a doctor, please answer the medical questions based on the patient's description.","input": "Doctor, I have been experiencing a hoarse voice for a few weeks now and it's not getting any better despite taking medication. What could be the problem?","output": "It's possible that you have a vocal cord polyp. To confirm this, we need to conduct tracheoscopy and laryngoscopy with a biopsy. We may also need to conduct an occupational therapy assessment such as speech therapy, other diagnostic procedures like an interview or consultation, physical therapy exercises, as well as diagnostic procedures on your nose, mouth, and pharynx to rule out any other underlying conditions. Additionally, we may need to evaluate your eyes and ears for any related conditions, such as ophthalmologic and otologic diagnosis and treatment."},{"instruction": "If you are a doctor, please answer the medical questions based on the patient's description.","input": "Hi, Doctor. I think I might have Turner syndrome. ","output": "Okay, in that case, you will need to undergo a complete physical skin exam, an ultrasonography, and some other diagnostic procedures such as an interview, evaluation, and consultation. Additionally, we'll need to perform an echocardiography, examine your breast, and check your eyes and ears for any issues. We'll also do a depression screening to assess your mental health."}

参考资料

存下近期其他的模型,待更文:
DoctorGLM: https://github.com/xionghonglin/doctorglm
Huatuo-Llama-Med-Chinese: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
visual-med-alpaca: https://github.com/cambridgeltl/visual-med-alpaca

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38152.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021年中国互联网行业投融资运行现状及未来发展趋势分析[图]

互联网指的是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。 一、全球互联网行业投融资运行现状 国际环境更趋复杂严峻,世界经济复苏放缓,通胀压力上升与疫情蔓延交织。2021年…

2021年中国企业风险投资发展现状及未来发展趋势分析[图]

企业风险投资是指有明确主营业务的非金融企业在其内部和外部所进行的风险投资活动。企业从事风险投资的形式主要有两种:一种是把用于风险投资的资金委托给专业的风险投资公司进行管理,由其成立的投资基金根据委托方的战略需要选择投资目标;另…

最强对话模型 ChatGPT 向 Google 搜索发起挑战

GPT-3 发布的两年后,我们没等来它的亲弟弟 GPT-4,而是在今天亲眼见证了 OpenAI 带来了一种全新的 AI 聊天机器人——ChatGPT,也可以称之为是 GPT-3 家族里面的亲戚,它不仅可以解释代码、编写情景喜剧脚本,也可以为用户…

Google 新一代音乐识别

文 / Google AI 苏黎世办公室 James Lyon 2017 年,我们发布了具有闻曲知音功能的 Pixel 2,就是利用深度神经网络为移动设备带来低功耗、始终开启的音乐识别功能。在开发 “闻曲知音” 时,我们的目标是打造一个小巧高效的音乐识别器&#xff0…

谷歌AudioLM :通过歌曲片段生成后续的音乐

AudioLM 是 Google 的新模型,能够生成与提示风格相同的音乐。该模型还能够生成复杂的声音,例如钢琴音乐或人的对话。结果是它似乎与原版没有区别,这是十分让人惊讶的。 为什么生成音乐如此困难? 创作音乐并不是一件容易的事。生成音频信号&…

“程序员交友网站” SO 突然裁员 10%,网友:ChatGPT 出来后就不咋用了

在ChatGPT影响下,知名开发者问答社区Stack Overflow撑不住要裁员了! 随着用户大规模转战ChatGPT,Stack Overflow访问量大幅骤降,且盈利情况不容乐观。 CEO Prashanth Chandrasekar在公开信中坦言:正处于困难时期。 具…

巴比特 | 元宇宙每日必读:浙江发布2023年元宇宙产业发展工作要点,6月底前组建元宇宙产业联盟,年底打造20家“专精特新”企业...

摘要:据浙江省发改委官网 4 月 24 日消息,浙江省发改委等 5 部门近日联合印发《浙江省元宇宙产业发展 2023 年工作要点》。《工作要点》制定了十六项主要任务,并提出在2023 年 4 月底前建立元宇宙部门工作协同机制;6 月底前组建元…

免费版GPT-4!美国AI初创公司推出Forefront Chat,火到官网崩溃

免费版 GPT-4 到底香不香? AI初创企业正式推出Forefront Chat 近日,Forefront AI 正式推出 Forefront Chat,允许用户免费体验 GPT-4 的强大功能。ForeFront AI 是一家总部位于纽约的软件开发公司,联合创始人分别为 Jimmy Grease…

VTK笔记-生成MIP图像-vtkImageSlabReslice类

MIP MIP(Maximum/Minimum Intensity Projection),最大/最小密度投影重建。   MIP可以较真实地反应组织密度差异,使得血管的异常改变、形态、走形强化;但是只适用于外观形态的显示。   在容积扫描数据中对每条径线上…

重温马云英文演讲:最伟大的成功

“机会在哪呢?”每当创业者发出这个疑问,我们就该重温马云的这段英文演讲,让奋斗的热血重新沸腾起来。你有什么。你有年轻的身体,你有奇妙的想法,你有乐观的心态,你有无限的可能性! 演讲全文&am…

马云退隐前,在年会上说了最重要的三件事

作者:黄小斜 今天是9月10号教师节,也是马老师卸任阿里巴巴董事长的日子,同时也是阿里巴巴召开20周年年会的日子。有幸抽中了门票,在现场见证这具有历史意义的一幕,马老师在中场时给我们带来了一段演讲,也是…

阿里巴巴CTO独家自述:CTO就是要给CEO扫清障碍和风险

CTO可能不是思想家,但一定是行动派。 本文来自《云栖战略参考》第二期,过程中鲁肃非常坦率地探讨了一位合格CTO应该具备的素质,以及他自己一路摔打成长的心路历程。 一 我的经历 我的经历很简单,2004年之前一直在学校读书&#x…

马云现身西班牙度假 半年多来首次在境外露面

这半年里,马云公开露面的次数不到三次,就连前段时间的世界互联网大会也不见他的身影。 极少数出现在公众视野的马老师似乎在努力低调,但是他的一举一动仍然受人关注。 西班牙多家媒体10月19日报道,马云上周六飞抵西班牙, 在伊维…

【历史上的今天】8 月 22 日:改变世界的程序员们;网络直播的鼻祖;何小鹏离开阿里巴巴

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天 2022 年 8 月 22 日。历史上的今天,Masatoshi Shima 出生,他和 英特尔(Intel) 合作设计的芯片让第一个微处理器 Intel 400…

马来西亚热情拥抱阿里巴巴 马云倡议的eWTP首次落地海外

摘要:3月22日,马来西亚总理纳吉布与阿里巴巴集团董事局主席马云一同出现在吉隆坡一场盛大启动仪式上,他们将共同见证马云的eWTP理念落地马来西亚。 3月22日,在邀请阿里巴巴集团董事局主席马云、阿里巴巴集团CEO张勇、蚂蚁金服集团…

基于GPT4All的大型语言模型设计生态系统

GPT4All 一套专为强大、定制的大型语言模型设计的生态系统,能够在消费级CPU上本地运行。在GPT4All中,所使用的模型是一个3GB至8GB的文件,读者可以自行下载该文件,并将其插入到GPT4All的开源生态系统软件中。这一软件生态系统由Nomic AI提供支持并进行维护,其目的是确保系统…

chatgpt赋能python:Python在数据可视化中的应用:如何用Python画图

Python在数据可视化中的应用:如何用Python画图 介绍 随着数据科学和人工智能的不断发展,数据可视化成为了一种重要的工具。通过绘制图表,我们可以更直观地理解数据之间的关系,并发现其中的规律和趋势。Python作为一种灵活的编程…

chatgpt赋能python:使用Python绘制散点图:了解基本语法,数据可视化。

使用Python绘制散点图:了解基本语法,数据可视化。 数据是任何研究的基石,因此对于从事各种数据处理工作的人员来说,数据可视化是一个非常重要的工具。Python作为一种非常受欢迎的编程语言,具有广泛的应用,…

chatgpt赋能Python-pythonpandas雷达图代码

前言 在数据可视化中,雷达图是一种非常常用的图表类型。Python中的pandas库提供了快速而简便的雷达图绘制方法,因此在本篇文章中,我们将着重介绍如何使用pandas库绘制雷达图,并提供一些有用的代码示例。 什么是雷达图&#xff1…

chatgpt赋能python:PythonSegno:一款专业的二维码生成器

Python Segno: 一款专业的二维码生成器 随着二维码的不断普及,二维码的应用场景也越来越广泛。比如在商品、广告等领域,我们经常可以看到精美的二维码。但数字出版、酒店、餐馆等行业也在使用二维码作为访问、付款等操作的工具。当然,对于开…