Day14. 用可解释机器学习方法鉴别肠结核和克罗恩病

Title:
Differentiation of intestinal tuberculosis and Crohn’s disease through explainable machine learning method
用可解释机器学习方法鉴别肠结核和克罗恩病

Keywords:
Intestinal tuberculosis; Crohn’s disease; Shapley Value; Machine learning
肠结核,克罗恩病,沙普利值,机器学习

沙普利值法( Shapley Value Method)由2009年诺贝尔经济学奖得主、著名经济学家劳埃德·沙普利(Lloyd Shapley,1923-2016)提出,主要用于解决在合作博弈中各方的利益分配问题,防止“有难能够同当,有福不知如何分配”的尴尬情况。(From: 经管下午茶:沙普利值法( Shapley Value Method)https://zhuanlan.zhihu.com/p/165051523)

Abstract:
This study set out to develop an effective framework to distinguish Crohn’s disease from intestinal tuberculosis through an explainable machine learning (ML) model. A cohort consisting of 200 patient data (CD = 160, ITB = 40) is used in training and validating models. After feature selection, a total of nine variables are extracted, including intestinal surgery, abdominal, bloody stool, PPD, knot, ESAT-6, CFP-10, intestinal dilatation and comb sign. Besides, we compared the predictive performance of the ML models with traditional statistical methods. This work also provides insights into the ML model’s outcome through the SHAP method. Results illustrate that the XGBoost algorithm outperforms other classifiers in terms of area under the receiver operating characteristic curve (AUC), sensitivity, specificity, precision and Matthews correlation coefficient (MCC), yielding values of 0.891, 0.813, 0.969, 0.867 and 0.801 respectively. More importantly, the prediction outcomes of XGBoost can be effectively explained through the SHAP method. The proposed framework proves that the effectiveness of distinguishing CD from ITB through interpretable machine learning, which has potential value in clinical application.
本研究旨在建立一个有效的框架,通过可解释机器学习(ML)模型来区分克罗恩病和肠结核。一个由200个病人数据(克罗恩病160,肠结核40)组成的队列用于训练和验证模型。经过特征选择,共提取9个变量,包括肠道外科、腹部、血便、结核菌素试验、结节、ESAT-6、CFP-10、肠道扩张和梳状征。此外,我们还比较了ML模型与传统统计方法的预测性能。这项工作还通过SHAP方法(黑盒模型事后归因解析)提供了对ML模型结果的见解。结果表明,XGBoost算法在接收者工作特性曲线下面积(AUC)、灵敏度、特异性、精度和马修斯相关系数(MCC)等方面均优于其他分类器,分别得到0.891、0.813、0.969、0.867和0.801。更重要的是,通过SHAP方法可以有效地解释XGBoost的预测结果。该框架证明了通过可解释机器学习区分克罗恩病和肠结核的有效性,具有潜在的临床应用价值。

马修斯相关系数:
马修斯相关系数是在使用机器学习作为二进制(2类)的质量的度量的分类,通过布赖恩W.马修斯在1975年由生物化学引入。它返回介于-1和+1之间的值。系数+1表示完美预测,0表示不比随机预测好,-1表示预测和观察之间的完全不一致。统计数据也称为phi系数。可以使用以下公式直接从混淆矩阵计算MCC :
MCC=\frac{TP*TN-FP*FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}
(From:【机器学习】马修斯相关系数(Matthews correlation coefficient)https://blog.csdn.net/ARPOSPF/article/details/84997220)

The proposed framework consists of three components. The first level performs the imbalanced treatment of the dataset using a SMOTE algorithm (Chawla et al., 2002). In the second level, a tree-based model is applied to detect CD from ITB. At the last level, the interpretation and visualization of the model are demonstrated through Shapley values (Lundberg and Lee, 2017b). To validate the superiority of the proposed method, we compare the performance of six different classical algorithms, including Latent Dirichlet Allocation (LDA), Logistic Regression (LOG), Support Vector Machine (SVM), Artificial Neural Network (ANN), Radom Forest (RF) and Adaptive Boosting (Adaboost) (Fisher, 1936; Kleinbaum et al., 2002; Noble, 2006;Wang, 2003; Breiman, 2001; Hastie et al., 2009). The main contribution of this research addresses a real-world problem, differentiating CD fromITB based on explainablemachine learning. Thismethod can provide local interpretation and direct results of visualization without losing the classification accuracy.
本研究提出的框架包括三个部分。首先使用SMOTE算法对数据集进行不平衡处理(Chawla et al., 2002); 其次采用基于树的模型检测肠结核和克罗恩病;最后通过Shapley值演示了模型的解释和可视化 (Lundberg and Lee, 2017b)。为了验证该方法的优越性,我们比较了六种经典算法的性能,包括LDA、逻辑回归、支持向量机、人工神经网络、随机森林和自适应提升(Fisher, 1936; Kleinbaum et al., 2002; Noble, 2006;Wang, 2003; Breiman, 2001; Hastie et al., 2009)。本研究的主要贡献在于解决了一个现实问题,即基于可解释机器学习将克罗恩病与肠结核区分开来。该方法能在不损失分类精度的前提下,提供局部解释和直观的可视化结果。

SMOTE算法的介绍:
为了解决数据的非平衡问题,2002年Chawla提出了SMOTE算法,即合成少数过采样技术,它是基于随机过采样算法的一种改进方案。该技术是目前处理非平衡数据的常用手段,并受到学术界和工业界的一致认同,接下来简单描述一下该算法的理论思想。SMOTE算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中的类别不再严重失衡。该算法的模拟过程采用了KNN技术,模拟生成新样本的步骤如下:
(1)采样最邻近算法,计算出每个少数类样本的K个近邻;
(2)从K个近邻中随机挑选N个样本进行随机线性插值;
(3)构造新的少数类样本;
(4)将新样本与原数据合成,产生新的训练集;
(版权声明:本文为CSDN博主「MXuDong」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_33472765/article/details/87891320)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69431.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Research| 细菌产生的脲酶引起克罗恩病患者的肠道菌群失调

标题:细菌性脲酶引起克罗恩病患者的肠道菌群失调 导读 肠道菌群组成受到很多环境因素(内外环境)的影响,如饮食、抗生素使用、肠道炎症及致病菌的侵入等;术语’dysbiosis’指的是与宿主疾病状态相关的微生物组成发生改变…

AI产业应用再提速,AI基础软件发挥巨擎作用

5月31日,由中国信息通信研究院、中国人工智能产业发展联盟主办,北京九章云极科技有限公司联合主办的【创造智能探索未知】杭州通用人工智能论坛-AI基础软件前沿技术分论坛在杭州成功举办。大会聚焦AI基础软件前沿技术,挖掘人工智能基础软件大…

AI学术界无人后继?名校毕业生纷纷进厂,全是香饽饽

来源:新智元 AI火,搞AI的人就火。 这不,据Insider最近的一次采访报道,科技类公司正风卷残云般地从斯坦福、麻省理工、康奈尔大学等强校里抢人。 搞AI项目的大学生全成了香饽饽。 其实,不光这些专业的大学生人人追捧&am…

明面抵制,暗中布局 对于AI,马斯克的言行为何如此“割裂”?

最近,马斯克创建了一家叫做“X”的空壳公司,目标是将其打造成涵盖各方面的多功能应用集合平台,推特、SpaceX、特斯拉、Neuralink等公司业务都已打包加入其中。如今,“X”公司再添新丁——X.AI,即马斯克新成立的人工智能…

马斯克宣布成立xAI——引领开放人工智能时代的新纪元

马斯克宣布成立xAI——引领开放人工智能时代的新纪元 🟢一、前言🟢二、马斯克的背景与愿景🟢三、xAI的潜在研究方向🟢四、xAI面临的挑战🟢五、xAI的潜在影响🟢六、xAI与OpenAI的异同🟢七、对Ope…

特斯拉和OpenAI的加持,马斯克简直人生赢家

赢家已定 商人行事,最重要的因素之一是利益驱动。这里,最服“马斯克”。 以马斯克为首的特斯拉公司周日宣布,将在上海新建一家超级工厂,专门生产该公司的储能产品Megapack。签约的特斯拉储能超级工厂项目也是该公司在美国本土以…

为啥马斯克一边反对Open AI,一边又自己另搞AI

这事我过去就说过,我现在再老生常谈一次。 (1) 我过去说过一个事:汽车自己智能其实还不能做到真正的智能,必须车路人都智能了,智能汽车才能真正智能。 因为车路人智能,这本质是数字世界和数字世…

旷视张祥雨|迈向「大」和「统一」的视觉神经网络架构设计新思路

导读 大模型正在引发人工智能研究与应用范式产生重大变革,越来越多的顶级团队和杰出人才纷纷加入这一技术浪潮。今天我们将分享旷视科技主任研究员张祥雨的最新报告「视觉模型:迈向“大”和“统一”」。 张祥雨 旷视研究院主任研究员,Foundat…

自动驾驶行业需要大模型吗?

作者 | 十字甫 编辑 | 汽车观察者联盟 点击下方卡片,关注“自动驾驶之心”公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复【数据集下载】获取计算机视觉近30种数据集! 当下最热门的两个话题,一个是人工…

PaLM 2 硬刚 GPT-4,未来还有变数

在 ChatGPT 没有出现之前,谷歌多年来一直是 AI first战略 ,不出意外的话还会是领头羊,手握 DeepMind 和 Google Brain 两大 AI 王牌,再加上投资技术实力雄厚的 Anthropic,论资排辈都得是他。时不我与,被 Op…

OpenAI软件工程师年薪92.5万美元,到手仅30万美元,网友:“这个饼我不吃!”...

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 软件工程师作为含「金」量高的职业,薪资总是热议话题。 6 月 26 日,据薪酬网站 Levels.fyi 最新数据显示:OpenAI 的软件工程师年薪高达 92.5 万美元&…

开发者必看:Google Play应用上架流程(希望你不踩坑!)

实话实说,感觉今年的大环境并不是像前两年那么好,但也无需多想,这些事情就交给顶头的人去思虑吧。我们这些程序员、跨境电商人就该干嘛干嘛! 不过虽然大环境不是特别好,但是还是承认,出海潮的热度只增不减&…

Google商店应用上架注意事项

一.代码相关: 1.权限问题:这个权限READ_PHONE_STATE 如果不是必要权限,如果能去掉的话还是尽量去掉。 2.支付相关:代码中不要出现第三方支付。去掉第三方相关的名字,尽量也去掉注释(WXEntryActivity&…

App上架安卓应用市场

1.目前国内的安卓应用市场 分为“第三方应用市场”和“手机厂商应用市场”: 第三方应用市场主要指:应用宝、360手机助手、百度手机助手、阿里应用商店、豌豆荚等; 手机厂商应用市场主要指:华为、小米、VIVO、OPPO、魅族、三星等。…

App上架小米应用商店

1.进入小米开放平台:https://dev.mi.com/console/app/phone.html 2.点击应用分发-小米应用商店-上传应用 3.点击进入了之后,输入小米账号。(如果没有账号的话,进行注册一个) 4.注册了之后。注册的该账号需要进行绑定关…

各大应用商店APP上架指南

最近很多人问到如何发布应用,需要准备哪些材料,本文就应用商店发布做个基本介绍。 国内目前流量逐渐中心化,而一些还不错的小市场逐渐被各种收购,更加造成了目前这种流量集中的情况。 所以在这种情况下,就没必要花费…

谷歌商店应用上架最新流程!Googleplay 上架流程(2023版)

本次主要简单说一下上架google play的流程,也就是涵盖申请开发者账号--上架提审这部分。 一、申请开发者账号 科学上网问题自己搞定,这里不多说。 如果这一步都搞不定,不用往下看了,省点时间干点别的吧,出海这条路不…

如何上架自己的应用到各大应用商店?

大家好,我叫孙叫兽,本期给大家分享的内容是如何上架自己的应用到应用商店,感谢大家的阅读!1.上架各大应用商店需要准备哪些材料? 上架各大安卓应用商店(腾讯应用宝、阿里应用商店、百度手机助手、华为应用市…

APP上架到各大应用商店指南

前序 要把APP上架到各个应用市场都需要的必要资质材料 ①注册开发者账号 ②软件著作权(复件盖公司公章) ③营业执照(复件盖公司公章) ④该应用PC官网的ICP备案工信部截图(公司网站备案,同时须有app的模…

chatgpt赋能python:如何破解python的exe文件

如何破解python的exe文件 Python是一门十分流行的编程语言,而将Python代码打包成exe文件是为了更方便用户使用。然而,有时候我们需要对python的exe文件进行破解,才能解锁更多的功能。本文将介绍如何破解python的exe文件。 什么是Python的ex…