《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文_企业

大赛概况

进入21世纪,生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活,于此同时,科学家们借助基因科技史无前例的用一种全新的视角解读生命和探究疾病本质。人工智能(AI)能够处理分析海量医疗健康数据,通过认知分析获取洞察,服务于政府、健康医疗机构、制药企业及患者,实现个性化,可以循证的智慧医疗,推动创新,实现价值。

心血管病、糖尿病等慢性疾病,每年导致的死亡人数占总死亡人数的80%,每年用于慢病医疗费用占中国公共医疗卫生支出的比例超过13%。作为一种常见慢性疾病,糖尿病目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。阿里云联合青梧桐健康科技有限公司主办天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测,希望用人工智能的方法和思想处理、分析、解读和应用糖尿病相关大数据,让参赛选手设计高精度,高效,且解释性强的算法来挑战糖尿病精准预测这一科学难题,为学术界和精准医疗提供有力的技术支撑,帮助我们攻克糖尿病。

糖尿病概述

我国有1.1亿人患有糖尿病,是世界上糖尿病患者最多的国家,每年用于糖尿病的医疗费用超过3000亿。糖尿病有一型和二型,是由于胰腺分泌胰岛素紊乱或人体无法有效利用其产生的胰岛素而发生的一种慢性疾病,是21世纪人类面临的健康问题之一.糖尿病伴有弥漫性并发症,其包括心血管病变、肾脏疾病、高血压、中风等、眼部疾病、下肢截肢上百种,由此增加了过早死亡的风险.因此,糖尿病防治形势十分严峻.

下右图为糖尿病视网膜病变

2019年估算中国糖尿病患病率排名世界第二

中国糖尿病患者数量位居世界第一。中国是糖尿病最大药物研发市场。越来越多年轻人也加入糖尿病市场,成为药企摇钱树。

下图为中国糖尿病患病率历史数据

糖尿病给经济带来巨大负担
糖尿病也给经济带来了巨大的负担,每年诊断出的糖尿病成本约为 3270 亿美元,而未确诊的糖尿病和前驱糖尿病的总成本接近 4000 亿美元。

糖尿病可预防

虽然糖尿病无法治愈,但减肥、健康饮食、积极运动和接受药物治疗等策略可以减轻这种疾病对许多患者的危害。早期诊断可以改变生活方式和更有效的治疗,使糖尿病风险预测模型成为公共和公共卫生官员的重要工具。

糖尿病致病因子多样化
虽然有不同类型的糖尿病,但 II 型糖尿病是最常见的形式,其患病率因年龄、教育程度、收入、地点、种族和其他健康的社会决定因素而异。这种疾病的大部分负担也落在社会经济地位较低的人身上。
本实验就是通过建立人工智能机器学习模型,预测糖尿病概率和挖掘糖尿病重要致病因子。

糖尿病建模数据集介绍

糖尿病数据集来源《天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测》的糖尿病数据集。数据集包含六千多条数据,41个变量。变量包括:性别    年龄    体检日期    天门冬氨酸氨基转换酶    丙氨酸氨基转换酶    碱性磷酸酶    r-谷氨酰基转换酶    总蛋白    白蛋白    球蛋白    白球比例    甘油三酯    总胆固醇    高密度脂蛋白胆固醇    低密度脂蛋白胆固醇    尿素    肌酐    尿酸    乙肝表面抗原    乙肝表面抗体    乙肝e抗原    乙肝e抗体    乙肝核心抗体    白细胞计数    红细胞计数    血红蛋白    红细胞压积    红细胞平均体积    红细胞平均血红蛋白量    红细胞平均血红蛋白浓度    红细胞体积分布宽度    血小板计数    血小板平均体积    血小板体积分布宽度    血小板比积    中性粒细胞%    淋巴细胞%    单核细胞%    嗜酸细胞%    嗜碱细胞%。变量主要为血常规检测指标。

《天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测》的糖尿病数据集一览如下图

通过对病人的临床数据和体检指标来预测其血糖值。 大赛提供的训练数据包含病人的性别、体检日期以及血常规、肾功能检查等指标, 每个指标分别作为一个字段储存在数据表中。最后一列为我们要预测的血糖值。

模型价值和意义

通过我们建立的人工智能机器学习预测模型,可实现以下一些研究问题:
1.模型能准确预测个人血糖值高低。
2.模型能挖掘哪些风险因素最能预测糖尿病风险。
3.我们能使用风险因素的一个子集来准确预测一个人血糖值高低。
4.我们可以使用筛选几个重要糖尿病致病特征,然后组合创建为一个简短的问题,以准确预测某人是否可能患有糖尿病或是否有糖尿病的高风险。

老规矩,不要急着建模,先做描述性统计,投石问路。

变量相关性分析热力图如下,相关性高的变量有很多,例如血小板比积和血小板计数相关性高于0.9.

绘制变量的小提琴图如下

来看看血糖变量的小提琴图

变量散点图如下

为了更好观察变量分布,我们绘制变量的直方图如下,年龄等多个变量呈现正态分布。

我方模型质量较好,MAE 0.6863658764353456,非常低。MAE是评估机器学习回顾模型的主要指标,该值越低越好,反之亦然。

我方模型挖掘变量重要性排序如下,我们发现年龄,甘油三酯,r-谷氨酰基转换酶,性别,红细胞体积分布宽度为主要变量。

拔出萝卜带出泥,我们来观察变量的定量分析。

年龄越大,糖尿病风险越高年龄越小,糖尿病风险越小。当然会有例外,我们这里分析的是主要趋势,不是个例。人体器官是注定会不断老化的,我们虽然不能阻止老化.但有养生之道延缓老化速度我经常锻炼身体的体育馆看到一些老人80岁+,看起来肌肉仍有轮廓,外表像60-70岁。
 

甘油三酯越大,糖尿病风险越高,甘油三酯越小,糖尿病风险越小。
 

血清甘油三酯的正常参考值:0.45~1.69mmol/L。依据2007年《中国成人血脂异常防治指南》地划分标准,空腹 (禁食12小时)甘油三酯在1.70mmol/L以下为适当水平;1.70-2.25mmol/L为边缘升高;≥2.26mmol/L为升高。

我们吃的食物中有很多东西就有甘油三酯,例如植物油,肉,含糖高饮品和食物。甘油三酯高不能喝酒,饮酒会加重甘油三酯进一步升高或诱发急性胰腺炎。

Toby老师提醒一下甘油三酯并非完全负面,它也有许多作用,具体作用如下。
第一、储存能量。它可以给人体提供热量,脂肪被燃烧后形成二氧化碳和水,释放热量,它是人体供能的重要部分,是人体所需的基础营养物质,能够被人体充分吸收代谢。
第二、增加各种营养物质的吸收能力。甘油三酯能够促进人体对于维生素、氨基酸等营养物质的吸收,维持人体的营养平衡,各种脂溶性维生素的吸收,都需要甘油三酯的帮助。人体的神经系统,尤其是脑部的神经敏感性,需要甘油三酯的帮助。
第三,保温作用。我们人体皮肤下面沉积较厚的脂肪层,越是寒冷的冬天脂肪层越厚,有利于保温御寒。
第四,保护重要器官。人体重要器官的表面都有厚厚的脂肪层覆盖,这些油脂就是用来保护脏器,免受外力伤害,同时在剧烈运动或者撞击中起到减震作用。

甘油三酯超量坏处
当我们的饮食过好、过多,吃进去的甘油三酯无法消耗完,人就会逐渐地变胖,血脂就会升高。甘油三酯升高后会有以下坏处:
一、导致胰岛素抵抗,诱发糖尿病。人体内甘油三酯积蓄过多,除了发胖之外,还会造成胰岛素不敏感,出现胰岛素抵抗,就会诱发糖尿病、冠心病、脑梗塞等。
二、诱发急性胰腺炎。如果体内的甘油三酯超过了5.6mmol/L时,非常容易诱发急性胰腺炎。

我们再来看看r-谷氨酰转移酶和糖尿病关系

如下图趋势:r-谷氨酰转移酶越高,糖尿病风险越高。

r-谷氨酰转移酶升高一般出于下面场景:

(1)胆道阻塞性疾病:原发性胆汁性肝硬化、硬化性胆管炎等所致的慢性胆汁淤积,肝癌时由于肝内阻塞,诱使肝细胞产生多量GGT同时癌细胞也合成GGT均可使GGT明显升高,可达参考值上限的10倍以上。此时GGT、ALP、5-核苷酸酶(5-NT)、亮氨酸氨基肽酶(LAP)及血清胆红素呈平行增加。
(2)急、慢性病毒性肝炎、肝硬化:急性肝炎时,GGT呈中等度升高;慢性肝炎、肝硬化的非洁动期,酶活性正常,若GGT持续升高,提示病变洁动或病情恶化。
(3)急、慢性酒精性肝炎、药物性肝炎:GGT可呈明显或中度以上升高(300~1000UL),ALT和AST仅轻度增高,甚至正常。酗酒者当其戒酒后GGT可随之下降。
(4)其他:脂肪肝、胰腺炎、胰腺肿瘤、前列腺肿瘤等GGT亦可轻度增高。

r-谷氨酰转移酶主要临床参考意义在肝脏。随着建模和数据挖掘,我们发现r-谷氨酰转移酶和血糖值也有一定联系。

在参考论文:r-谷氨酰转移酶VS 糖尿病,观察性研究中,高水平的血清 γ-谷氨酰转移酶 (GGT) 与前驱糖尿病和 2 型糖尿病的风险增加有关。

在美国NCBI发表文章显示:测量 2 型糖尿病患者 FDR 中的 GGT 可能有助于评估糖尿病风险;长期高 GGT 的人应被视为糖尿病的高危人群。

我们再来看看性别和糖尿病关系。我们把“男”替换为0,“女” 替换为1,缺失替换为0。从下图分析中,我们观察到男性患糖尿病风险更高。

According to the Centers for Disease Control and Prevention (CDC) , men are more likely to receive a diagnosis of diabetes than women. However, some research suggests that women with diabetes may be more likely to develop complications than men.
Toby老师从美国疾控中心查找一些辅助证明材料。美国疾病控制和预防中心 (CDC) 的数据显示:男性比女性更容易被诊断为糖尿病。然而,一些研究表明,患有糖尿病的女性可能比男性更容易出现并发症。
男性比女性更容易患上2 型糖尿病。一个原因是男性在他们的腹部储存了更多的脂肪——这是一个已知的风险因素。患有未确诊糖尿病的男性多于女性

Toby老师在其他糖尿病数据集实验中,发现不同算法得到结论不一样,有的算法认为性别变量很重要,有的算法认为不重要。Toby老师认为性别变量还需要更多数据科学实验观察和临床观察。此变量还有争议,不要急着下结论。

通过对天池糖尿病建模和数据挖掘后,我们得到很多高价值信息。

糖尿病是潘多拉魔盒,血糖异常后,五脏六腑都可能受到影响。通过此次建模,我们挖掘出糖尿病相关重要因子:年龄,甘油三酯,r-谷氨酰转移酶,性别等等。
不足的是此数据集变量有限,糖尿病其它重要相关变量还包括BMI指数。
Toby老师提醒一下,数据挖掘结果要和专业医生临床经验交叉验证。我这次数据挖掘结果和诸多权威机构发布数据结论是一致的,参考价值非常高。

模型启示录1-控制甘油三脂含量。

控制甘油三酯方法为多运动,用餐八分饱,控制糖类食物摄入量。

模型启示录2

年龄-适当锻炼,让身体更年期

模型启示录3-定期体检,观察r-谷氨酰转移酶指标

如果r-谷氨酰转移酶指标值过高,需要警惕和随访医生。

糖尿病可防可控,从预防做起,可限制降低糖尿病患病概率,减少政府医疗开支负担。

如果您们对糖尿病模型项目感兴趣,欢迎各大医疗机构,科研机构,生物医药企业留言。

人工智能让生活更美好!

《天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测》模型复现和数据挖掘-论文

版权声明:文章来自公众号(python生物信息学),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41195.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【智能医疗】48页论文详述医学AI最新进展

点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要9分钟 跟随小博主,每天进步一丢丢 整理:专知 【导读】机器学习和深度学习为我们提供了一个全新的方法去探索未知领域。本文为大家带来了一份最新的智能医疗综述&…

Cell Trends综述精选:人工智能在生物医学领域的应用

Cell Press细胞出版社旗下Trends系列共有16本综述期刊,致力于让读者了解生命科学、化学和医学领域的最新进展。我们提供简洁、引人入胜的文章,由各领域专家撰写,涉及前沿主题和尖端科学进展。我们的目标是为广大读者提供不仅仅是简单地文献总…

人工智能在医疗领域的应用:预测疾病和提高治疗效果

人工智能在医疗领域的应用:预测疾病和提高治疗效果 目录 人工智能在医疗领域的应用:预测疾病和提高治疗效果

智慧医疗中人工智能的7大应用|数据标注

从药物研发到预测肾脏疾病,人工智能在智慧医疗领域应用广泛。 人工智能在许多医学领域和专业中的应用正在成为现实。人工智能、机器学习、自然语言处理和深度学习使智慧医疗利益相关者和医疗专业人员能够更快、更准确地明确智慧医疗需求和解决方案,并依…

数据中台:FastData云原生数据智能平台

未来企业业务都是智能化的,且都是基于数据的。根据IDC白皮书《数据时代2025》预测,2025年全球的数据总量将会升至175ZB,且超过25%的数据将成为实时数据,规模化数据智能时代即将到来。 企业数据平台的建设将成为数据价值呈现的关键因素,从而推动全行业探索新一代实时数据智…

基于融云的即时通讯开发(一)

一.概述 现在的应用中,即时通讯功能已经很普遍了,从这篇文章开始,我们以第三方平台融云的服务为基础,研究一下如何开发一个具有及时通信功能的软件。 首先,进入融云的官网,地址如下: http://…

基于 Stable Diffusion 一键 AI 作画:什么“小镇做题家”?人人都是艺术家

文章目录 前言一、西方艺术简史1.1、古典艺术时期1.2、现代艺术时期1.3、后现代艺术时期 二、数字艺术的诞生和发展2.1、数字艺术的诞生2.2、数字艺术下的行业细分2.3、数字作品的创作过程2.4、AI 作画诞生 三、Stable Diffusion 文字生成图像3.1、实验环境准备3.2、什么是 Sta…

ZipZap.AI:首款支持无限次数GPT4 AI助理,性能测试结果惊人

随着人工智能技术的不断发展,AIGC(Artificial Intelligence Generative Content)技术也越来越受到关注。AIGC技术是指利用人工智能模型生成各种内容,如文本,图片,音频,视频等。AIGC技术可以帮助…

解放生产力!用Python结合GPT-4进行编程(上)

用GPT-4和Python自动处理枯燥的工作,通过让AI在几秒钟内编写Python代码来加快日常工作流程。 微信搜索关注《Python学研大本营》,加入读者群,分享更多精彩 2023年3月14日,OpenAI推出了GPT-4,这是OpenAI最新、最强大版本…

chatgpt赋能python:Python图片线条:提升你网站的视觉效果和SEO排名

Python图片线条:提升你网站的视觉效果和SEO排名 引言 在当今世界,互联网已成为人们获取信息的主渠道,网站的规模和复杂度也呈指数级增长。在这种情况下,如何让你的网站在众多搜索结果中更加突出,吸引更多的访问者是一…

深度学习使用sketch-code 草图、手稿自动生成HTML前端页面

之前在知乎上看到一篇文章 标题是 《从草图到HTML只需5秒》,好奇点进去看了一会。 顿时惊了。这是一个使用手稿来生成HTML页面的项目,非常有意思。 具体原文在此:从草图到HTML只需5秒 如图片这样,只要一张手绘图,就可…

chatgpt赋能python:Python手绘:让编程画画更有趣

Python 手绘:让编程画画更有趣 作为一名资深的 Python 工程师,我不仅在编程领域里拥有丰富的经验,还深深地热爱着手绘。尤其是通过 Python 手绘,我发现这门编程语言不仅可以用来创造出强大的软件系统,还能让我们在绘画…

第12章项目质量管理

项目质量管理包括把组织的质量政策应用于规划、管理、控制项目和产品质量要求,以满足干系人目标的各个过程。此外,项目质量管理以执行组织的名义支持过程的持续改进活动。项目质量管理需要兼顾项目管理与项目可交付成果两个方面,它适用于所有…

上海交大教授何援军:论工业软件发展的若干问题

何援军,上海交通大学计算机系教授、博士生导师。主要研究方向:CAD,计算机图形学。几何计算的理论、算法和软件等。1992年7月被中国船舶工业总公司授予“有突出贡献中青年专家称号”。同年10月起享受政府特殊津贴。“九五”期间任上海市CAD应用…

国内人力资源管理软件的低代码应用

随着企业数字化转型的推进和人力资源管理的逐步精细化,HR系统越来越被重视。许多企业纷纷采购了各种功能强大的HR系统,然而,这些系统常常需要在充分理解业务流程和用户需求的前提下进行细致定制。这不仅需要一定的技术储备,还需要…

当HR软件系统开始低代码

随着企业数字化转型的推进和人力资源管理的逐步精细化,HR系统越来越被重视。许多企业纷纷采购了各种功能强大的HR系统,然而,这些系统常常需要在充分理解业务流程和用户需求的前提下进行细致定制。这不仅需要一定的技术储备,还需要…

HR软件市场中的低代码

低代码是一种通过可视化方式创建应用的平台,能够提高开发效率、降低开发难度。为了适应快速发展需求,一些主流 HR 系统厂商开始引入低代码能力和工具。而 HR 软件市场应用低代码的前景如何?低代码能如何帮助 HR 市场呢?让我们通过…

什么是渲染?一文看懂,萌新赶紧收藏码住!

十四五规划提出“加快数字化发展,建设数字中国”,数字技术的快速发展,从起初的内容创建到最终的效果呈现,都离不开渲染技术。目前,渲染技术被广泛应用于教育、医疗、影视动画、建筑设计等多个领域。它能有效满足用户对…

团队沟通利器之UML——活动图

在平时的项目开发中,可能有的团队对业务都是用口头在团队里面进行交流,有时程序员的理解跟老大表达的意思不一致,还有 其他等等的弊端就不说了。我们知道建筑工人都是按照图纸做事的,同样在软件开发中,我们应该也有这…

【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍

文章目录 一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石3.1 基本模型3.2 基于人类反馈的强化学习3.3 算力支持 四、生成式 AI(Generative AI)4.1 单模态4.1.1 生成式语言模型(Generative Language Models,GLM&#xff0…