辨析常见的医学数据分析（相关性分析回归分析）

1 常见的三种分类结果？

2 什么是相关性分析？

1 常见的三种分类结果？

二元分类：e.g. 是/否为关节炎

多元有序分类：疾病严重程度的分级（分类结果有序且等差，e.g.轻度、中度、重度依次等差递增）

多元无序分类：疾病的种类，e.g.肺癌、乳腺癌、胃癌，这里如软骨损伤的类型。这些分类结果没有等级上的关系，都是并列关系的诊断结果。

2 什么是相关性分析？

两个变量之间是否存在相关性及计算相关程度的大小。

主要分为两类：线性相关 && 秩相关

	线性相关分析	秩相关分析
类型	参数检验	非参数检验
数据需求	双定量变量（连续型数值变量），均满足正态分布	定量或等级变量，即至少有一个变量为偏态分布或等级变量
分析方法	Pearson相关	Spearman相关
相关系数	Pearson相关系数，r	Spearman相关系数， $r_{s}$
p值与结论	p<0.05：两变量总体线性相关	p<0.05：两变量总体相关
r值与结论	\|r\| > 0.8，两变量存在极强的相关； 0.6 < \|r\| < 0.8，强相关； 0.4 < \|r\| < 0.6，中等相关； \|r\| < 0.4，弱相关。

3 什么是回归分析？

如果说，相关性分析是看自变量对因变量是否有影响，那么，回归分析是看自变量如何影响因变量的模型拟合。

相关性分析基于两两变量直接的关系探究；而回归分析一次性纳入了所有可能相关的变量，模拟真实的环境以找到真正有独立影响性的因素，并得到这些因素是如何作用的。

1）前提

建立回归模型的多变量不能存在共线性的关系（如，BMI是由身高与体重的线性计算公式得到的，那么建立模型时就不能同时纳入BMI和体重两个自变量）

2）常见的回归模型

二元Logistic回归	适用于二元分类（是否发生疾病）
多元有序Logistic回归	适用于多元有序分类
多元无序Logistic回归	适用于多元无序分类
Cox回归	含有“时间数据”的二元Logistic回归（疾病发生的速度）

4 对于存在对照组实验的医学病例如何分析？

1）卡方检验

卡方检验进行分析的目的是比较差异性。

建立了两组假设：①零假设：观察组和对照组的作用结果一致。（如，某新药物【观察组】和常规药物【对照组】的疗效一致。）

②备选假设：观察组和对照组的作用结果显著不一致。（如，想要证实新药物的疗效更好。）

卡方检验的p值<0.05，则拒绝零假设，接受备选假设；反之，接受零假设。

参考：卡方（χ2），四格表应用条件，理论频数_weixin_34307464的博客-CSDN博客，由于基于卡方分布模型，使用卡方检验的前提：①样本总量>40；②四格表的理论频数≠0并且理论频数<5的样本不超过总样本数的20%。

2）Fisher 精确概率法

对于小样本，或四格表的理论频数=0的情况，使用Fisher 精确概率法。

目的：以超几何分布为理论模型，用来检验一次随机实验的结果是否支持对于某个随机实验的假设，当测试结果出现小概率事件则认定原有假设不被支持。

同样地，Fisher 检验的p值<0.05，则拒绝零假设。

与卡方检验的区别在于：在实际计算当中分为单边检验（即超几何检验）和双边检测。实际应用中，Fisher检验前先有一个预期，如：想要得到新药比常规药的有效概率更大，则选择Fisher检验的“大于”的单侧；若只是想要得到新药与常规药的有效性有差异，则选择Fisher双边检测。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/140301.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

患者编号	年龄	性别	BMI	是否为关节炎	关节炎严重程度	软骨损伤类型
001	60	0	23.4	1-是	轻度	1-软骨软化
002	56	1	26.1	1-是	中度	2-软骨裂隙
003	64	0	25.5	1-是	轻度	3-局灶性缺损
004	63	0	26.8	1-是	重度	4-弥漫性变薄
*软骨损伤类型的分类方式参考了文献《Deep Learning Approach for Evaluating Knee MR Images: Achieving High Diagnostic Performance for Cartilage Lesion Detection》