链式插补 (MICE):弥合不完整数据分析的差距

导 读

数据缺失可能会扭曲结果,降低统计功效,并且在某些情况下,导致估计有偏差,从而破坏从数据中得出的结论的可靠性。

处理缺失数据的传统方法(例如剔除或均值插补)通常会引入自己的偏差或无法充分利用数据集中的可用信息。

链式方程插补 (MICE) 的出现为解决这一普遍问题提供了一种更复杂、更灵活的方法,为研究人员提供了一种可以处理现实世界数据固有的复杂性和不确定性的工具。

数据缺失的存在类似于在隐藏地形的地图上导航。链式方程插补 (MICE) 方法充当指南针,引导研究人员穿过这些模糊的路径,确保所采取的每一步都是最佳的,得出的每一个结论都尽可能准确。

有需要的朋友关注公众号【小Z的科研日常】,获取更多内容

01、MCIE

链式方程插补 (MICE) 是一种用于处理数据集中缺失数据的统计技术。这是一种多功能方法,可以以灵活而稳健的方式处理缺失值,使其在社会科学到生物统计学等领域广受欢迎。以下是详细概述:

1.1 关键原则

① 多重插补:与使用单个估计值填充缺失值的单一插补方法不同,MICE 会生成多重插补。这种方法通过创建几个不同的合理数据集来填充缺失值,从而承认缺失数据真实值的不确定性。

② 链式方程:MICE 通过使用一系列回归模型在逐个变量的过程中估算缺失数据来进行操作。

每个缺失数据的变量都会有条件地估算到数据集中的其他变量。该过程是“链式的”,因为它迭代地循环变量,根据上一步的更新数据更新每一步的插补。

1.2 MICE如何运作?

① 初始化:缺失值最初用占位符值填充,通常是该变量观测值的平均值或中位数。

② 迭代:对于每个缺失数据的变量,使用其他变量作为预测变量,对观测值拟合回归模型。然后根据该模型估算缺失值。依次对每个变量重复此步骤,循环遍历变量进行多次迭代。

③ 收敛:经过指定次数的迭代后,假定该过程已收敛,这意味着进一步循环变量不会显着改变插补。

通常,前几次迭代作为“老化”期被丢弃,并且通过从随后的迭代中采样来创建多个估算数据集。

1.3 MICE优点

  • 灵活性:MICE 可以处理不同类型的变量(连续、二元、分类)和不同的缺失数据机制。

  • 稳健性:通过生成多重插补,MICE 提供了一种量化由于缺失数据而导致的不确定性的方法,而这种不确定性在单一插补方法中经常被忽视。

  • 效率:链式方程方法允许根据最适合其分布和与其他变量关系的模型来估算每个变量。

1.4 MICE局限性

  • 假设:MICE 假设数据随机丢失 (MAR),但情况可能并非总是如此。如果数据不是随机丢失 (MNAR),则插补可能会有偏差。

  • 复杂性:迭代过程以及生成和分析多个数据集的需要可能是计算密集型的,并且需要更复杂的统计分析。

1.5 应用领域

MICE广泛应用于各个领域,在处理不完整数据集时进行数据分析。它在纵向研究、临床试验和调查中特别有用,因为丢失数据是一个常见问题。

通过提供稳健的缺失值输入方法,MICE 帮助研究人员和分析师充分利用他们的数据,从而得出更准确、更可靠的结论。

1.6 MCIE的起源

MICE 源于更广泛的多重插补框架,这是鲁宾于 1987 年提出的一个概念,旨在通过创建多个插补数据集、单独分析每个数据集,然后组合结果来解决因缺失数据而造成的不确定性。

MICE 在此基础上构建,通过在链式迭代过程中采用一系列回归模型来生成这些多重插补。这种方法创新使得能够以更大的灵活性和准确性解决从健康科学到经济学等不同领域的各种缺失数据问题。

1.7 MCIE的机制

MICE 的核心是通过迭代过程进行操作,其中每个缺失数据的变量都按顺序进行估算,并使用其他变量作为预测变量。

该过程从初步插补阶段开始,其中缺失值由初始估计值填充,例如观测值的平均值或中位数。在连续迭代中,对于每个缺失数据的变量,将回归模型拟合到观察到的数据,同时考虑所有其他变量的当前插补。

然后根据该模型的预测分布估算缺失值。这个循环在一系列迭代中重复,使得插补随着模型调整到反馈循环中的插补值而演变。

1.8 MCIE的优势与创新

与传统插补方法相比,MICE 方法具有多种优势。

首先也是最重要的是它的灵活性:通过为每个变量选择适当的模型,MICE 可以容纳从连续到分类的不同类型和分布的变量。如果数据随机丢失 (MAR) 的假设成立,这种适应性可以扩展到处理各种丢失模式和机制。

此外,通过生成多重插补,MICE 承认并量化插补过程中固有的不确定性,从而实现更稳健的统计推断。

02、代码

为了演示在 Python 中使用链式方程插补 (MICE),我们将创建一个包含缺失值的合成数据集,应用 MICE 插补这些值,然后使用指标和图评估插补质量。

我们将使用该pandas库来处理数据、numpy生成缺失值、sklearn创建合成数据集和评估指标以及matplotlib绘图seaborn

我们还将使用IterativeImputerfrom,sklearn.impute因为它实现了类似 MICE 的方法。

import numpy as np
import pandas as pd
from sklearn.datasets import make_regression
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt
import seaborn as sns# 生成合成数据集
X, y = make_regression(n_samples=1000, n_features=10, noise=0.1, random_state=42)# 转换为 DataFrame,以便于操作
df = pd.DataFrame(X, columns=[f'Feature_{i}' for i in range(X.shape[1])])
df['Target'] = y# 显示前几行
df.head()# I引入缺失值
np.random.seed(42)
df_missing = df.mask(np.random.random(df.shape) < 0.1)# 显示前几行以验证缺失值
df_missing.head()# 初始化 MICE 计算器
mice_imputer = IterativeImputer(max_iter=10, random_state=42)# 拟合和转换数据集以填补缺失值
df_imputed = mice_imputer.fit_transform(df_missing)# 将拟合数据转换回 pandas DataFrame
df_imputed = pd.DataFrame(df_imputed, columns=df.columns)
df_imputed.head()# 计算每个特征的 RMSE
rmse = np.sqrt(mean_squared_error(df, df_imputed, multioutput='raw_values'))# 打印每个特征的均方根误差
print(f'RMSE for each feature: {rmse}')# 选择要绘制的特征
feature_to_plot = 'Feature_0'# 绘制原始分布图和处理后的分布图
plt.figure(figsize=(10, 6))
sns.kdeplot(df[feature_to_plot], label='Original', color='green', linestyle="--")
sns.kdeplot(df_imputed[feature_to_plot], label='Imputed', color='red', linestyle="-")
plt.legend()
plt.title(f'Distribution of Original vs. Imputed Values for {feature_to_plot}')
plt.xlabel('Value')
plt.ylabel('Density')
plt.show()

输出:

RMSE for each feature: [ 0.24095716  0.22593846  0.21704334  0.15838514  0.25103187  0.299926050.1432319   0.22131897  0.27775888  0.16266519 15.56987127]

此代码片段提供了从创建具有缺失值的合成数据集到使用 MICE 估算这些值并评估结果的完整演练。

它提供了一个在 Python 中处理缺失数据的实际示例,展示了 MICE 在保留数据集的统计属性方面的实用性。

03、总结

链式方程插补代表了缺失数据处理方面的重大进步,为研究人员和分析师提供了灵活、强大且复杂的工具包。

虽然 MICE 具有一定的复杂性和假设,但它解决了统计分析中的基本挑战,能够对不完整的数据进行更明智、更细致的解释。

随着数据集规模和复杂性的增长,MICE 等先进插补技术的作用只会变得更加重要,这凸显了统计科学中持续方法创新和教育的必要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/269445.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL王国:从基础到高级的完整指南【文末送书-28】

文章目录 MySQL从入门到精通第一部分&#xff1a;MySQL基础第二部分&#xff1a;MySQL进阶第三部分&#xff1a;MySQL高级应用 MySQL从入门到精通&#xff08;第3版&#xff09;&#xff08;软件开发视频大讲堂&#xff09;【文末送书-28】 MySQL从入门到精通 MySQL是一种开源…

Linux中汇编语言的学习(加法、乘法、除法、左移、右移、按位与等多种命令操作实例以及ARM的 N、Z、C、V 标志位的解释)

汇编概述 汇编需要学习的大致框架如下&#xff1a; 汇编中的符号 1.指令&#xff1b;能够北嘁肷梢惶?2bit机器码&#xff0c;并且能够被cpui识别和执行 2.伪指令&#xff1a;本身不是指令&#xff0c;编译器可以将其替换成若干条指令 3.伪操作&#xff1a;不会生成指令…

技术指标的买入形态之均线形成多头排列

一、技术特征 1、在股价横盘整理过程中&#xff0c;其短期均线、中期均线持续纠缠在一起。 2、整理一段时间后&#xff0c;短期均线向上突破了中期均线&#xff0c;中期均线也向上突破了长期均线。 均线多头排列是股价处于上涨行情中的信号。 二、买点描述 当均线的多头排列…

tomcat nginx 动静分离

实验目的:当访问静态资源的时候&#xff0c;nginx自己处理 当访问动态资源的时候&#xff0c;转给tomcat处理 第一步 关闭防火墙 关闭防护 代理服务器操作&#xff1a; 用yum安装nginx tomcat &#xff08;centos 3&#xff09;下载 跟tomcat&#xff08;centos 4&#xff0…

3分钟开通GPT-4

AI从前年12月份到现在已经伴随我们一年多了&#xff0c;还有很多小伙伴不会开通&#xff0c;其实开通很简单&#xff0c;环境需要自己搞定&#xff0c;升级的话就需要一张visa卡&#xff0c;办理visa卡就可以直接升级chatgptPLSU 一、虚拟卡支付 这种方式的优点是操作简单&…

AI-RAN联盟在MWC24上正式启动

AI-RAN联盟在MWC24上正式启动。它的logo是这个样的&#xff1a; 2月26日&#xff0c;AI-RAN联盟&#xff08;AI-RAN Alliance&#xff09;在2024年世界移动通信大会&#xff08;MWC 2024&#xff09;上成立。创始成员包括亚马逊云科技、Arm、DeepSig、爱立信、微软、诺基亚、美…

mysql高可用架构设计

一、主从架构 主从架构一般如下所示 这里从节点一般设置成只读&#xff08;readonly&#xff09;模式。这样做&#xff0c;有以下几个考虑&#xff1a; 有时候一些运营类的查询语句会被放到备库上去查&#xff0c;设置为只读可以防止误操作&#xff1b; 防止切换逻辑有 bug&a…

Unity2023.1.19_ECS_DOTS

Unity2023.1.19_ECS_DOTS 盲学-盲目的学习&#xff1a; 懒着自己整理就看看别人整理的吧&#xff0c;整合一下逻辑通了不少&#xff1a; DOTS/data oriented technology stack-面向数据的技术栈 ECS/Entities-Component-System Unity-Entities包 Entities提供ECS架构面向数…

javaWebssh教师荣誉库管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh在线授课辅导系统是一套完善的web设计系统&#xff08;系统采用ssh框架进行设计开发&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0…

云计算时代的运维: 职业发展方向与岗位选择

✨✨ 欢迎大家来访Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭❤&#xff5e;✨✨ &#x1f31f;&#x1f31f; 欢迎各位亲爱的读者&#xff0c;感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua&#xff0c;在这里我会分享我的知识和经验。&#x…

基于Spring Boot + Vue的网上订餐系统

末尾获取源码作者介绍&#xff1a;大家好&#xff0c;我是墨韵&#xff0c;本人4年开发经验&#xff0c;专注定制项目开发 更多项目&#xff1a;CSDN主页YAML墨韵 学如逆水行舟&#xff0c;不进则退。学习如赶路&#xff0c;不能慢一步。 目录 一、项目简介 二、开发技术与环…

10kV/35kV并网分布式光伏系统-实现错峰有序用电

根据国家电网 Q/GDW1480-2015 《分布式电源接入电网技术规定》&#xff1a;分布式电源并网电压等级可根据各 并网点装机容量进行初步选择&#xff0c;推荐如下&#xff1a; • 8kW 及以下可接入 220V &#xff1b; • 8kW~400kW 可接入 380V &#xff1b; • 400kW~60…

实名制交友-智能匹配-仿二狗交友系统-TP6+uni-APP小程序H5公众号-源码交付-支持二开!

一、代码风格 通常不同的开发者具备不同的代码风格&#xff0c;但为了保证语音交友系统开发质量&#xff0c;在编码前需要进行代码风格的统一&#xff0c;通过制定一定的规则&#xff0c;约束开发者的行为。具有统一风格的代码才能更清晰、更完整、更容易理解、更方便后期维护…

springboot,druid动态数据源切换

关键字&#xff1a;springboot&#xff0c;druid数据库连接池&#xff0c;两个数据源&#xff08;可以切换成多个&#xff09;&#xff0c;事务管理 关于druid简介传送门&#xff1a;https://github.com/alibaba/druid/wiki/%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98 具体分为四…

利用文件实现进程间共享数据

概述 文件可以存储任何非结构化字节序列&#xff0c;这个比较简单&#xff0c;就一个写一个读&#xff1b;学习到此&#xff0c;留个记录&#xff0c;以后可以直接抄代码&#xff0c;哈哈 Demo代码 #include <fstream> #include <iostream> #include <thread&…

代码随想录day10(2)字符串:反转字符串Ⅱ (leetcode541)

题目要求&#xff1a;给定一个字符串 s 和一个整数 k&#xff0c;从字符串开头算起, 每计数至 2k 个字符&#xff0c;就反转这 2k 个字符中的前 k 个字符。如果剩余字符少于 k 个&#xff0c;则将剩余字符全部反转。如果剩余字符小于 2k 但大于或等于 k 个&#xff0c;则反转前…

python实现ElGamal算法

ElGamal公钥密码算法是在密码协议中有着重要应用的一类公钥密码算法&#xff0c;基于公钥密码体制和椭圆曲线加密体系&#xff0c;其安全性是基于有限域上离散对数学问题的难解性。至今仍是一个安全性良好的公钥密码算法。既可用于加密又可用于数字签名的公钥密码体制。 数字签…

【vue.js】文档解读【day 1】 | 模板语法2

如果阅读有疑问的话&#xff0c;欢迎评论或私信&#xff01;&#xff01; 本人会很热心的阐述自己的想法&#xff01;谢谢&#xff01;&#xff01;&#xff01; 文章目录 模板语法JavaScript表达式仅支持表达式调用函数&#xff1f;受限的全局访问 指令参数动态参数动态参数中…

Vanna-ai -基于RAG的TextToSql实现方案

官方连接&#xff1a;Vanna.AI - Personalized AI SQL Agent 1.背景 基于大模型的TextToSql的关键为给大模型提供正确有效的数据库信息及问题&#xff0c;以提升大模型生成sql的正确率。database_info question形成prompt&#xff0c;但是实际中通常会遇到一个问题&#xff…

C# WinForm AndtUI第三方库 Tree控件使用记录

环境搭建 1.在NuGet中搜索AndtUI并下载至C# .NetFramework WinForm项目。 2.添加Tree控件至窗体。 使用方法集合 1.添加节点、子节点 using AntdUI; private void UpdateTreeView() {Tree tvwTestnew Tree();TreeItem rootTreeItem;TreeItem subTreeItem;Dictionary<str…