MDMs缺失数据机制及处理方法

wodexiaochuxia

2018-07-07

1.缺失数据机制

1.1随机缺失（MAR）

在MAR假设下，数据缺失原因取决于完全观测到的协变量（如干预、基线），而与未观测到的因素无关。统计学分析通常假设缺失数据为MAR，如果假设是正确的，仅分析完整的数据可以得到一个无偏倚的疗效估计。

1.2 完全随机缺失（MCAR）

在MCAR假设下，数据缺失的原因与观测到的变量和未观测到的变量无关，这意味着数据缺失的原因与这项试验无关，所有参与试验的个体数据缺失的几率都是相同的，我们假设研究中缺失数据与完整数据分布规律是一致的，干预措施对于缺失数据和完整数据影响一致。

1.3 非随机缺失（MNAR）

在MNAR假设下，数据缺失与观测到或未观测到的变量或结果有关，参与者中途退出试验的原因可能与干预措施有关，例如：精神病试验中，安慰剂组比抗精神病药组退出率要高，因为安慰剂没有改善患者健康状况。在MNAR情况下，对于完成试验的参与者进行分析时，应该提供一个关于相对疗效的偏差估计，当缺失数据是MCAR或MAR时，偏差估计可以忽略的，当缺失数据是MNAR时，偏差估计是不可忽略的。

2.缺失数据处理方法

2.1 完整案例分析（CC）

完整案例分析法是在Meta分析中最普遍和常用的缺失数据处理方法，在每个研究中，只有完成研究的个体可以被纳入。这种方法要求缺失数据是可忽略的（MCAR或MAR），否则，这种方法会导致偏差估计，如果数据是完全随机缺失，采用完整案例分析则会得到一个无偏倚结果，当数据是非随机缺失时，缺失数据比例越大，此项分析的研究结果就越不可信。像完整案例分析这样完全忽略缺失数据的方法，会降低结果的精准度和研究的统计学功效，而且这种方法违背了ITT分析基本原则。如以下森林图（图1），所采用的数据来自于ACA方法估计；

MDMs缺失数据机制及处理方法

2.2 末次观察推进法（LOCF）

LOCF广泛应用于纵向研究缺失数据处理，这种方法可以用于参与者在试验结束前退出，但是提供了一个或多个中间观测值。这种方法允许了所有个体被包含在分析之中，符合ITT原则。对于LOCF适用的缺失机制尚有争议，有人认为使用这种方法需要数据为MCAR，而有人则认为不需要。

2.3 估算个案分析（ICA）

这种方法是假设缺失值的参与人员从未离开过试验，根据缺失值在试验组和对照组干预中不同情况来进行分析。

缺失数据带来的风险偏倚取决于缺失数据机制，大多数统计学分析假设数据缺失机制为MAR，这种假设是理想化的假设，在缺乏有力的证据时，判断数据缺失的机制可能会引入偏倚。Meta分析通常不具备检测数据缺失原因的能力，仅凭经验性判断数据缺失的原因和机制是不科学的。敏感性分析通常是在不同情况下评估数据缺失机制唯一可行的方法。

大数据

安科网

MDMs缺失数据机制及处理方法

wodexiaochuxia

wodexiaochuxia

相关推荐

docker容器与宿主机的数据交互方式总结

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

SAP AMDP介绍 - ABAP托管的HANA数据库过程

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

wodexiaochuxia