论文部分内容阅读
背景临床试验中,常由于受试者的失访、不依从、出现不良事件、使用急救药物等情况导致缺失数据。缺失数据会减弱随机试验的优势、降低试验的检验效能、引入潜在的偏倚,最终影响试验结论的正确解释和可信度。因此,采用合适的统计分析方法处理缺失数据至关重要。常用的单一填补法假设缺失数据的真实值与填补值相同的概率为100%,如末次观测结转法(Last Observation Carried Forward,LOCF)假设缺失的数据与末次观测一致。此种假设低估了数据变异、歪曲数据的分布和数据间的关系。重复测量的混合效应模型(Mixed Model for Repeated Measurements,MMRM)、多重填补(Multiple Imputation,MI)均假定缺失数据符合随机缺失机制(Missing at Random,MAR),但这种假定并不总是成立的。当数据缺失为非随机缺失(Missing Not at Random,MNAR)时,采用上述方法可能引入更多的偏倚。模式混合模型(Pattern Mixture Models,PMM)通过设定缺失数据的分布与观测数据之间的关系对缺失机制为MNAR的数据进行分析,该假设理论上易于解释并具有临床意义,可对缺失数据进行多个不同假设的敏感性分析。目前对于以上缺失数据处理方法何种更具优良特性尚无定论。另外,由于PMM引起关注的时间较晚,实际应用相对较少,与其它常用的缺失数据处理方法的对比研究较为罕见,因此,其统计性能还有待进行全面详细的模拟比较研究。目的本研究旨在比较模式混合模型和常用的处理方法处理符合不同缺失机制(单一缺失机制或混合多种缺失机制)的数据时的统计性能,为临床试验中的缺失数据处理策略提供依据。方法采用Monte Carlo技术模拟产生不同缺失机制、不同缺失比例、不同相关系数和不同疗效变化模式的纵向缺失数据集,以完整纵向数据的分析结果为基准,评价常用缺失数据处理方法和模式混合模型的统计性能,包括Ⅰ类错误、检验效能、各组疗效和组间疗效差异的估计误差及其95%置信区间覆盖率和宽度。结果MMRM和MI均可控制Ⅰ类错误,检验效能略低于完整数据;LOCF多数情况下难以控制Ⅰ类错误,检验效能变异较大;PMM的Ⅰ类错误低于设置水平,检验效能低于MMRM和MI。多数情况下MMRM和MI的点估计误差较低,但在MNAR出现的情况下,估计误差增加且可能高估试验组疗效,疗效的95%置信区间覆盖率稍低;LOCF则表现不稳定,MAR和MNAR缺失机制会增加其不稳定性;在处理MNAR或者含有较多MNAR的数据时,PMM估计误差大多较小且95%置信区间覆盖率较高,多数情况下低估试验组疗效和组间疗效差异。所有情况下,MI和PMM的95%置信区间最宽,MMRM次之,LOCF最窄。相关系数越大、缺失比例/差异越小基本上使得统计性能越优。LOCF和PMM受到疗效变化模式影响较大。结论MMRM与MI在MCAR或MAR下的统计性能最优,受各种因素影响较有规律,可根据实际情况选择其中一个作为主要分析。LOCF因填补方法的特殊性使得变异较小,精度较高,但其最大的缺陷是不够稳健且不能有效控制Ⅰ类错误,需谨慎使用。分析MNAR或者多种缺失机制共存的缺失数据时,MMRM与MI的统计性能有所降低。采用PMM进行敏感性分析可考察试验结果的稳健性,但需要注意结论是否偏于保守。