论文部分内容阅读
研究背景与目的:急性胰腺炎中约15-20%的患者发生坏死性胰腺炎(Necrotizing Pancreatitis,NP)。NP继发性感染的发生和死亡率的增加有关,很少有研究为感染性胰腺坏死(Infected Pancreatic Necrosis,IPN)的发生提供简单实用的预测。因此,确定IPN的最佳可用预测因素是必要的,成为提高患者生存率的关键。数据挖掘(Data Mining)是指在大量的数据中通过某种规律发现潜藏在里面的一些信息的过程,并且这些信息有特殊联系。决策树是数据挖掘技术中非常重要的研究方法,是一种常用的分类方法,本质上是通过某些规则对数据进行分类的过程。在机器学习中,决策树相当于是一个预测模型,是直接运用概率分析的一种图解法。分类回归树(Classification and Regression Tree,CART)是决策树中常用的经典算法,已在在很多领域被广泛应用。文献调研显示,到目前为止CART算法还未被用于IPN的决策模型的建立。本研究的目的是通过CART算法构建决策树模型预测IPN,并验证该模型的性能。材料与方法:本研究回顾性分析西部战区总医院普外中心数据库中2012年1月至2018年12月坏死性胰腺炎(NP)患者的临床资料。共纳入224例坏死性胰腺炎患者,按照7:3的比例随机分配成训练样本(n=156)和测试样本(n=68)。将患者实验室数据进行标准化处理,利用Python中的sklearn工具包,使用CART算法构建决策树模型。训练样本用于模型的构建,测试样本用于对所构建的模型进行验证,采用10折交叉验证来评估模型的性能,构建受试者曲线(receiver operating characteristic,ROC)下面积即AUC来评价决策树模型。结果:1.本研究共纳入224例坏死性胰腺炎患者。整个研究人群中IPN患病率为10.7%,其中男性129例(57.6%),女性95例(42.4%),中位年龄49岁(41.25-61)。在所有患者中胆源性疾病为85例(37.9%),高脂血症为55例(24.6%),酒精性疾病为34例(15.2%),其他病因50例(22.3%),例如ERCP后、解剖异常和特发性胰腺炎等。2.通过采用Python语言编程使用CART算法作为决策树生长规则。训练样本用于监督分类下的预测器,生成决策树模型。通过对比决策树不同深度时的准确率大小,深度为5层时模型的准确度最高。最终在训练样本建立的决策树模型中,节点数为17,终端节点(叶节点)数为9,决策树深度为5。发现血淀粉酶、二氧化碳结合率、胆碱酯酶、血浆渗透压、血小板分布宽度、体内剩余碱、胱抑素C、血Ig G4共8个重要变量,它们的截止值分别为14.12mmol/L、32.67mmol/L、1.69U/m L、275.42Osm/kg H2O、25.02%、2.09mmol/L、1.48mg/L、0.15g/L。根据发展成IPN的可能性将决策树模型终端节点重建为两组,高风险组总共有5组,低风险组有4组。3.将决策树模型应用于测试样本时,该决策树的准确度88.3%(95%CI,0.79-0.95),灵敏度和特异度分别为42.9%(95%CI,0.12-0.80)和93.4%(95%CI,0.83-0.98)。假阳性率6.5%(95%CI,0.02-0.17)、假阴性率57.1%(95%CI,0.20-0.88)。阳性预测值42.9%(95%CI,0.12-0.80)、阴性预测值93.4%(95%CI,0.83-0.98)。采用10折交叉验证法评估该模型的预测能力,其平均准确率为88.4%。根据ROC曲线分析,AUC 0.69(95%CI,0.46–0.91)。结论:本研究发现血淀粉酶、二氧化碳结合率、胆碱酯酶、血浆渗透压、血小板分布宽度、体内剩余碱、胱抑素C、血Ig G4可作为预测IPN的重要节点指标,并进一步根据IPN风险评估值将决策树模型终端节点进行重建和梳理,得出了5组IPN的高危因素。通过一系列模型验证和评估证实了这5组高危预测因素能够对IPN的发生进行有效的预测。本研究结果通过决策树模型发现单变量指标之间存在潜在的交互作用,并得出了多变量的二分类预测因素,临床实用性高,有利于对IPN的精确预测和评估,对临床治疗方案的制定有一定的指导意义,也为IPN的深入研究提供了新的方向。