首页 > 医疗资讯/ 正文

中国西部地区心脏手术患者术后不良预后的预测模型研究:结合机器学习与SHAP解释

来源 2025-09-13 12:12:10 医疗资讯

 摘  要 

目的 构建并比较5种机器学习模型对心脏手术患者术后不良预后的预测效果,通过SHAP(SHapley Additive exPlanations)可解释性分析识别关键决策因素。方法 回顾性收集新疆医科大学第一附属医院2023年成人心脏手术患者的围术期数据(包括人口学信息、术前指标、术中指标和术后指标)88项,定义患者在心脏手术术后住院期间发生急性肾损伤和/或院内死亡为术后不良预后。根据患者是否发生术后不良预后分为不良预后组和良好预后组。使用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归方法筛选出特征变量后,构建5种机器学习模型:极限梯度提升(eXtreme gradient boosting,XGBoost)、随机森林(random forest,RF)、梯度提升机(gradient boosting machine,GBM)、轻量梯度提升机(light gradient boosting machine,LightGBM)及广义线性模型(generalized linear model,GLM)。数据集按照7∶3的比例,通过分层抽样(以术后预后情况为分层因素) 随机分为训练集和测试集。通过受试者工作特征曲线、决策曲线分析及F1 Score等评估模型性能,应用SHAP方法进行特征贡献度解析。结果 共纳入患者639例,其中男395例、女244例,中位年龄为62(55,69)岁。不良预后组191例、良好预后组448例,术后不良预后发生率为29.9%。单因素分析中两组各变量差异无统计学意义(P>0.05)。使用LASSO回归筛选出16个特征变量(体外循环辅助时间、术后第3天血糖、肌酸激酶同工酶-MB、全身炎症反应指数等),构建了5种机器学习模型(GLM、RF、GBM、LightGBM、XGBoost)。评估结果显示:XGBoost模型在训练集(n=447)和测试集(n=192)上均表现出最优的预测效能,曲线下面积分别为0.761[95%CI(0.719,0.800)]、0.759[95%CI(0.692,0.818)],并在测试集中阳性预测值和平衡准确度上均优于其他模型。决策曲线分析进一步验证其在多种风险阈值下的临床实用性。SHAP分析提示,体外循环辅助时间、术后第3天血糖、肌酸激酶同工酶-MB及炎症指标(全身炎症反应指数、中性粒细胞与淋巴细胞比值、C反应蛋白与白蛋白比值)等变量对预测贡献度较高。结论 XGBoost模型可有效预测心脏术后不良预后,临床应重点关注体外循环辅助时间、控制术后血糖及监测炎症水平来改善患者预后。

正  文

心脏手术后急性肾损伤(acute kidney injury,AKI)是影响患者预后恶化和院内死亡的主要原因之一[1-2]。AKI不仅降低了患者的生存率和生活质量,还增加了医疗资源的负担。在中国西部地区,由于民族多样性、经济发展不平衡和医疗资源分布不均[3-4],精准预测AKI的发生尤为重要。然而,目前针对中国西部地区背景下心脏手术患者术后AKI的预测研究却较少。

在医学领域,传统的美国胸外科医师协会评分(STS评分)和改良早期预警评分(MEWS评分)虽然广泛用于评估患者死亡率及术后AKI风险[5-6],但其对临床上多维复杂病例的预后准确性较差[7]。随着数据科学和计算技术的发展,机器学习为突破这一瓶颈提供了新的思路。研究[8-9]表明,在处理大量数据特别是这些数据之间具有复杂关系时,机器学习展现出比传统方法更强的预测能力。然而,机器学习在医学领域的应用也不是完美的,其“黑箱”特性限制了其在临床中的广泛应用[10]。

SHAP(SHapley Additive exPlanations)可解释性分析通过量化特征贡献度,为模型决策提供可操作的解释[11],使其成为连接数据科学与临床实践的关键桥梁。

本研究使用5种机器学习方法:极限梯度提升(eXtreme gradient boosting,XGBoost)、随机森林(random forest,RF)、梯度提升机(gradient boosting machine,GBM)、轻量梯度提升机(light gradient boosting machine,LightGBM)及广义线性模型(generalized linear model,GLM)构建心脏手术术后AKI/死亡复合结局预测模型。系统构建并验证5种机器学习算法驱动的术后不良预后风险评估模型,通过模型功能评估选出最优模型,并通过SHAP可解释性分析,揭示影响西部地区患者心脏手术术后预后的关键因素,为临床精准干预提供循证依据。

资料与方法

1.1   临床资料和分组

回顾性分析新疆医科大学第一附属医院2023年接受心脏手术的成年患者的临床资料。纳入标准:(1)年龄≥18岁,性别不限;(2)美国麻醉医师协会(ASA)分级Ⅰ~Ⅳ级;(3)数据完整,关键变量缺失率<30%。排除标准:术前预计肾小球滤过率(eGFR)<30 mL/(min·1.73 m2)(CKD-EPI公式计算)或接受肾脏替代治疗。

根据患者术后是否发生不良预后将患者分为不良预后组和良好预后组。

1.2   指标定义

术后不良预后为复合终点,定义为患者在心脏手术术后住院期间发生AKI和/或院内死亡。AKI根据KDIGO标准定义,满足以下任一条件:(1)血清肌酐:术后48 h内升高≥0.3 mg/dL(26.5 μmol/L)或7 d内升至基线1.5倍(基线取术前7 d最低值);(2)尿量:术后持续6 h尿量<0.5 mL/(kg·h)(排除梗阻性病因)。院内死亡:术后住院期间全因死亡。

1.3   主要变量

本研究的预测目标是评估成人心脏手术术后出现不良预后发生率。通过结合文献综述及本院5位相关领域专家意见,从医院电子病历系统中提取关键变量,包括人口统计学(性别、民族、年龄、吸烟史、饮酒史、高血压病史、糖尿病史);术前检查结果,如心脏超声检查、实验室检查[白细胞计数(white blood cell count,WBC)、肌酐(creatinine,Cr)、肌酸激酶同工酶(creatine kinase-MB,CK-MB)、全身炎症反应指数(systemic inflammatory response index,SIRI)等];术中情况,如手术方式(主动脉瓣手术、房间隔缺损修补术)、体外循环时间等;术后血糖水平等[12];共88个变量。

1.4   缺失值处理

为了确保数据的完整性和分析结果的可靠性,本研究采用链式方程多重插补法(MICE)对缺失值进行了处理[13]。

1.5   变量筛选

使用最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归从88个变量中进行特征变量筛选[14]。筛选出的变量随后作为特征变量纳入到后续的模型构建中。

1.6   机器学习模型构建与评估

构建了XGBoost、RF、GBM、LightGBM、GLM 5种模型。数据集按照7∶3的比例,通过分层抽样(以术后预后情况为分层因素) 随机分为训练集和测试集。所有模型均基于R语言mlr3包。模型性能通过多项指标进行评估,曲线下面积(area under the curve,AUC)用于评价模型的总体分类能力;灵敏度(sensitivity)和特异性(specificity)分别衡量模型对不良预后和良好预后的识别能力[15]。Kappa系数(Cohen’s Kappa coefficient)、平衡准确度(balanced accuracy,BAcc)、阳性预测值(positive predictive value,PPV)、阴性预测值(negative predictive value,NPV)和F1分数(F1 score)作为辅助指标,以确保对模型分类能力的全面评估[16]。此外,本研究采用决策曲线分析(decision curve analysis,DCA)在不同风险阈值下评估模型的净收益,以量化模型在临床决策中的应用价值[17]。

1.7   模型解释工具

为了提升模型的可解释性,本研究采用了SHAP对所有特征的重要性进行整体排序,揭示关键预测因子在全局范围内的作用。

1.8   统计学分析

软件数据处理和分析使用SPSS 23.0、R语言(版本4.2.1)。符合正态分布的计量资料使用均数±标准差(x±s)描述,组间比较采用独立样本t检验。不符合正态分布的计量资料以中位数(四分位数)[M(P25,P75)]描述,组间比较采用Mann-Whitney U检验。为了统一比较,对术中和术后资料均进行了单因素logistic回归分析以计算OR值。计数资料以例数和百分比(%)描述,采用χ2 检验或Fisher确切概率法。双侧P≤0.05为差异有统计学意义。

1.9   伦理审查

本研究经新疆医科大学第一附属医院伦理委员会批准(审批号:240414-12),遵循《赫尔辛基宣言》及中国《涉及人的医学研究伦理审查办法》(2023版)。

结果

2.1   患者基本特征

最终共纳入639例患者,其中不良预后组191例,良好预后组448例。

基线特征对比:人口统计学(性别、年龄、合并症)、术前心脏功能(左心室射血分数、主动脉窦径)、炎症指标[SIRI、C反应蛋白与白蛋白比值(C-reactive protein to albumin ratio,CAR)]、手术参数(体外循环时间、手术方式)及术后血糖等组间差异均无统计学意义(P均>0.05);见表1~2。说明两组患者的基线特征总体较为均衡。然而,尽管单因素分析未发现显著预测因子,但这并不意味着这些变量没有预测价值。在多变量分析环境中,变量间的相互作用和独立效应可能被揭示。

图片

图片

图片

2.2   LASSO回归的变量筛选

应用LASSO回归对88个候选变量进行筛选,LASSO回归中变量的筛选过程见图1。最终筛选出16个特征变量,包括体外循环辅助时间、术后第3天血糖(postoperative day 3 blood glucose,POD3-BG)、CK-MB、SIRI、CAR、中性粒细胞与淋巴细胞比率、主动脉窦部直径、房间隔缺损/室间隔缺损封堵术、系统性炎症指数(systemic inflammation index,SII)等;见表3。这16个变量被认为对模型有显著的贡献,所以,将其纳入后续的模型构建之中。

图片

图片

图1 最小绝对收缩和选择算子(LASSO)回归变量选择路径图

2.3   模型构建与受试者工作特征曲线分析

本研究构建了5种机器学习模型(GLM、RF、GBM、LightGBM、XGBoost)预测心脏手术术后不良预后的性能。使用受试者工作特征(receiver operating characteristic,ROC)曲线分析5种模型对心脏手术患者术后不良预后的预测效能,其结果显示,XGBoost模型在训练集和测试集上均表现出最佳的预测效果,其AUC值分别为0.761[95%CI(0.719,0.800)]、0.759[95%CI(0.692,0.818)],且AUC值的置信区间较窄,表明该模型的预测稳定性较高。GLM的AUC值分别为0.759[95%CI(0.718,0.797)]、0.728[95%CI( 0.659,0.790)]。LightGBM模型的表现较差,其AUC值为0.703[95%CI(0.658,0.745)]、0.702[95%CI(0.631,0.766)],且AUC值的置信区间较宽,表明其预测稳定性较差;见表4。

图片

2.4   5种模型的详细性能指标

采用了多个指标,包括AUC值、灵敏度、特异性、F1分数、Kappa系数、平衡准确度、NPV和PPV来全面评估模型的预测性能。测试集评估结果显示,XGBoost模型的综合性能最优,其阳性预测值和平衡准确度在所有模型中最高。同时,该模型也满足了我们预设的临床应用需求,其特异性(0.970)高于0.95,灵敏度(0.276)高于0.25,在控制漏诊和误诊方面达到了较好的平衡;见表4。

2.5   决策曲线分析

使用DCA进一步评估5种模型在不同高风险阈值下的表现。结果显示XGBoost在多种高风险阈值下均表现较好,且其稳定性较强,适用于需要在不同风险阈值下做出平衡预测的医学预测任务;见图2。

图片

图2 决策曲线分析显示机器学习模型在训练集和测试集上的高风险阈值预测性能

a:训练集;b:测试集;GLM:广义线性模型;RF:随机森林;XGBoost:极限梯度提升;GBM:梯度提升机;LightGBM:轻量梯度提升机。

综合以上分析,XGBoost被认为在本研究的医学预测任务中具有最佳的预测性能,最终选择XGBoost作为后续SHAP解释分析的模型。

2.6   基于XGBoost模型的SHAP解释分析

SHAP分析提供了每个变量对预测结果的贡献程度,揭示了不同特征在模型中的重要性。

2.6.1   全局特征重要性分析

SHAP分析中所评估的16个变量均通过LASSO回归筛选(图3)。在SHAP分析中,进一步探索了这些变量对模型预测的贡献。体外循环辅助时间是本研究中最重要的预测因子,其平均SHAP绝对值为0.100,明显高于其他变量,表明其对术后不良预后的预测贡献最大,体外循环辅助时间较长的患者术后不良预后风险更高。POD3-BG与术后第1天血糖均进入前10,特别是POD3-BG,其平均SHAP绝对值为0.061,仅次于体外循环辅助时间,显示出血糖水平对预测结果的重要影响,提示术后血糖控制是提高患者预后的关键因素。心肌损伤标志物(CK-MB)、SIRI与NLR共同贡献前5名,说明体外循环时间、心肌损伤与炎症反应对术后风险的共同作用在预测中起到了显著的作用。主动脉窦部直径、左心室短轴缩短率位列中间,提示结构性心脏病和心脏收缩功能受损对模型的预测有一定影响。其余变量效果次之;见图3。

图片

图3 XGBoost模型全局特征重要性排序

CPBST:体外循环辅助时间;POD3-BG:术后第3天血糖;CK-MB:肌酸激酶同工酶;SIRI:全身炎症反应指数;NLR:中性粒细胞与淋巴细胞比率;CAR:CRP与白蛋白比值;ASD:主动脉窦部直径;FS:左心室短轴缩短率;POD1-BG:术后第1天血糖;LA:左心房直径;Occlusion:房间隔缺损/室缺封堵术;LVES:左心室收缩末期内径;SII:系统性炎症指数;Plasma:血浆;Ethn:民族。

2.6.2   SHAP特征重要性总结图结果

SHAP特征重要性总结图揭示了不同特征对术后不良预后预测模型输出的影响方向性和强度,帮助揭示不同变量在预测术后不良预后中的具体作用;见附件图1。体外循环辅助时间作为最重要的预测变量,具有较强的正向SHAP值,说明延长的辅助时间与术后不良预后的风险高密切相关。这提示我们在体外循环管理中需要加强对辅助时间的控制。POD3-BG:高术后血糖水平与不良预后强相关,说明高血糖水平在预测不良预后中的重要性。这表明,术后血糖水平过高是增加术后不良预后风险的一个重要因素。CK-MB的SHAP值分布也显示出一定的广度,尤其是在较高的特征值区域,正SHAP值的出现频率较高。这表明术后心肌损伤程度越高,不良预后的风险越大。SIRI和CAR的SHAP值分布表明它们在某些高风险病例中具有较大的影响。尤其是SIRI和CAR的较高特征值通常对应着较大的正SHAP值,表明炎症反应水平较高时,患者术后不良预后风险较高;见附件图1。这些发现有助于帮助我们在临床上更加精确地识别高风险患者,并在术后管理过程中提供针对性指导。

3 讨论

本研究使用中国西部地区成人心脏手术患者的数据,构建并评估了5种机器学习模型,以预测患者心脏手术术后不良预后。结果表明,XGBoost模型在预测性能和临床可解释性方面表现最佳,尤其是在测试集特异性和AUC方面,明显优于其他4种模型。通过SHAP分析,进一步揭示了16个特征因素对术后不良预后影响的重要性排序。

体外循环辅助时间在心脏手术中的预后具有重要影响。延长的体外循环辅助时间可能导致多种不良后果,如心脏功能恢复困难、器官损伤、炎症反应增强、出血倾向增加等。研究[18-19]表明,体外循环时间较长与术后死亡率升高及并发症风险增加密切相关。因此,优化手术过程、缩短体外循环时间特别是体外循环辅助时间对于改善术后预后、降低并发症发生率至关重要。

心脏手术引发高血糖的机制较为复杂。首先,手术引起的应激反应会促进应激激素(如肾上腺素和皮质醇)的释放,增加肝脏葡萄糖产生并减少外周组织对葡萄糖的利用,导致血糖升高。其次,体外循环的使用可能影响糖代谢,导致血糖波动。胰岛素抵抗是术后常见的现象,手术和术后炎症反应可加剧这一过程,导致血糖难以控制。再次,使用类固醇和麻醉药物也可能干扰胰岛素的作用,促进血糖升高。此外,术后营养和液体管理不当可能进一步影响血糖。

与围术期高血糖相关的严重不良事件包括心肌缺血、神经系统并发症、肾损伤、术后感染、心律失常及死亡。研究[20]表明,高血糖的不良影响具有时间依赖性与剂量依赖性,长期暴露于高血糖或较高的血糖水平与发病率和死亡率增加相关,并延长ICU及住院时间。多项大型回顾性研究[21-22]显示,围术期血糖浓度>200 mg/dL(11.1 mmol/L)是死亡、术后心肌梗死、肾损伤和神经系统并发症的重要预测因素,且与患者是否患有糖尿病无关。

术后高血糖引起心肌损伤、AKI、神经系统损伤及增加术后感染的病理生理机制如下:(1)高血糖通过多种机制影响心血管系统的功能。首先,高血糖损害心脏保护和缺血预处理效果。高血糖可诱导培养的小鼠心肌细胞和人心肌细胞凋亡,并加重缺血-再灌注损伤。高血糖也会抑制内皮一氧化氮合酶的心脏保护作用。高血糖通过干扰心肌细胞的钙代谢和氧化代谢,降低心肌细胞的电生理稳定性,导致心律失常的发生,尤其是心房颤动。其次,缺血和麻醉预处理或后处理的心脏保护作用会被共存的高血糖所抵消。(2)在神经系统方面,术后高血糖会增加心脏外科患者发生卒中的风险。高血糖通过促进乳酸生成,加剧脑组织缺血时的酸性环境,导致血脑屏障功能障碍,并增加氧化应激水平[23-24]。(3)高血糖通过增强氧化应激、激活炎症反应和破坏血流动力学,显著增加AKI的风险。在持续高血糖状态下,肾小管上皮细胞受到严重损伤,肾脏功能恢复延缓。进一步的氧化应激和炎症因子的释放可能导致肾脏的长期损伤,增加慢性肾功能衰竭的发生风险。(4)糖尿病和高血糖是术后手术部位感染的独立风险因素。高血糖显著抑制免疫系统的功能。高血糖通过抑制白细胞的吞噬作用和细菌杀灭功能,增加术后感染的风险。糖化终产物(AGEs)的积累还会损害免疫调控,降低机体对细菌和病毒的防御能力。

根据本研究的结果,术后血糖是患者手术预后的重要预测因素之一,特别是POD3-BG,其反映了持续性高血糖的影响。短暂高血糖可能仅与手术应激相关,而术后第3天的高血糖提示胰岛素抵抗、炎症反应及代谢紊乱的持续存在,增加心血管事件、AKI、神经系统并发症及感染的风险。此外,术后2~3 d是炎症反应的高峰期,此时血糖水平更能预测术后恢复情况。因此,POD3-BG可作为术后不良预后的关键预测指标,具有重要的临床指导价值。

CK-MB是诊断围术期心肌损伤的关键生物标志物。在心脏手术(如冠状动脉旁路移植术、瓣膜置换)后,CK-MB水平升高通常反映心肌缺血-再灌注损伤或手术操作引起的心肌细胞坏死[25]。

传统单一炎症指标存在局限性,仅反映炎症强度。近年来,通过组合常规实验室参数计算的新型炎症指标,显著提升了炎症评估的全面性和疾病预测效能。SII是一种新型炎症标志物,其结合了外周血小板、中性粒细胞和淋巴细胞的数值,更全面地反映了机体炎症状态。在一项使用SII预测择期非体外循环冠状动脉旁路移植术的不良结局的回顾性研究[26]中,作者发现SII值与机械通气持续时间和住ICU时间呈显著正相关(R=0.676,0.527,P<0.001)。在SII≥878.06×103/mm3的患者中,心房颤动、主动脉内球囊反搏需求、血管活性药物评分>20持续超过6 h以及除脓毒症外的感染等其他并发症的发生率也显著增加。NLR和身体的免疫状况以及炎症因子表达密切相关,中性粒细胞提示非特异性炎症,而淋巴细胞对炎症反应具有防御及调控作用,两者结合可以更加全面地反映机体的炎症状态。一项涵盖了13 000多例患者数据的Meta分析[27]发现,术前 NLR 升高是预测心脏开放手术后早期和长期死亡率的有效工具,这项Meta分析是围术期NLR预后价值现有证据的最新和最高质量的综合。SIRI已被证实是一些恶性肿瘤预后影响因素之一。研究[28]发现SIRI是老年冠心病患者发生衰弱的独立危险因素,SIRI对老年冠心病患者衰弱的诊断具有一定预测价值。CAR是一个新的反映炎症和营养状态的复合指标,与多种肿瘤、胰腺炎、脓毒症患者不良预后相关。有研究[29]发现,CAR持续时间为影响心跳骤停患者预后的独立危险因素,当CAR>1.455提示患者预后较差。

心脏超声参数是评估心脏手术患者术前状态及预测术后预后的重要工具。左心室短轴缩短率、左心室收缩末期内径及主动脉窦部直径作为关键参数,有助于全面评估患者心脏功能与解剖异常。

目前,在心脏手术术后预后的预测方法中,机器学习技术的应用越来越广泛[30]。与Tseng等[31]研究中SVM模型的AUC(0.796)相比,本研究的XGBoost模型获得了具有竞争力的预测效能(AUC=0.759),且在本地区人群数据中表现出良好的特异性。此外,Xiong等[32]提出了一种基于XGBoost预测心脏手术后AKI的预测模型,虽然其AUC为0.77,但未能将术中多种变量纳入研究,限制了临床应用。相较于这些研究,我们的模型通过结合SHAP方法,对患者多方面因素的综合评估,不仅提高了预测精度,还增强了模型的透明性和临床指导意义。

尽管XGBoost模型在特异性和AUC上表现出色,但灵敏度相对较低,尤其是在高风险患者的识别上存在一定的漏诊风险。可能的因素:(1)数据不平衡问题:本研究的患者中,发生不良预后的患者仅占总样本的约30%(191/639),这导致模型在学习过程中对预后良好患者的识别能力较强,而对少数不良预后患者的识别较弱。(2)特征选择的局限性:虽然SHAP分析揭示了多个关键特征对预测结果的影响,但仍有一些潜在的影响因素未能纳入模型。

本研究也存在一些局限性:首先,数据仅来自单一中心,样本量相对较小;其次,未考虑一些可能影响术后预后的因素,如患者的遗传信息、术前用药历史和并发症等。未来研究应扩大样本量,并结合多中心数据,以评估模型在更广泛人群中的适用性和稳定性。

综上所述,本研究结合机器学习与可解释性分析,既提高了预测精度,也增强了模型的临床可解释性,为临床工作中的术后管理提供了新的数据支持。然而,研究仍存在数据不平衡、单中心样本等局限性,未来需结合多中心数据进行外部验证,并探索个体化预测策略,以优化高危患者的早期识别和干预措施,提高术后管理的精准性。

利益冲突:无。

作者贡献:李帆负责研究设计、文章撰写;胡振飞、黄一丹负责数据统计分析、作图;詹海婷负责数据整理;戴晓雯负责研究指导、论文审阅、经费支持。

本文附件图片见本刊网站电子版。

致谢 感谢本次科研及论文写作过程中导师及科室同事的指导和大力支持。

Tags: 中国西部地区心脏手术患者术后不良预后的预测模型研究:结合机器学习与SHAP解释  

搜索
网站分类
标签列表