首页 > 医疗资讯/ 正文

【论著】卒中后神经功能恶化预测模型研究现状的范围综述

来源 2025-06-15 12:10:05 医疗资讯

摘要:目的评估已发表文献中卒中后神经功能恶化(ND)预测模型的建模特征和性能表现。方法遵循系统评价与荟萃分析扩展范围综述首选报告项目,计算机检索PubMed、CINAHL、Cochrane Library、Embase、Web of Science、Scopus、中国知网、万方数据库和维普网,检索策略采用主题词与自由词相结合的方式,核心词汇包括“Stroke”“Ischemic Stroke”“Neurological Deterioration”“Nomograms” “Risk Prediction”“Predictive Models”“卒中”“脑梗死”“脑出血”“神经功能恶化”“预测模型”,检索时间为建库至2024年12月15日。基于系统评价的批判性评估和数据提取清单提取数据,数据提取项包括基本特征、模型评估指标和预测因子特征。基本特征包括第一作者、发表年份、研究国家、研究设计类型(回顾性、前瞻性、注册数据库)、样本来源(单中心、多中心)、研究对象[适用卒中类型包括急性缺血性卒中(AIS)-保守治疗、AIS-静脉溶栓(IVT)、AIS-血管内治疗(EVT)、脑出血(ICH;即出血性卒中)]、卒中后ND定义[卒中后ND时间窗归纳为急性期(卒中后≤72h)、亚急性期(卒中后≤7d)和长期预后期(卒中后≤90d)]、结局指标(单一终点、复合终点);模型评估指标包括是否存在数据缺失及是否明确报告处理方法(完整案例分析法、多重插补法等)、模型构建方法(多因素Logistic回归、最小绝对收缩和选择算子回归、机器学习算法等)、模型呈现形式(列线图、风险评分网页、风险预测工具等)、区分度(受试者工作特征曲线下面积、C指数)、校准度(Hosmer-Lemeshow拟合优度检验、校准曲线、校准斜率)、临床实用性[决策曲线分析(DCA)]、总体度量(Brier分数、R2、赤池信息准则)、样本量(训练集、内部验证集、外部验证集)及其满足事件数要求[以每个预测变量对应的结局事件数(EPV)≥10作为最低阈值以降低过拟合风险]、模型验证(内部验证、外部验证);预测因子特征包括预测因子筛选策略(先验知识导向、单因素分析等)、预测因子数量及属性(人口统计学特征、病史、体格检查、治疗干预信息、实验室检查指标、影像学指标)。分析符合纳入排除标准文献中卒中后ND预测模型的区分度、校准度、临床实用性和总体度量,并绘制森林图可视化研究中预测模型的受试者工作特征曲线下面积差异,采用预测模型偏倚风险评估工具(PROBAST)评估卒中后ND预测模型的偏倚风险及临床适用性。统计纳入文献中的卒中后ND预测因子出现频次并提取前6位高频预测因子。评估缺血性卒中、出血性卒中后ND预测因子的临床可获得性(是否在急诊阶段可通过常规登记、病史采集或急诊评估快速获取)。结果(1)共检索文献3728篇,依据文献的纳入与排除标准,最终纳入文献25篇。(2)预测模型的基本特征:研究设计类型以回顾性[72%(18/25)]、单中心[64%(16/25)]研究为主;研究对象为AIS患者占92%(23/25),为出血性卒中患者占8%(2/25)。60%(15/25)的研究基于神经功能评分变化[如美国国立卫生研究院卒中量表(NIHSS)评分增加或格拉斯哥昏迷量表评分降低]定义卒中后ND,ND时间窗急性期、亚急性期和长期预后期的占比分别为36%(9/25)、48%(12/25)、16%(4/25)。92%(23/25)的研究采用结局指标为单一终点。(3)预测模型的评估结果:96%(24/25)的研究模型构建方法为多因素Logistic回归,88%(22/25)的模型呈现形式为列线图。24%(6/25)的研究明确报告数据缺失处理方法,52%(13/25)的研究EPV≥10;模型区分度受试者工作特征曲线下面积中位数为0.865(范围0.650~0.981);44%(11/25)的研究报告了校准曲线,校准斜率报告率为4%(1/25);25项研究均采用DCA验证临床实用性;84%(21/25)的研究进行了内部验证,进行外部验证的研究占比为32%(8/25);基于PROBAST的偏倚风险和临床适用性评价结果显示,8%(2/25)的研究总体偏倚低风险(研究对象、预测因子、结局定义及统计分析4个维度均无缺陷),44%(11/25)的研究总体临床适用性低风险(研究人群覆盖目标临床场景、预测因子可快速获取、结局定义符合临床需求)。(4)预测因子特征:64%(16/25)研究的预测因子筛选策略以先验知识为主导。前6位高频预测因子分别为NIHSS评分[64%(16/25)]、年龄[36%(9/25)]、血糖水平或糖尿病[36%(9/25)]、血压水平或高血压病[32%(8/25)]、Alberta卒中项目早期CT评分[20%(5/25)]和中性粒细胞与淋巴细胞比值[20%(5/25)]。缺血性卒中后ND预测因子以急诊即时可获取指标为主,如NIHSS评分[65%(15/23)]、年龄[35%(8/23)];出血性卒中后ND预测因子以影像学指标为主,如基线血肿体积(2/2)及血肿位置(1/2)。结论现有卒中后ND预测模型在区分度优化与多模态整合方面表现较好,但校准度量化不足、偏倚风险高及临床转化断层制约了其临床应用。

卒中具有高发病率、高致残率和高病死率的特点。2021年全球疾病负担研究数据显示,卒中是全球第三大致死病因,占所有因病死亡人数的10.7%。卒中后神经功能恶化(neurological deterioration,ND)是导致卒中患者不良预后的因素之一,表现为卒中后肢体无力、言语障碍、认知功能下降等神经功能障碍的进一步加重。卒中后ND与卒中后高病死率和低康复有效率密切相关。卒中早期精准预测ND的发生风险,可为临床干预提供决策依据,有助于优化治疗策略、改善患者预后。

卒中后ND的发生率在急性缺血性卒中(acute ischemic stroke,AIS)患者中为5%~40%,在出血性卒中患者中为18%~38%。目前卒中后ND尚无统一定义,多数研究以美国国立卫生研究院卒中量表(NIHSS)评分在特定时间窗(一般为卒中后24~72h)内较入院时增加≥2分或≥4分作为诊断标准;部分研究以改良Rankin量表(mRS)评分变化、头部CT或MRI提示的血肿扩大或脑梗死体积增加以及包括死亡在内的复合终点来定义。卒中后ND定义的异质性在一定程度上限制了不同研究结果之间的可比性,也影响了卒中后ND预测模型的跨人群适用性。

近年来,随着医学影像、生物标志物检测及人工智能等技术的发展,多项研究基于患者人口统计学特征、病史、体格检查、治疗干预信息、实验室检查指标、影像学指标及神经功能评分等多种变量构建了卒中后ND预测模型。尽管部分卒中后ND预测模型在单中心研究中表现出良好的预测效能,但模型质量参差不齐,评估模型性能的指标不一致,且缺乏统一的评估体系,导致这些预测模型在临床实践中的应用受限。

尽管既往已有综述对卒中后ND预测模型的方法学质量[如区分度验证、预测模型偏倚风险评估工具(prediction model risk of bias assessment tool, PROBAST)偏倚评估结果]进行了初步总结,但未能系统探讨ND定义的异质性,也未进行基于系统评价的批判性评估和数据提取清单框架标准化数据提取或预测因子的生物学-临床关联性评价,多模态整合、可解释性及公平性等新兴维度未被纳入评价体系。因此,本研究拟采用澳大利亚乔安娜·布里格斯研究所范围综述指南作为方法学框架,系统梳理缺血性卒中和出血性卒中后ND预测模型的研究进展,分析其建模特征、性能表现及应用前景,旨在为临床实践提供循证支持,并为卒中后ND预测模型的开发与优化提供研究方向。

1 资料与方法

本范围综述遵循系统评价与荟萃分析扩展范围综述首选报告项目标准,并参考了个体预后或诊断多变量预测模型系统综述和Meta分析报告规范。数据提取参考系统评价的批判性评估和数据提取清单,质量与偏倚风险评估采用PROBAST。

1.1 文献检索策略

计算机检索PubMed、CINAHL、Cochrane Library、Embase、Web of Science、Scopus、中国知网、万方数据库和维普网,检索时间为建库至2024年12月15日。检索策略采用主题词与自由词相结合的方式,核心词汇包括“Stroke”“Ischemic Stroke “Neurological Deterioration “Nomograms”“Risk Prediction”“Predictive Models”“卒中 “脑梗死”“脑出血”“神经功能恶化”“预测模型”。以PubMed为例,检索策略见表1。

图片

1.2 文献纳入与排除标准

纳入标准:(1)发表语言为英文或中文,且可获取全文;(2)研究对象为年龄≥18岁的卒中患者;(3)聚焦卒中后ND预测模型的构建或验证,需报告模型性能指标(区分度、校准度和临床实用性相关指标);(4)采用以下实证研究设计之一:队列研究(前瞻性或回顾性)、巢式病例对照研究、横断面研究、随机对照试验的二次分析;(5)预测模型采用多因素构建,且预测因子数量>2个。

排除标准:(1)文献类型为综述、会议摘要、病例报告、评论和信件、数据集或学位论文;(2)数据不完整或无法提取;(3)重复发表或存在数据交叉。

1.3 文献筛选和数据提取

通过EndNote X21软件去除重复文献,由2名研究人员独立进行文献筛选和数据提取,存在分歧时由研究团队另外3名研究人员讨论解决。数据提取表格基于系统评价的批判性评估和数据提取清单框架设计,数据提取项包括基本特征、模型评估指标和预测因子特征。基本特征包括第一作者、发表年份、研究国家、研究设计类型(回顾性、前瞻性、注册数据库)、样本来源(单中心、多中心)、研究对象[适用卒中类型包括AIS-保守治疗、AIS-静脉溶栓(AIS-intravenous thrombolysis,AIS-IVT)、AIS-血管内治疗(AIS-endovascular treatment,AIS-EVT)、脑出血(intracerebral hemorrhage, ICH;即出血性卒中)]、卒中后ND定义[本研究将卒中后ND时间窗归纳为急性期(卒中后≤72h)、亚急性期(卒中后≤7d)和长期预后期(卒中后≤90d)]、结局指标(单一终点、复合终点);模型评价指标包括是否存在数据缺失及是否明确报告处理方法(完整案例分析法、多重插补法等)、模型构建方法[多因素Logistic回归、最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)回归、机器学习算法等]、模型呈现形式(列线图、风险评分网页、风险预测工具等)、区分度[受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under the curve, AUC)、C指数]、校准度(Hosmer-Lemeshow拟合优度检验、校准曲线、校准斜率)、临床实用性[决策曲线分析(decision curve analysis, DCA)]、总体度量[Brier分数、R2、赤池信息准则(Akaike information criterion,AIC)]、样本量(训练集、内部验证集、外部验证集)及其满足事件数要求[以每个预测变量对应的结局事件数(events per variable,EPV)≥10作为最低阈值以降低过拟合风险]、模型验证(内部验证、外部验证),预测因子特征包括预测因子筛选策略(先验知识导向、单变量分析等)、预测因子数量及属性(人口统计学特征、病史、体格检查、治疗干预信息、实验室检查指标、影像学指标)。

1.4 模型评估指标的定义及验证

分析符合纳入与排除标准的文献中卒中后ND预测模型的区分度、校准度、临床实用性、总体度量及模型验证方法。

区分度:AUC及C指数(二分类模型中等价于AUC)为评估预测模型区分结局事件发生与否能力的重要指标。使用R4.4.2软件绘制森林图,可视化纳入文献中预测模型的AUC差异。AUC或C指数值域为0.5(无区分力)~1.0(完全区分),其中AUC<0.70为弱区分能力,0.70~0.79为中等区分能力,≥0.80为强区分能力。C指数与AUC类似,数值越高表示预测模型区分结局事件发生与否的能力越强。

校准度:Hosmer-Lemeshow拟合优度检验、校准曲线、校准斜率可反映预测模型对结局的预测概率与实际概率的一致程度。Hosmer-Lemeshow拟合优度检验值P>0.05提示预测模型对结局的预测概率与实际概率无偏离;校准曲线以45°对角线为参考线,曲线越接近对角线表明预测模型校准性能越优;校准斜率反映预测模型对结局的预测概率与实际概率的线性关系,斜率越接近1,表示校准性能越好。

总体度量:Brier分数可计算预测概率与实际概率的均方误差,取值范围0~1,数值越小表明预测准确性越高。R2包括Cox-Snell R2、Nagelkerke′s R2等,用于衡量预测模型对结局变异的解释能力,越接近1表明拟合优度越佳。此外,AIC也可用于衡量预测模型复杂度与拟合优度的平衡,数值越小表示预测模型性能越好。

临床实用性评估:DCA可结合临床决策需求验证预测模型价值,其以阈值概率为横轴、净获益为纵轴,曲线越靠上表示在对应阈值概率下净获益越高,预测模型临床价值越高。阈值概率代表临床医师或患者愿意接受的干预风险水平,低于该值时干预风险大于获益。DCA曲线最高点对应的阈值概率即为预测模型在该研究中的最佳决策阈值。DCA通过量化净获益可回答预测模型在真实临床中的核心问题:“使用该模型能否比盲目干预或不干预带来更大获益”。

模型验证方法包括内部验证和外部验证。内部验证包括Bootstrap法、随机拆分法、k折交叉验证法等,用于评估预测模型在训练集上的稳定性和泛化能力。Bootstrap法通过重复抽样生成多个样本,评估预测模型在不同样本中的性能;随机拆分法将数据集随机分为训练集和测试集,验证预测模型在测试集上的表现;k折交叉验证法将数据集分为k份,k-1份用于训练、1份用于测试,以降低过拟合风险。外部验证包括时间验证、空间验证、时空验证,分别用于评估预测模型在不同时间、不同空间以及不同时空中的适用性和稳定性,从而全面判断模型的泛化能力和临床实用性。

1.5 模型质量评估

由2位研究人员独立采用PROBAST评估预测模型的偏倚风险及临床适用性。偏倚风险从研究对象、预测因子、结局定义及统计学分析4个维度进行评估,每项判定为“低风险”“高风险”或“不清楚或无信息”。对于总体偏倚,所有维度无缺陷判定为“低风险”:研究对象来源合理、预测因子定义独立于结局、样本量满足统计分析需求且完整报告模型区分度;任一维度存在方法缺陷(如EPV<10、预测因子与结局定义重叠)则判定为“高风险”;信息不全如未报告缺失数据处理方法或盲法评估缺失判定为“不清楚或无信息”。临床适用性则从研究对象、预测因子、结局定义3方面进行评估,判定为“低风险”“高风险”“不清楚或无信息”。“低风险”为指标与临床场景和本文研究目标匹配,满足研究人群覆盖目标临床场景、预测因子可快速获取、结局定义符合临床需求的条件;“高风险”为某些指标被认为与临床存在脱节或与本文研究目标不匹配,如研究人群范围狭窄、预测因子依赖特殊检测或结局定义脱离临床实践;信息不全时标记为“不清楚或无信息”。评价细则详见参考文献。若存在争议则由研究团队其他研究人员讨论解决。使用Fernandez-Felix等的Excel模板绘制PROBAST评价结果图。

1.6 预测因子评估

统计卒中后ND预测模型各预测因子出现频次并提取前6位高频预测因子。采用气泡图对比各预测因子在不同研究中的权重。将纳入文献中的缺血性卒中、出血性卒中后ND预测因子按照医疗记录(人口统计学特征、病史、体格检查和治疗干预信息)、实验室检查指标、影像学指标进行分类,评估预测因子的临床可获得性[是否在急诊阶段可通过常规登记、病史采集或急诊评估快速获取(可快速获取、需额外检测)]。

2 结果

2.1 文献筛选结果

初步筛选共获得文献3728篇(中文109篇,英文3619篇),最终纳入文献25篇(中文7篇,英文18篇)。文献筛选流程见图1。

图片

2.2 预测模型的基本特征

纳入的25篇文献中,76%(19/25)发表于2023—2024年,以回顾性研究为主[72%(18/25)],前瞻性研究[16%(4/25)][13,17,53,55]及注册数据库研究[12%(3/25)]占比较低。研究对象为AIS的预测模型占92%(23/25),其中AIS-保守治疗者占44%(11/25)[11,16,18,46-49,51,53,55-56]、AIS-IVT者占32%(8/25)、AIS-EVT者占16%(4/25);另有2项研究研究对象为出血性卒中。研究国家以中国为主[92%(23/25)],另外2篇分别来自新加坡和泰国。64%(16/25)的研究为单中心研究,36%(9/25)的研究为多中心研究。见表2。

图片

图片

对于卒中后ND的定义,60%(15/25)的研究基于神经功能评分变化[如NIHSS评分的增加或格拉斯哥昏迷量表(GCS)评分的降低],部分则仅采用90dmRS评分[8%(2/25)]、影像学进展[如血肿扩大、中线移位;12%(3/25)]或联合神经功能下降的复合终点[20%(5/25)]。见表2。时间窗跨度涵盖急性期[36%(9/25)]、亚急性期[48%(12/25)]及长期预后期[16%(4/25)]。缺血性卒中后ND预测模型多聚焦早期ND[56%(14/25)]或出血转化[8%(2/25)],而出血性卒中后ND预测模型则以血肿扩大或脑水肿进展为主要终点。92%(23/25)的研究采用单一终点指标,8%(2/25)的研究整合了神经功能评分与影像特征构建复合终点。

2.3 预测模型的评估结果

仅24%(6/25)的研究明确报告数据缺失处理方法,其中4项采用完整案例分析法,2项使用多变量插补法。52%(13/25)的研究满足EPV≥10的统计学需求。建模方法方面,96%(24/25)的研究依赖多因素Logistic回归,其中4项联合LASSO回归,1项整合机器学习算法;模型呈现形式以列线图为主[88%(22/25)]。见表2。

在区分度方面,92%(23/25)的预测模型提供了ROC曲线图,100%(25/25)报告了C指数或AUC值,AUC中位数为0.865(范围0.650~0.981),84%(21/25)的研究结果具有强区分能力(AUC≥0.80)。见图2。

图片

在校准度方面,52%(13/25)的预测模型同时报告了校准曲线和Hosmer-Lemeshow拟合优度检验结果(均P>0.05),44%(11/25)仅报告了校准曲线,而校准斜率报告率占比仅为4%(1/25)。

在临床实用性方面,卒中后ND的发生率为649%~58.47%(除去仅纳入卒中后ND患者建模的Luo等的研究),相应的DCA最佳阈值概率在010~0.45之间。AIS-保守治疗研究的最佳阈值概率范围最广(0.10~0.45),AIS-IVT研究在0.17~025之间波动,出血性卒中研究为0.25和030,AIS-EVT研究较高集中于030~0.45。77%(10/13)的预测模型训练集与验证集之间的阈值概率保持稳定(Δ≤005),而23%(3/13)的模型呈现阈值偏移。

在总体度量方面,仅12%(3/25)的研究报告Brier评分(0.024~0.159);1项研究提供Nagelkerke′s R2(0.453),1项外部验证研究采用AIC评价模型性能。

在模型验证方法方面,52%(13/25)的研究划分训练集与验证集,但验证策略存在差异,84%(21/25)的研究进行了内部验证,以Bootstrap法(56%,14/25)和随机拆分法(24%,6/25)为主,仅1项结合5折交叉验证[55]。采用Bootstrap法的研究AUC差值中位数为0.046(范围0.013~0.061),高于随机拆分法的0.028(范围0.013~0.041)。外部验证率为32%(8/25),涵盖空间验证[16%(4/25)]、时间验证[8%(2/25)]和时空验证[8%(2/25)]。

在模型质量评估方面,基于PROBAST的偏倚风险和临床适用性评价结果显示:在偏倚风险方面,100%(25/25)的研究在研究对象选择上规范,8%(2/25)的研究由于在模型预期使用的时点未能得到所有预测因子结果而呈现高风险,48%(12/25)的研究因预测因子未被排除于结局定义之外而呈现高风险,60%(15/25)的研究因统计学分析缺陷(如EPV<10、单变量筛选预测因子及数据不合理排除)被判定为高风险,仅8%(2/25)的研究达到总体偏倚低风险;在临床适用性方面,36%(9/25)的研究因人群异质性不足(如限定为H型高血压病或孤立性脑桥梗死患者)、8%(2/25)的研究因依赖特殊检测指标、32%(8/25)的研究因非标准化结局定义(如复合终点权重模糊)被判定为临床适用性高风险,最终仅44%(11/25)的研究被判定为总体临床适用性低风险。见图3。

图片

2.4 预测因子特征的评估结果

在数据类型上,40%(10/25)的研究整合了医疗记录(人口统计学特征、病史、体格检查和治疗干预信息)、实验室检查指标及影像学指标。32%(8/25)的研究整合了医疗记录和实验室检查指标,20%(5/25)的研究整合了医疗记录和影像学指标。此外,4%(1/25)的研究仅依赖医疗记录,4%(1/25)的研究涉及神经电生理等特殊模态数据。

预测因子筛选策略以先验知识为主导[64%(16/25)],其中多因素建模多采用预设模型[24%(6/25)];基于单变量分析方法[32%(8/25)]的变量筛选更倾向使用向后消除法[12%(3/25)]和逐步选择法[12%(3/25)]建模。

卒中后ND前6位高频预测因子分别为NIHSS评分[64%(16/25)]、年龄[36%(9/25)]、血糖水平或糖尿病[36%(9/25)]、血压水平或高血压病[32%(8/25)] 、Alberta卒中项目早期CT评分[Alberta stroke program early CT score,ASPECTS; 20%(5/25)]和中性粒细胞与淋巴细胞比值[neutrophil-to-lymphocyte ratio, NLR;20%(5/25)]。见表3。

图片

为增强跨研究结果的可比性,纳入两类同质化研究队列:AIS-保守治疗组[以入院7d内NIHSS评分较基线增加≥2分(包括意识、肢体运动项各1分)定义卒中后ND;7项研究]和AIS-IVT组(以静脉溶栓后24hNIHSS评分较基线增加≥4分定义卒中后ND;4项研究)。结果显示,AIS-保守治疗组入院时NIHSS评分(OR为107~2.22)、AIS-IVT组静脉溶栓后24hNIHSS评分(OR=1.15)为卒中后ND发生预测因子;两组卒中后ND发生的共同预测因子包括收缩压(AIS-保守治疗组:OR为1.01~1.05AIS-IVT组:OR为1.017)、血糖水平(AIS-保守治疗组:OR=2.25;AIS-IVT组:OR=3.00 )及心房颤动(AIS-保守治疗组:OR=3.30;AIS-IVT组:OR为2.67~8.01)。此外,在AIS-保守治疗组中,糖尿病(OR为1.67 ~ 2.72)、超敏C反应蛋白(OR为1.05~1.06)及颅内大动脉病变(OR为3.07~5.87)是卒中后ND发生的主要预测因子;在AIS-IVT组中,NLR(OR为109~262)、平均血小板体积(OR=333)及同型半胱氨酸(OR=1.06)与卒中后ND发生相关。见图4。

图片

缺血性卒中后ND预测因子以急诊即时可获取指标为主,可通过常规登记、病史采集或急诊评估快速获取,包括NIHSS评分、年龄、收缩压;实验室检查指标中,血糖和可通过血常规快速获取的指标(NLR、全身炎症反应指数、全身免疫炎症指数等)应用较多,而需额外检测的指标(如D-二聚体、超敏C反应蛋白、血脂)应用较少。影像学指标如ASPECTS、急性卒中Org10172治疗试验分型等可通过初步影像评估完成,但需后续专业判读。见表4。

图片

出血性卒中后ND预测模型的预测因子以影像学指标为主,其中血肿体积及血肿位置均可通过头部CT快速判断,CT血管成像点征数需依赖CT血管成像检查,耗时较长且基层普及受限;床旁可快速获取的指标包括年龄、GCS评分、收缩压等;华法林使用可通过病史采集即时获取,但国际标准化比值>1.5和D-二聚体等需凝血功能检测用时较长;全身炎症反应指数可通过血常规快速计算;部分血清生物标志物(如轴突生长抑制因子A、微小核糖核酸130a)和脑电双频谱指数需依赖特殊检测或专用监测设备。见表5。

图片

3 讨论

本研究系统梳理了卒中后ND预测模型的研究现状,分析了当前模型在多模态数据整合、ND定义标准化及方法学革新3个维度的关键进展与挑战。尽管现有模型在区分度上表现优异,但校准度不足、外部验证缺失及临床适用性断层等核心问题仍制约其实际临床应用。

纳入本研究的卒中后ND预测模型在区分度优化方面表现优异(中位AUC为0.865),84%(21/25)的研究预测模型具备强区分能力(AUC或C指数≥080),表明其能够有效识别卒中后ND高风险患者。96%(24/25)的研究采用多因素Logistic回归构建模型,并通过列线图[88%(22/25)]直观呈现结果,为临床快速决策提供了工具基础。然而,模型的校准度量化不足,仅4%(1/25)的研究报告了校准斜率,44%(11/25)的研究报告了校准曲线,提示卒中后ND预测模型的预测概率与实际风险的一致性存在偏差。与此同时,模型的外部验证率为32%(8/25),且多局限于单中心或同质化人群,跨区域、多场景验证的缺失削弱了模型的泛化能力。PROBAST评估结果表明,模型临床适用性存在断层的深层问题:仅44%(11/25)的模型被判定为总体临床适用性低风险,主要归因于人群异质性不足[36%(9/25)的研究限定特殊亚组]、预测因子可及性差[8%(2/25)的研究依赖特殊检测指标]及结局定义非标准化[32%(8/25)的研究采用复合终点但权重模糊]。这些缺陷共同导致现有卒中后ND预测模型难以适配真实临床场景的需求,成为制约其实际临床应用的瓶颈。

3.1 多模态数据整合为卒中后ND预测模型的优化提供了新方向,但基层医疗机构可及性与技术瓶颈仍需突破

卒中后ND预测模型的预测因子体系呈现“临床核心指标主导、多源数据协同”的特征。NIHSS评分[64%(16/25)]、年龄[36%(9/25)]、血糖水平或糖尿病[36%(9/25)]及血压水平或高血压病[32%(8/25)]等可急诊即时获取指标被广泛应用,符合急诊快速决策需求。40%(10/25)的研究整合了医疗记录(人口统计学特征、病史、体格检查和治疗干预信息)、实验室检查指标及影像学指标,指标选择表现出病理机制导向性:缺血性卒中后ND预测模型中ASPECTS[20%(5/25)]和NLR[20%(5/25)]具有预测价值;而出血性卒中后ND预测模型则强调凝血功能的评估,依赖血肿位置和体积等影像学特征。影像学复杂标志物(如CT血管成像点征数)、血清生物标志物(如血清神经元特异性烯醇化酶)、新型生物标志物(如微小核糖核酸130a、血清轴突生长抑制因子A等)及神经电生理数据(如脑电双频谱指数)的应用受限于检测条件,基层医疗机构可及性不足。

面对现实挑战,或可建立分级诊疗制度下的卒中后ND预测体系:基层医疗机构可基于NIHSS评分、血压等急诊即时可获得指标构建快速筛查工具;高级别医疗中心则可整合影像组学特征、分子标志物等以提升预测精度。未来可围绕动态风险预警,平衡敏感度(低阈值筛查)与特异度(高阈值干预),并结合临床场景优化决策阈值。这需要卒中后ND预测模型研发者明确决策阈值适用边界,使临床医师可结合本医疗单位资源灵活调整方案,从而推动分层诊疗体系的实践转化。

3.2 卒中后ND定义的异质性仍是跨研究可比性的核心障碍,标准化体系亟待建立

由于卒中后ND的定义尚未统一,本研究未限制卒中后ND的时间定义,全面纳入了应用不同时间窗定义的卒中后ND研究,以充分讨论现有卒中后ND预测模型的研究进展。本研究结果显示,60%(15/25)的研究仅基于NIHSS评分的增加或GCS评分的降低定义卒中后ND,时间窗跨度从卒中后24h至90d不等,阈值(NIHSS评分较基线增加≥2分或≥4分)及复合终点的选择缺乏共识,例如,AIS-IVT组多采用“IVT后24hNIHSS评分较基线增加≥4分”,而长期预后研究则多整合mRS评分与死亡终点。这种异质性不仅削弱了不同卒中后ND预测模型之间的可比性,还可能导致临床决策混乱。

综合本研究中基于PROBAST评估的偏倚风险较低的原始研究,笔者团队认为对缺血性卒中后ND进行分层定义可能更具参考价值:急性期(卒中后≤72h)可采用NIHSS评分较基线增加≥4分作为参考定义;亚急性期(卒中后7d内)可采用NIHSS评分较基线增加≥2分作为参考定义;长期预后期(卒中后90d内)可考虑整合mRS评分与复合终点作为参考定义。对于特殊人群,如AIS接受IVT治疗者,可参考“IVT后24h内NIHSS评分增加≥2分”作为卒中后ND的定义,以快速识别AIS患者IVT后ND的发生风险,但仍需通过多中心研究验证其阈值稳定性。此外,未来仍需借助新技术,获取更多客观证据,以支持卒中后ND定义的标准化。

3.3 方法学革新与规范化是提升卒中后ND预测模型临床转化能力的关键路径

多因素Logistic回归是构建卒中后ND预测模型的主流方法[96%(24/25)],但其基于传统统计学的线性假设,难以捕捉多模态预测因子间复杂的非线性关系。机器学习算法与可解释性人工智能的引入(如LASSO回归联合建模、影像组学特征提取)展现了其处理非线性高维数据的潜力。此外,PROBAST评估结果显示,总体偏倚风险较高[8%(2/25)]的研究为低风险,主要源于预测因子与结局定义的潜在重叠[48%(12/25)] 、统计学分析缺陷[如48%(12/25)的研究EPV<10]及数据共享缺失(1项公开数据集)等。未来应鼓励可融合临床资料、影像学指标、生物信息等多学科资源,构建“临床-影像-分子”多模态卒中后ND预测模型的研究,同时关注伦理与公平性,避免算法偏见。鼓励遵循基于人工智能或机器学习方法的个体预后或诊断的多变量预测模型透明报告规范,强化前瞻性设计、跨中心外部验证与开源共享,采用PROBAST降低偏倚风险,并通过真实世界研究验证卒中后ND预测模型在不同医疗场景中的稳定性。

4 结论

当前卒中后ND预测模型在多模态整合与区分度优化上进展显著,但校准度量化不足、偏倚风险高及标准化缺失限制了其临床转化。未来可构建多模态框架、推进卒中后ND定义的分层标准化,并通过真实世界验证与跨学科协作提升卒中后ND预测模型的临床实用性。

Tags: 【论著】卒中后神经功能恶化预测模型研究现状的范围综述  

搜索
网站分类
标签列表