首页 > 医疗资讯/ 正文

【协和医学杂志】基于传统方法和机器学习的临床模型预测首次脑卒中:现状与前景

来源 2025-04-14 12:11:46 医疗资讯

脑卒中是全球疾病负担的第3大死因,同时也是导致伤残调整生命年损失的第4大原因[1]。尤其在中低收入国家,脑卒中造成的疾病负担正急剧上升[2]。此外,脑卒中治疗领域亦面临诸多挑战:如康复周期长[3]、致残率高,约半数幸存者存在不同程度的残疾,不仅严重影响患者的生活质量,而且给家庭和社会造成巨大的经济负担[4]

一级预防是控制脑卒中的关键组成部分,也是最经济有效的防治措施。研究显示超过85%的脑卒中通过预防措施可避免[5]。脑卒中一级预防指南推荐采用风险预测模型识别包括脑卒中在内的心血管疾病高危个体[6]。目前,临床预测模型已广泛应用于脑卒中的预防、治疗和预后评估,可为医务工作者在临床决策时提供重要参考[7]。近年来,随着大数据和人工智能技术的发展,机器学习技术凭借其卓越的数据处理能力,为脑卒中首发风险预测提供了新视角[8]。本文回顾传统临床模型与机器学习模型在预测首次脑卒中发生风险方面的应用现状,并展望其未来发展趋势。

1 研究现状

1.1 传统预测模型

脑卒中首发风险的精准预测对于识别发病危险因素并实施针对高危人群的有效防治措施至关重要。当前在临床实践中,已有大量风险预测模型相关研究辅助高危个体的筛查,常见的传统风险预测模型或评分量表包括但不限于:Framingham脑卒中风险预测模型(FSRP)、脑卒中风险测量应用程序(Stroke RiskometerTM)、CHADS2评分或CHA2DS2-VASc评分、英国脑卒中风险评分(QStroke score)、汇总队列风险方程、中国居民脑卒中风险评估模型(China-PAR stroke risk)等,详见表1。

表1 常见的传统首发脑卒中风险预测模型或评分量表信息概览

图片

图片

传统脑卒中风险预测模型曾因其操作便捷和易于理解而被广泛应用,但多项研究证明这些模型的预测效易能受人群异质性的制约。具体而言,以FSRP模型为例,其采用Cox比例风险回归算法通过纳入年龄、既往病史等常见指标,旨在预测个体未来10年脑卒中发病风险。然而,该模型主要基于美国马萨诸塞州弗明汉地区白人群体的资料而建立,有研究表明其应用于中国人群时,预测结果显著低估了发病风险,并且在西班牙裔、亚裔及老年美国人群中亦存在较大的预测偏差[17]。出现此种现象的主要原因:不同地域的经济水平、社会文化、生活质量、职业类型、饮食习惯及饮食偏好等多种因素均会对脑卒中发病率产生显著影响,从而导致模型在不同人群中的适用性存在差异。

针对上述问题,许多研究者通过参数校准与本土化建模2种路径进行改进。Dufouil等[10]通过调整不适用的风险因素及对模型参数进行重新校准等措施对原始FSRP模型进行了修订。对比原始版在预测所有类型脑卒中首发风险方面的准确性,发现修订版可更精确地预测当前的脑卒中风险,在提高预测精确度方面展现出显著优势。Chun等[18]通过本土化建模建立了适合中国人群的脑卒中风险预测模型,在与修订版FSRP模型比较后发现,本土化模型考虑到中国各地区脑卒中发病率差异,提高了脑卒中风险预测的准确性。Zhang等[19]通过对比中国居民脑卒中风险评估模型(China-PAR stroke risk)与修订版FSRP模型在中国社区老年人群中预测5年卒中发生风险的能力,发现本土化China-PAR stroke risk模型的表现更佳。值得注意的是,尽管China-PAR stroke risk模型是基于中国人群所开发,但在应用于新的社区老年人群时,仍需重新校准其参数以确保预测能力。

此外,传统模型的局限性还体现在建模的方法层面:

传统模型多采用Logistic回归和Cox比例风险回归等统计学方法进行危险因素筛选,这些方法无法捕捉脑卒中发生风险的复杂交互机制;

研究设计时,通常由人工纳入有限的变量,难以涵盖一些新型生物学标志物及社会决定因素;

静态风险评估模式无法响应个体危险因素的动态变化;

面对大规模数据集时,传统模型的计算效率和可扩展性受限,难以快速有效提取和利用所有信息。

因此,随着大数据和机器学习技术的蓬勃发展,探索更为复杂、更精准的预测模型,以克服传统模型的局限性,成为近年来研究的热点。例如,有研究表明支持向量机、人工神经网络和决策树模型等机器学习算法在心血管疾病和脑卒中风险评估中表现出色,为脑卒中风险预测提供了新工具[20]

1.2 机器学习预测模型

在脑卒中首发风险预测中,机器学习通过突破传统统计模型对数据分布的强假设限制,不仅可处理非线性关系和复杂特征的交互作用,还有效应对高维数据和大规模数据集,展现出独特优势[21]

与传统模型相比,机器学习模型具有诸多特点:

在数据收集与预处理方面,数据来源不仅包括电子健康记录、人群队列数据、实验室检测等多渠道收集的大量医疗数据,还涵盖不同类别的影像学、病理学等多维度数据。

在特征选择方面,纳入的特征变量更加多样化。有研究者将现代医学诊断与中医证候要素共同作为预测变量,从而筛选出影响脑卒中发生风险的关键因素(包括年龄、性别、既往病史等传统医学指标,及气虚、阳虚、上火、痰湿、血瘀等中医证候),提升了脑卒中风险预测模型的准确性[22-23]

在变量筛选和数据分析方面,可采用多种机器学习算法,如支持向量机、随机森林、自适应提升分类树、极端梯度提升等,这些算法各具特色,可根据不同的数据分布和特征关系构建出适应性强、预测性能优的模型。例如,支持向量机在处理高维数据和非线性关系方面表现出色,而随机森林则通过集成多个决策树以提高模型的稳定性和准确性。

在模型建立和验证方面,机器学习模型更加灵活,并可通过在线学习或增量学习的方式动态更新模型[24-25]。相比之下,传统模型虽然也具备一定的动态更新能力(如通过加权最小二乘法或贝叶斯更新),但在处理复杂数据和动态环境时不如机器学习模型。

模型预测性能评估方面,不仅包括受试者工作特征曲线下面积(AUC)、灵敏度、特异度、准确度、召回率等传统指标,还可引入一些新型指标。例如,通过SHAP值对模型特征进行量化和归因分析,可解释每个特征对模型预测的贡献程度[26];一些研究采用交叉验证法评估模型的泛化能力[23]

表2展示了国内外部分机器学习模型预测脑卒中首发风险方面的研究概况。

表2 国内外部分机器学习模型预测首发脑卒中风险研究概况

图片

对比传统模型,机器学习模型还具有以下优势:

首先是数据处理能力,传统模型对高维数据的处理能力有限,而机器学习模型可自动、快速整合和处理多维度数据,还可通过数据填充、模型调整等方法更好地处理缺失值,从而提高模型的鲁棒性。例如,机器学习可通过特征选择和降维等技术,从海量的临床、影像学、实验室检测等多源数据中提取有价值的信息,从而更全面地捕捉脑卒中发生风险因素[32]

其次,从模型泛化能力方面来看,机器学习模型可更好地适应不同的数据分布和样本特征[33]。此外,传统模型通常基于静态数据进行发病风险预测,难以考虑时间序列和动态变化的影响,而机器学习模型则可利用时间序列分析、动态特征提取等技术,实现对脑卒中风险的动态预测。例如,基于多模态MRI数据的机器学习模型可在患者入院后短时间内对其预后进行预测,并随着治疗过程的推进动态调整预测结果[34]

然而,值得注意的是,有研究基于美国无脑卒中或短暂性脑缺血发作的黑人和白人队列,评估了弹性网正则化的Cox比例风险模型和随机生存森林模型在不同亚组(种族、性别和年龄)人群新发脑卒中风险预测中的性能[35]。结果发现两种机器学习模型在新发脑卒中风险预测准确性方面并无显著优势,提示虽然机器学习技术在脑卒中首发风险预测方面具有巨大潜力和广阔的应用前景,但实际应用时亦面临诸多问题:

(1)外部验证不足,缺乏真实世界数据的验证;(2)机器学习算法虽种类多样,但创新动力不足,多数“新方法”仅是对经典算法的微调或组合,建模同质化趋势明显;(3)复杂数据集处理是构建高精确度预测模型的重大挑战,数据预处理、特征选择等环节操作不当易引入偏差,增加偏倚风险,削弱结论的可靠性[36]

因此,除对模型进行一般性能评价外,需关注过拟合问题及鲁棒性、泛化能力等方面是否满足实际应用要求。

2 未来发展趋势和建议

第一,注重技术创新

大数据与人工智能的广泛应用是未来发展的必然趋势。对于研究者而言,应从临床需求出发,注重算法创新,以解决实际问题。在脑卒中风险预测领域,深度学习、卷积神经网络等先进机器学习技术已展现出广阔的应用前景,许多研究致力于如何将前沿技术应用于解决临床实际问题[37]

例如,深度学习技术在脑卒中相关医学影像分析中具有较大优势。研究人员利用三维卷积神经网络对患者脑部MRI影像进行分析,并自动提取与脑部病变相关的特征,从而显著提升了病变分割的准确性[38],为疾病的早期诊断和治疗提供了有力支持。与传统手工提取特征方法相比,深度学习模型可自动学习并捕捉更复杂的潜在特征,从而克服传统模型在特征提取方面的局限性,显著提升预测精确度并大幅减少计算时间,这表明深度学习在处理复杂医学数据方面具有显著优势[39]

此外,未来研究还可探索如何将深度学习技术的特征提取能力与随机森林算法的稳定性相结合,以进一步提升脑卒中风险预测的准确性和稳健性[40],并研发脑血管3D地图建模技术(用AI绘制个体化脑血管网络)和多模态数据融合系统(同步分析影像、基因、生活习惯数据),推动其在首发脑卒中风险预测中的精准化、个性化发展[41-42]

第二,增加数据类型的多元化是进行模型优化和预测精准度提升的重要策略

通过纳入更多的特征变量,综合分析各变量之间的相互作用,并利用更先进的深度学习方法进行多维度模型优化,可进一步提升模型的预测性能。除纳入常规诊疗数据外,还应涵盖诸如基因信息、个人生活习惯等在内的多维度数据。同时,鉴于脑卒中发病相关分子标志物与影像学技术的快速进步,不断涌现的新型预警标志物为临床提供了更加丰富的信息资源,将这些分子标志物及影像学检查结果整合入预测模型,是未来研究不可或缺的一环。

此外,将中医理论中的相关变量融入模型的构建中,可打造独具中国特色的脑卒中首发预测模型[43]。结合现代医学诊断和中医证候的机器学习模型是一种创新的诊疗辅助工具,其通过整合现代医学的客观检测数据(如实验室指标、影像学结果)与中医的四诊信息(望、闻、问、切),利用机器学习算法挖掘二者之间的内在联系,从而实现更易解释、更精准的脑卒中风险预测、临床诊断和治疗方案制定[44]。此种模型可有效弥补传统中医诊断中主观性强、个体差异大的不足,并可借助现代医学的精确检测手段,为中医辨证提供更丰富的依据[45]。例如,有研究利用机器学习算法对高血压患者的中医证候进行分类,准确率高达90.0%[46]。这种融合现代科技与中医证候的模型,为中西医结合的临床实践和研究提供了新思路和方法,并有助于进一步提升医疗服务质量和效率,期待其在脑卒中风险预测中的应用。

第三,增强模型的可解释性、鲁棒性和普适性,并进行临床验证是预测模型能否真正应用的关键因素

未来研究中,除致力于解决融合建模过程中遇到的技术难题(如提升模型的可解释性,使其更易被理解和接受)、增强模型对数据多样性和庞大数据集的适应能力外,还需着重关注模型在临床治疗中是否广泛适用、结果是否稳定,及模型是否可带来临床获益。其中尤为重要的是,为确保模型真正可被使用,必须在真实的临床环境中进行测试和应用。通过与医疗机构携手合作,在临床测试中收集更多来自实际诊疗过程的数据,据此不断调整和优化模型,使其更好地贴合临床实际需求,从而为预防和治疗脑卒中提供更好支持。

此外,对模型进行外部验证是评估模型性能的重要方面,也是判断模型能否在临床应用的关键环节。相关文献分别从临床预测模型的开发至外部验证[47]、外部验证研究的实施方法[48]及外部验证研究所需样本量的计算[49]三个方面,对预测模型类研究在临床实践中的评估或验证原则、方法和步骤进行了系统且详尽的阐述。这些指南性质的文献为脑卒中首发风险预测模型的临床验证提供了非常重要的解释与指导,其临床验证结果对增强临床医生的信心和保证这些预测模型可在临床推广起到至关重要的作用。

3 小结与展望

脑卒中是全球范围内健康领域的重大挑战,临床预测模型在脑卒中的一级预防中扮演着重要角色。基于人口信息学、既往病史及一般临床资料建立的传统模型可为脑卒中高危人群的识别和早期风险预测提供一定参考信息,目前研究虽较为广泛,但不同研究中预测模型的异质性较大,且受经济水平、种族、饮食习惯等因素的影响,模型的准确性和性能常受到制约。基于机器学习算法的新型脑卒中风险预测模型是未来研究的热点,其不仅可处理多模态数据,还善于捕捉潜在的特征信息,可通过数据挖掘显著优化模型的性能,且此种模型在应对大规模人群或处理大数据时优势凸显,具有良好的临床应用前景。未来一方面需实现数据类型的多样化与模型优化整合,纳入包括基因数据、生活习惯信息、临床分子标志物、影像学特征,甚至中医学相关变量,以构建更全面、更精准的预测模型,另一方面应进一步聚焦技术创新,利用深度学习等先进算法进一步提升预测模型的精确度与效率。此外,应重视模型的临床验证与应用,通过系统的临床验证和真实世界数据的不断优化,增强模型的泛化能力、稳定性和可解释性,促进预测模型的大规模临床应用,从而辅助脑卒中高危人群的筛查和识别,为脑卒中防治提供强有力的支持。

参考文献

[1]GBD 2021 Stroke Risk Factor Collaborators. Global, regional, and national burden of stroke and its risk factors, 1990—2021: a systematic analysis for the Global Burden of Disease Study 2021[J]. Lancet Neurol, 2024, 23(10): 973-1003.

[2]Owolabi M O, Thrift A G, Mahal A, et al. Primary stroke prevention worldwide: translating evidence into action[J]. Lancet Public Health, 2022, 7(1): e74-e85.

[3]Crichton S L, Bray B D, McKevitt C, et al. Patient outcomes up to 15 years after stroke: survival, disability, quality of life, cognition and mental health[J]. J Neurol Neurosurg Psychiatry, 2016, 87(10): 1091-1098.

[4]Feigin V L, Owolabi M O. Pragmatic solutions to reduce the global burden of stroke: a World Stroke Organization-Lancet Neurology Commission[J]. Lancet Neurol, 2023, 22(12): 1160-1206.

[5]Sarikaya H, Ferro J, Arnold M. Stroke prevention--medical and lifestyle measures[J]. Eur Neurol, 2015, 73(3/4): 150-157.

[6]Goldstein L B, Bushnell C D, Adams R J, et al. Guidelines for the primary prevention of stroke: a guideline for healthcare professionals from the American Heart Association/American Stroke Association[J]. Stroke, 2011, 42(2): 517-584.

[7]胡填, 岑晚霞, 李翠, 等. 临床预测模型在脑卒中的应用与研究进展[J]. 中国临床研究, 2023, 36(3): 386-390.

[8]Deo R C. Machine learning in medicine[J]. Circulation, 2015, 132(20): 1920-1930.

[9]Wolf P A, D'Agostino R B, Belanger A J, et al. Probability of stroke: a risk profile from the Framingham Study[J]. Stroke, 1991, 22(3): 312-318.

[10]Dufouil C, Beiser A, McLure L A, et al. Revised framingham stroke risk profile to reflect temporal trends[J]. Circulation, 2017, 135(12): 1145-1159.

[11]Parmar P, Krishnamurthi R, Ikram M A, et al. The Stroke Riskometer(TM) App: validation of a data collection tool and stroke risk predictor[J]. Int J Stroke, 2015, 10(2): 231-244.

[12]Gage B F, Waterman A D, Shannon W, et al. Validation of clinical classification schemes for predicting stroke: results from the National Registry of Atrial Fibrillation[J]. JAMA, 2001, 285(22): 2864-2870.

[13]Lip G Y H, Nieuwlaat R, Pisters R, et al. Refining clinical risk stratification for predicting stroke and thromboembolism in atrial fibrillation using a novel risk factor-based approach: the Euro heart survey on atrial fibrillation[J]. Chest, 2010, 137(2): 263-272.

[14]Hippisley-Cox J, Coupland C, Brindle P. Derivation and validation of QStroke score for predicting risk of ischaemic stroke in primary care and comparison with other risk scores: a prospective open cohort study[J]. BMJ, 2013, 346: f2573.

[15]Goff D C Jr, Lloyd-Jones D M, Bennett G, et al. 2013 ACC/AHA guideline on the assessment of cardiovascular risk: a report of the American College of Cardiology/American Heart Association Task Force on Practice Guidelines[J]. Circulation, 2014, 129(25 Suppl 2): S49-S73.

[16]Xing X L, Yang X L, Liu F C, et al. Predicting 10-year and lifetime stroke risk in Chinese population[J]. Stroke, 2019, 50(9): 2371-2378.

[17]Grundy S M, D'Agostino R B Sr, Mosca L, et al. Cardiovascular risk assessment based on US cohort studies: findings from a National Heart, Lung, and Blood institute workshop[J]. Circulation, 2001, 104(4): 491-496.

[18]Chun M, Clarke R, Zhu T T, et al. Development, validation and comparison of multivariable risk scores for prediction of total stroke and stroke types in Chinese adults: a prospective study of 0.5 million adults[J]. Stroke Vasc Neurol, 2022, 7(4): 328-336.

[19]Zhang Y L, Fang X H, Guan S C, et al. Validation of 10-year stroke prediction scores in a community-based cohort of Chinese older adults[J]. Front Neurol, 2020, 11: 986.

[20]Daidone M, Ferrantelli S, Tuttolomondo A. Machine learning applications in stroke medicine: advancements, challenges, and future prospectives[J]. Neural Regen Res, 2024, 19(4): 769-773.

[21]Obermeyer Z, Emanuel E J. Predicting the future-big data, machine learning, and clinical medicine[J]. N Engl J Med, 2016, 375(13): 1216-1219.

[22]王柳丁. 基于机器学习的病证结合脑卒中风险预测模型的开发与验证[D]. 北京: 中国中医科学院, 2023.

[23]孙资金, 吉静, 马重阳, 等. 基于机器学习的中风中医辨证模型的构建与应用[J]. 湖南中医药大学学报, 2023, 43(4): 694-699.

[24]Wang Z L, Jiang M, Hu Y H, et al. An incremental learning method based on probabilistic neural networks and adjustable fuzzy clustering for human activity recognition by using wearable sensors[J]. IEEE Trans Inf Technol Biomed, 2012, 16(4): 691-699.

[25]Shehab M, Abualigah L, Shambour Q, et al. Machine learning in medical applications: a review of state-of-the-art methods[J]. Comput Biol Med, 2022, 145: 105458.

[26]万红燕, 刘婕, 郝舒欣, 等. 基于随机森林算法的南京地区脑卒中风险预测模型构建[J]. 环境卫生学杂志, 2024, 14(7): 590-596.

[27]Chun M, Clarke R, Cairns B J, et al. Stroke risk prediction using machine learning: a prospective cohort study of 0.5 million Chinese adults[J]. J Am Med Inform Assoc, 2021, 28(8): 1719-1727.

[28]Qiu Y X, Cheng S Q, Wu Y H, et al. Development of rapid and effective risk prediction models for stroke in the Chinese population: a cross-pal study[J]. BMJ Open, 2023, 13(3): e068045.

[29]Chang H W, Zhang H, Shi G P, et al. Ischemic stroke prediction using machine learning in elderly Chinese population: the Rugao Longitudinal Ageing Study[J]. Brain Behav, 2023, 13(12): e3307.

[30]Orfanoudaki A, Chesley E, Cadisch C, et al. Machine learning provides evidence that stroke risk is not linear: the non-linear Framingham stroke risk score[J]. PLoS One, 2020, 15(5): e0232414.

[31]You J, Guo Y, Kang J J, et al. Development of machine learning-based models to predict 10-year risk of cardiova-scular disease: a prospective cohort study[J]. Stroke Vasc Neurol, 2023, 8(6): 475-485.

[32]万红燕, 郝舒欣, 刘婕, 等. 机器学习在脑卒中风险预测中的应用进展[J]. 中国基层医药, 2024, 31(8): 1275-1280.

[33]杜慧杰, 刘星雨, 徐明欢, 等. 急性缺血性脑卒中预后预测研究的应用进展: 以机器学习预测模型为例[J]. 中国全科医学, 2025, 28(5): 554-560.

[34]张穿洋, 朱文莉, 李晓冉, 等. 急性脑卒中预后预测模型:机器学习与传统回归模型的比较[J]. 中国CT和MRI杂志, 2023, 21(7): 24-26.

[35]Hong C, Pencina M J, Wojdyla D M, et al. Predictive accuracy of stroke risk prediction models across black and white race, sex, and age groups[J]. JAMA, 2023, 329(4): 306-317.

[36]Nijman S W, Leeuwenberg A M, Beekers I, et al. Missing data is poorly handled and reported in prediction model studies using machine learning: a literature review[J]. J Clin Epidemiol, 2022, 142: 218-229.

[37]Janiesch C, Zschech P, Heinrich K. Machine learning and deep learning[J]. Electron Mark, 2021, 31(3): 685-695.

[38]Kamnitsas K, Ledig C, Newcombe V F J, et al. Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation[J]. Med Image Anal, 2017, 36: 61-78.

[39]Shin H C, Roth H R, Gao M C, et al. Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Trans Med Imaging, 2016, 35(5): 1285-1298.

[40]Moulaei K, Afshari L, Moulaei R, et al. Explainable artificial intelligence for stroke prediction through comparison of deep learning and machine learning models[J]. Sci Rep, 2024, 14(1): 31392.

[41]Luo N, Shi W Y, Yang Z Y, et al. Multimodal fusion of brain imaging data: methods and applications[J]. Mach Intell Res, 2024, 21(1): 136-152.

[42]Colangelo G, Ribo M, Montiel E, et al. PRERISK: a personalized, artificial intelligence-based and statistically-based stroke recurrence predictor for recurrent stroke[J]. Stroke, 2024, 55(5): 1200-1209.

[43]甄紫伊, 刘蕾, 吴薇, 等. 脑卒中首发风险预测模型的研究进展[J]. 循证护理, 2023, 9(4): 644-647.

[44]夏鑫, 牟玮, 李艳芬, 等. 基于机器学习技术挖掘中医名家医案数据的方法探讨[J]. 医学新知, 2024, 34(4): 448-457.

[45]佘楷杰, 袁艿君, 马庆宇, 等. 机器学习驱动中医诊断智能化的发展现状、问题及解决路径[J]. 中国中医基础医学杂志, 2024, 30(3): 398-406.

[46]许明东, 马晓聪, 温宗良, 等. 支持向量机在高血压病中医证候诊断中的应用[J]. 中华中医药杂志, 2017, 32(6): 2497-2500.

[47]Collins G S, Dhiman P, Ma J, et al. Evaluation of clinical prediction models (part 1): from development to external validation[J]. BMJ, 2024, 384: e074819.

[48]Riley R D, Archer L, Snell K I E, et al. Evaluation of clinical prediction models (part 2): how to undertake an external validation study[J]. BMJ, 2024, 384: e074820.

[49]Riley R D, Snell K I E, Archer L, et al. Evaluation of clinical prediction models (part 3): calculating the sample size required for an external validation study[J]. BMJ, 2024, 384: e074821.

Tags: 【协和医学杂志】基于传统方法和机器学习的临床模型预测首次脑卒中:现状与前景  

搜索
网站分类
标签列表