首页 > 医疗资讯/ 正文

【神麻人智】平均动脉压:机器学习模型预测平均动脉压的唯一所需特征

来源 2025-11-02 12:10:53 医疗资讯

背景

麻醉学和重症监护领域通过监测来识别有病情恶化风险的患者。传统上,趋势分析和早期预警评分仅能让临床医生以中等可靠性预测患者病情恶化情况。平均动脉压(MAP)降低与多种并发症相关,因此研究人员一直在寻求可预测MAP的模型。基于复杂输入特征的机器学习方法已用于MAP预测性监护。

目的

本研究旨在评估机器学习能否仅通过MAP的历史数值预测MAP。

设计

本研究为单中心、回顾性、探索性、观察性队列研究,使用MIMIC-III-WDB数据库、VitalDB数据库及研究中心内部数据集。MAP基于成人有创血压(IBP),输入20分钟之内观察时间窗的值进行机器学习模型训练,来预测5至20分钟后目标时间窗的值。

研究对象

共分析了内部数据集的2346例患者、MIMIC-III-WDB数据库的4741例患者以及VitalDB数据库的3357例患者。

主要结局

主要终点是模型预测特定时间窗内MAP是否降至65mmHg以下的性能表现;在次要分析中,我们将输入值限定于当前MAP高于65mmHg的病情稳定患者。

结果

使用完整数据集(MIMIC-III-WDB)训练的模型,在内部数据集上预测5分钟、10分钟、15分钟和20分钟时间点低MAP的受试者工作特征曲线下面积(ROC AUC)分别为0.963、0.946、0.934和0.923;在次要分析中,相应的ROC AUC分别为0.856、0.837、0.821和0.804。完整数据集训练后,模型ROC AUC与基准预测模型(以最后一次MAP作为未来MAP预测值的ROC AUC)的最大差值为0.006;而在病情稳定患者数据集中,该最大差值为0.051。对平均动脉压的预测可使临床医生在MAP恶化至具有临床意义之前及时采取干预措施。

结论

无论患者当前MAP是否高于65mmHg,机器学习模型均能预测在5、10、15和20分钟后的MAP是否降至65 mmHg以下。该预测模型需且仅需以MAP作为输入特征。

核心要点

平均动脉压被广泛用于连续实时监测患者的血流动力学状态,其数值下降可能引发多种并发症。

以往的研究在构建预测未来平均动脉压的机器学习模型时,除平均动脉压外,还纳入了其他复杂指标和特征,并依赖专有硬件。

近期关于使用复杂特征的必要性,以及基于这类复杂特征构建模型的商用监测系统的适用性与实用价值,引发业界讨论。

本研究表明,仅将平均动脉压作为输入特征,在预测其未来数值方面的效果即便不优于、也至少等同于纳入复杂特征的模型。

引言

研究背景与依据

麻醉学和重症监护学科专注于对有复杂需求(包括器官功能替代治疗)的患者进行监测。当参数超出设定阈值时,会触发警报,进而启动干预措施。

已有研究发现平均动脉压(MAP)降低与重症监护中急性肾损伤(AKI)等并发症相关。此外,大量临床研究表明,无论是在手术室(OR)还是重症监护室(ICU),当平均动脉压降至特定低阈值以下时,患者的发病率和死亡率会显著升高。综述指出,平均动脉压低于65mmHg会形成风险,特别是长时间低于这个水平。

大量指南建议,当平均动脉压降至特定低阈值后,立即恢复血流动力学稳定可能有助于降低发病率和死亡率。但在这种方式下,只有平均动脉压显著下降后,才会启动干预。在最差的情况下,此时心肺循环功能可能已经受损,可导致整体临床状况进一步恶化。

机器学习(ML)在模拟重症监护患者复杂病情方面的应用日益广泛。利用机器学习,已有研究可靠地预测了患者个体器官衰竭、特定疾病导致的病情恶化及死亡风险。

近年来,市面上出现了可预测低血压的监护仪。但这些监护仪的算法过程复杂,且近年来越来越多的研究指出其预测存在“灰色区域”,极大地增加了临床应用难度。

研究目的

本研究旨在评估机器学习模型是否能仅通过之前和当前的平均动脉压预测未来平均动脉压。我们假设仅依靠平均动脉压单一特征,就足以构建预测未来平均动脉压的模型。

方法

研究设计与机构

本研究为多数据源、单中心(奥地利林茨开普勒大学医院)、回顾性、探索性、观察性队列研究。

主要终点为不同机器学习模型利用20分钟、15分钟、10分钟、5分钟和0分钟之前获取的平均动脉压数值预测未来平均动脉压的性能。

研究对象、变量、数据来源与管理

本研究分析了三个数据源(表1):

内部数据集:奥地利林茨开普勒大学医院2018年3月至2020年6月期间入住ICU的所有成年患者(≥18岁),共2346例,年龄为65.1±14.4岁。

MIMIC-III-WDB公开数据集:2001年至2012年期间美国马萨诸塞州波士顿贝斯以色列女执事医疗中心重症监护室患者的临床信息和波形数据,共4741例,年龄为64.3±14.7岁。

VitalDB公开数据集:2016年8月至2017年6月期间韩国首尔国立大学医院非心脏手术患者的术中数据,共3357例,年龄为59.0±14.4岁。

表1 患者特征

image.png

从每个数据集中提取患者人口统计学信息和有创血压(IBP)数据,通过有创血压测量数据计算平均动脉压。血压数据以0.5-1HZ的高时间分辨率进行采用,随后将分辨率下调至1分钟,计算平均动脉压的平均值、最小值和最大值。采样前,通过医学专家对平均动脉压数值进行有效性验证:将低于40 mmHg(5.33 kPa)或高于130 mmHg(17.33 kPa)的数值判定为不可信。若1分钟时间段内有效测量值少于10个,则剔除该时间段数据;若时间段内测量的最大值与最小值之差超过30 mmHg,同样剔除(参考以往研究方法)。最终剔除了4%的内部数据集、15%MIMIC-III-WDB数据集和6%VitalDB数据集的数据。

研究主要目标是预测未来平均动脉压,具体而言,在5、10、15和20分钟这四个预测时间点后,平均动脉压是否高或低于65mmHg。无论当前或未来平均动脉压数值如何,每5分钟生成一个数据样本以避免选择偏倚(图1)。将预测节点前20、15、10、5和0分钟这几个观察时间窗的1分钟MAP平均值作为输入特征;将预测时间点最后1分钟目标时间窗的MAP最大值用于定义二分类目标:若目标时间窗的最大MAP低于65mmHg,则标记为阳性。经过上述处理后,样本量被认为足以满足机器学习需求(表2和表3)。

表2 不同预测时间点的样本特征(完整数据)

image.png

表3 不同预测时间点的样本特征(当前MAP≥65mmHg)

image.png

图1 样本和标签定义

image.png

左侧曲线表示平均动脉压(MAP),深灰色水平条带表示每分钟时段的MAP平均值,浅灰色水平条带表示1分钟时段的MAP最大值。观察时间窗内的五个时段MAP平均值作为输入特征(若数据可用),以目标时间窗的MAP最大值作为二分类标签。观察窗末端与目标窗末端之间的时差即为预测时间点(本例中为10分钟)。在后续采样中,观察窗与目标窗口会以5分钟间隔(此处未图示)进行滑动。

选择目标时间窗的MAP最大值,是为了仅识别所有测量值均低于65 mmHg的明确低血压发作。初步测试显示,若选择平均值,结果与选择最大值相似。根据上述标准剔除某一时间段数据,可能导致对应的特征缺失;但观察时间窗的最后一个时间段和唯一目标时间窗的数据必须完整,否则需剔除整个样本(图1)。

血管升压药和液体输注会影响血压,可能降低MAP预测模型的质量或影响所报告的性能指标的准确性。我们不去考虑这些变量,原因在于:首先,无论是发表文献还是后续关于商用低血压指数的讨论,均未将血管升压药和输液量纳入考量;其次,在初步实验中我们发现,在观察窗内接受血管升压药和/或晶体液治疗的患者,往往在5至20分钟后的目标窗会继续接受相同药物治疗,反之亦然。我们推测,尽管启动或停止使用血管升压药或液体输注会产生影响,但在患者平均动脉压恶化期间持续使用这些药物,其影响程度会显著降低。若剔除观察窗或目标窗内使用过血管升压药和/或晶体液的样本,将导致研究队列产生偏倚。

研究评估了多种机器学习架构,在不同训练集与测试集组合情况下,预测平均动脉压是否会降至65 mmHg以下(表6)。为了确保结果可复现,我们使用开源数据集进行训练,并使用内部数据集进行测试。然而,由于内部数据仅包含来自重症监护室 (ICU) 的样本,因此我们将VitalDB 数据随机划分为训练集和测试集,每组随机分配 50% 的患者样本,以评估模型在手术室 (OR) 环境中的性能。

我们采用三种基准模型,作为训练模型的预测性能的参照:

CurMAP:一个简单将当前的MAP 值预测为未来的MAP值。

LepMAP:采用Jacquet-Lagrèze等学者提出的线性外推模型,计算公式为2×MAPt-1-MAPt-2;

ΔMAP:基于Hatib等学者提出的模型,通过前两个时间步骤的MAP差值进行预测。

在次要分析中,我们考虑预测看似稳定的患者的病情恶化。为此,我们将数据样本限定为当前MAP值不低于65mmHg的病例。

研究同时考虑了分类和回归两种模型,将平均动脉压低于65 mmHg作为二分类目标。在训练分类模型时,未来MAP值会被二值化,导致模型训练过程中反馈信息的丢失。为了弥补这一不足,我们还使用原始的未来MAP值训练回归模型。将所有获取的平均动脉压数值按从高到低排序,用于计算受试者工作特征曲线下面积(ROC AUC)和平均精度(AP)。

我们使用标准实现和超参数训练了线性回归、弹性网络、逻辑回归、决策树和随机森林模型。这样做是为了评估简单方法与更复杂的方法相比,在预测上的有效性。为了防止过拟合,弹性网络使用惩罚项(Lasso 和 Ridge 回归正则化技术的组合)来缩小预测变量的系数;而随机森林则使用集成投票。每个针对不同预测时间点的模型都是单独训练。输入特征值中的缺失值使用线性插值和后续的反向填充进行插补。

偏倚

基于生理学依据,将65mmHg作为区分MAP正负类别的临界阈值,已被多项研究采用,并证实与急性肾损伤(AKI)及心肌损伤存在关联,这反映了某些器官可能对特定MAP阈值存在需求。然而,若将其作为MAP良性与不良状态的绝对决策边界,在综合评估患者状况时仍存在一定主观性。根据专家意见,我们剔除了MAP低于40mmHg或高于130mmHg的样本数据,但无法完全排除这些被剔除样本可能包含有价值信息的可能性。我们内部数据集中的患者以男性为主,性别失衡比例约为2:1,这意味着针对女性患者的结论可能缺乏足够说服力。

结果

研究对象与描述性数据

本研究纳入的患者:内部数据集2346例、MIMIC-III-WDB 数据集 4741 例、VitalDB 数据集 3357 例(表1)。ICU 数据集中每个患者的样本数量比 VitalDB 数据集要高得多,因为 ICU 住院期间进行相应的侵入性血压记录的时间通常比外科手术的时间要长。

基于样本丢弃规则,每个预测时间点的样本量略有不同。内部数据集约有195万个样本,其中19%为标志为阳性;MIMIC-III-WDB 数据集提取了约350万个样本(7.6%为阳性样本);VitalDB 数据集提取了约 64 万个样本(5.4% 为阳性样本)。表2列出了具体数值,且数据显示阳性样本的MAP均值(60 mmHg)在统计学上显著低于阴性样本(80 mmHg)(Mann-Whitney U 检验,P<0.0001)。

由于违反了有效1分钟时间段的条件,内部数据集有8.9%的1分钟时间段数据被舍弃,这一舍弃比例在MIMIC-IIIWDB和VitalDB数据集分别为67.7%和39.7%。MIMIC-III-WDB数据库中缺失的数据较多,主要是由于1分钟内测量次数少于10次造成的。在内部数据集中,9.2%的样本缺失了历史MAP值,不同预测观察窗的这一比例几乎相同。MIMIC-IIIWDB和VitalDB数据集的相应比例分别为18.3%和22.5%。 

结局数据与主要结果

图2-5展示了训练模型在测试数据上验证的不同预测时间点目标窗的ROC AUC值。此外,由表4可见各时间点对应的最优模型和AUC值。这些数据显示,当仅使用MAP值作为特征在MIMIC-III集进行训练,并在内部数据集进行测试时,最佳模型在5、10、15、20分钟的AUC值分别达到0.96、0.95、0.93和0.92,展现出优越预测性能。使用其他数据集训练也获得相似结果(表4)。即使采用MIMIC-III联合VitalDB部分数据集进行训练,并在VitalDB另一子集测试,相应预测时点AUC值仍能达到0.89、0.85、0.83和0.82。这是因为平均动脉压变化通常较为缓慢:若当前平均动脉压高于65 mmHg,未来 20分钟内仍可能保持该水平,反之亦然。相比之下,若选择Hatib提出的ΔMAP 作为基础模型,预测任务的难度会显著增加。本研究中的机器学习模型仅比基准模型略有改进,在20分钟预测时点,ROC AUC最多提升0.006。但模型性能与低血压预测指数相近(预测5分钟后:0.96 vs. 0.97;10 分钟后:0.94vs.0.95;15分钟后:0.93vs.0.95),这表明简单模型足以实现对未来平均动脉压的预测。

图 4 和表 5 展示了预测看似稳定的患者血压下降的二次分析结果。虽然模型性能有所下降,但仍处于表现良好,最佳 ROC AUC在 20 分钟时达到 0.80,为各预测时间点最小值。值得注意的是,模型性能与基准模型之间的差异有所增加,ROC AUC 的最大增幅为 0.05。

图2 机器学习模型性能对比:CurMAP、仅采用平均动脉压输入特征的最优模型和HPI

image.png

CurMAP:以t0时刻MAP值作为未来时间点预测值的基础方法;HPI:低血压预测指数。 

图3 机器学习模型性能表现(完整数据,训练集:MIMIC-III,测试集:内部数据集)

image.png

不同模型在5、10、15及20分钟预测时点的受试者工作特征曲线下面积。CurMAP:以t0时刻MAP值作为未来时间点预测值的基础方法;ΔMAP:Hatib等提出的基于时间点间MAP差值的基准法;LepMAP:基于线性外推的预测器;DT:决策树;class:指分类问题训练模式;regr:指回归问题训练模式;Elastic Net:弹性网络;Lin. Reg.:线性回归;Log. Regr.:逻辑回归; RF:随机森林;ROC AUC:受试者工作特征曲线下面积。

图4 机器学习模型性能表现(当前MAP≥65mmHg数据,训练集:MIMIC-III,测试集:内部数据集)

image.png

不同模型在5、10、15及20分钟预测时点的受试者工作特征曲线下面积。CurMAP:以t0时刻MAP值作为未来时间点预测值的基础方法;ΔMAP:Hatib等提出的基于时间点间MAP差值的基准法;LepMAP:基于线性外推的预测器;DT:决策树;class:指分类问题训练模式;regr:指回归问题训练模式;Elastic Net:弹性网络;Lin. Reg.:线性回归;Log. Regr.:逻辑回归; RF:随机森林;ROC AUC:受试者工作特征曲线下面积。

图5 机器学习模型ROC曲线(完整数据,训练集:MIMIC-III,测试集:内部数据集)

image.png

不同模型在10和20分钟预测时点的ROC曲线。CurMAP:以t0时刻MAP值作为未来时间点预测值的基础方法;ΔMAP:Hatib等提出的基于时间点间MAP差值的基准法;LepMAP:基于线性外推的预测器;DT:决策树;class:指分类问题训练模式;regr:指回归问题训练模式;Elastic Net:弹性网络;Lin. Reg.:线性回归;Log. Regr.:逻辑回归; RF:随机森林;AUC:受试者工作特征曲线下面积。

表 4 机器学习模型性能(完整数据)

image.png

最优机器学习模型(四种训练配置)在测试集上的AUC值(不同预测时点)及其与CurMAP基准模型的AUC差值。CurMAP:以t0时刻MAP值作为未来时间点预测值的基础方法; class:指分类问题训练模式; Elastic Net:弹性网络;Lin. Regr.:线性回归;Log. Regr.:逻辑回归; RF:随机森林;AUC:受试者工作特征曲线下面积。

表5 机器学习模型性能(当前MAP≥65mmHg数据)

image.png

最优机器学习模型(四种训练配置)在测试集上的AUC值(不同预测时点)及其与CurMAP基准模型的AUC差值。CurMAP:以t0时刻MAP值作为未来时间点预测值的基础方法; class:指分类问题训练模式; Elastic Net:弹性网络;Lin. Regr.:线性回归;Log. Regr.:逻辑回归; RF:随机森林;AUC:受试者工作特征曲线下面积。

表6 训练集和测试集的组合

image.png

讨论

核心结果与解读

本研究的核心结果是,仅依靠MAP数据即可实现MAP预测。该预测方法具有重要临床意义,能使临床医生在MAP恶化尚未引发临床症状前及时干预。然而,即便通过医疗手段能够纠正显性动脉低血压,未必能改善患者预后。

先前基于机器学习预测MAP恶化的研究成果已转化为商用软件——低血压预测指数(HPI),该技术采用精密架构,整合专用传感器技术与复杂数据处理流程。但事后分析与模拟实验表明,在真实临床场景中,HPI的实际性能指标(如ROC AUC和阳性预测值)可能远低于初期报告值。此外,在不对称数据集中(血压下降阳性概率很低,阴性样本占绝大多数),仅依赖ROC AUC并非理想评估标准,可能高估 HPI 预测血压下降的能力。有研究表明使用HPI可减少低血压总时长,使其在概念性推广方面具有一定吸引力。但本研究证实,仅通过平均动脉压单个特征即可达到相同的预测效果(图 2),因此,采用更复杂方法却获得相同结果的系统,其临床实用性值得商榷。

一些论点认为,使用动脉波形可以增强模型的可解释性,因此,更复杂的方法可能具有一定的实用价值。显然,理解低血压背后的机制非常重要,基于病理生理学原理解释医疗干预很有必要。临床医生需要理解因果关系,部分原因在于这有助于选择合适的治疗方法。尽管这种思维方式对人类推理很有帮助且必不可少,但对计算机而言却并非如此:机器学习已被证明能够得出结论,并将注意力集中在人类专家不会关注的领域,同时还能得出与人类专家水平相当的结论,甚至在此基础上进行改进。如果以人类的方式得出结论,对机器学习模型而言过于受限,也是当前机器学习研究的重点。

在临床实践中,目前已使用平均动脉压及平均动脉压变化趋势来判断其未来变化。本研究进一步证实,对于预测平均动脉压的机器学习模型,无需纳入除平均动脉压以外的任何其他特征数据。目前,将动脉波形数据嵌入机器学习模型中,与单独使用平均动脉压(MAP)相比,可能并没有太多优势。从这个意义上讲,我们的研究结果展示了一种更为简化、高效的方法,在各种测试中均能获得高度准确和精确的结果。尽管本研究结果易于实施,但仍处于概念验证阶段,需获得监管部门批准后方可应用于临床。未来研究或可开发出更易于应用的模型。

我们还发现,当训练样本仅限于观察时间窗的平均动脉压(MAP)高于 65mmHg 的稳定患者时,模型性能有所下降。这样做是因为,排除已经出现血流动力学不稳定的患者,否则会使预测病情恶化的临床实用性受到质疑。虽然机器学习方法的模型性能下降在预期之内,但其性能仍略高于基线水平,这可能反映出检测看似稳定的患者的病情恶化是一项更为复杂的任务。我们承认,限制样本数量也会导致阳性目标值数量减少,因此,与第一种情况相比,这些结果可能不够稳健。尽管如此,这仍然是一个值得未来研究的合理方向。我们也建议在这种特定情况下验证 HPI 模型。

研究局限性

本研究存在一些局限性:

这是一项回顾性研究。尽管通过在外部公开数据库上验证结果在一定程度上弥补了这一不足,但仍需进一步验证模型,以确保其具有更广泛的普适性。

与医疗数据常见情况类似,本研究数据中结局分布不均衡,血流动力学稳定的样本远多于恶化的样本。我们尝试通过使用平均精度(AP)作为指标来应对这一问题。使用包含更多样化患者的更大规模数据集,或通过机器学习生成合成数据,可能有助于构建更具普适性的模型,这将作为未来研究方向。

在技术实现方面,可能存在未测试的模型(包括架构、类别和超参数配置),这些模型或许能在绝对性能和可靠性方面取得更优结果。

纳入标准可能限制研究适用性,但已通过考虑以下偏倚点来减轻这种影响:所选的平均动脉压阈值、训练数据的选择以及样本剔除原因。剔除平均动脉压低于40mmHg或高于130mmHg的时间段数据,有助于减少数据集的极端值和非真实情况。

成功预测平均动脉压虽能提供预警,但并不能完全预防患者病情恶化,它只是反映患者(病理)生理状态及器官功能障碍的众多因素之一。事实上,其他参数也能帮助临床医生提供患者病情恶化的信息,而这些参数能否进一步提高预测准确性,还需要进一步研究来验证。

本研究旨在预测平均动脉压这一常用参数,因其能直接、快速地反映病情恶化而被广泛应用。因此,即使其他参数也可能提供有价值的信息,但单一参数的预测结果仍然足以指导临床医生关注特定患者。

结论

研究表明,无论患者当前MAP是否高于65mmHg,仅需MAP单一参数即可实现最长20分钟的预测,准确判断MAP是否会降至65mmHg以下。

Tags: 【神麻人智】平均动脉压:机器学习模型预测平均动脉压的唯一所需特征  

搜索
网站分类
标签列表