首页 > 医疗资讯/ 正文
摘 要
目的 通过构建基于原发灶影像组学、瘤周影像组学以及生境影像组学的机器学习模型,预测浸润性肺腺癌患者的淋巴结转移状态,并评估不同影像特征的预测性能与泛化能力。方法 回顾性分析2016—2019年于江苏省人民医院胸外科接受手术的1 263例浸润性肺腺癌患者的临床资料。利用K-means聚类方法(平均聚类数为2)对CT图像的灰度值进行生境区域划分,瘤周区域定义为原发灶周围均匀扩展3 mm的区域,原发灶区域则通过V-net自动分割结合人工矫正标注完成。随后,基于上述区域分别提取影像组学特征,并构建堆叠机器学习模型。利用受试者工作特征曲线下面积(area under the curve,AUC)、F1分数、召回率和精确度评估模型在训练集、测试集和内部验证集的性能。结果 剔除不符合筛选标准的患者,最终纳入患者651例。在训练集中,男181例、女287例,年龄29~78(58.39±11.23)岁;在测试集中,男56例、女84例,年龄34~82(58.81±10.70)岁;在内部验证集中,男14例、女29例,年龄29~78(60.16±10.68)岁。虽然生境影像组学模型在训练集中表现并非最优,但在内部验证集中表现突出,其AUC达0.952[95%CI(0.87,1.00)],F1分数为84.62%,精确率-召回率AUC为0.892,优于基于原发灶及瘤周区域的模型。结论 基于生境影像组学构建的模型在内部验证集中表现更优,提示其可能在预测肺腺癌淋巴结转移状态方面具有更好的泛化能力与临床应用潜力。
正 文
肺癌是全球癌症相关死亡的主要原因,其中肺腺癌为最常见的亚型之一[1-2]。近年来,影像组学作为一种高通量提取影像特征以揭示肿瘤异质性的方法,已在肺癌的诊断与预后评估中显示出巨大潜力[3]。然而,传统影像学特征对于评估肿瘤生物学行为及转移风险的预测能力有限,尤其在评估肿瘤淋巴结转移状态方面存在不足。
目前,早期肺癌的手术治疗主要包括肺叶切除和亚肺叶切除,后者虽旨在保留更多肺组织,但对于具有高风险病理特征的肿瘤,其治疗效果往往不尽如人意。既往研究[4]表明,肿瘤中即使存在微小的高危成分,如微乳头、实性、筛状和复杂腺体结构等,也会显著影响患者的预后且存在复发风险。由于术前病理活检受限于取样区域和肿瘤内在异质性,其对高风险病理成分的敏感性较低,因此,如何在术前准确预测肿瘤的转移风险,尤其是淋巴结转移,成为临床决策中的关键问题[5]。
影像组学通过从CT图像中提取大量定量特征,为揭示肿瘤内部和周围的生物学信息提供了新视角[6]。近年来,针对肿瘤原发灶以及瘤周区域的影像组学研究虽取得了一定成果,但在预测肿瘤淋巴结转移方面,单一区域模型往往存在泛化能力不足的问题。为此,本研究在传统原发灶及瘤周影像组学的基础上,引入生境影像组学,以更全面地捕捉肿瘤及其周边环境的异质性信息[7]。生境影像组学指的是通过对CT或其他医学影像的灰度值进行聚类分析,将影像分为若干个“生境”区域。每个区域代表肿瘤内部或其周边不同的微环境,这些区域的异质性可能反映出肿瘤分子层面和结构上的差异。采用K-means聚类算法,将CT图像中的像素依据灰度值自动分类,能够定量描述肿瘤及其微环境的复杂性,从而为评估肿瘤转移风险提供更深入的信息支持。
本研究旨在构建基于原发灶、瘤周及生境影像组学的堆叠机器学习模型,通过综合各区域的影像特征,预测浸润性肺腺癌患者的淋巴结转移状态,并评估不同影像特征的预测性能与泛化能力。本研究不仅为术前评估淋巴结转移风险提供了一种新的无创预测工具,也为制定个体化的手术方案及治疗策略提供了依据。
1 资料与方法
1.1 临床资料
回顾性分析2016—2019年期间在江苏省人民医院胸外科接受手术的1 263例浸润性肺腺癌患者的临床资料。所有患者在术前均行肺部CT扫描,诊断为肺结节,且临床高度怀疑为肺癌。纳入标准:(1)病理确诊为浸润性肺腺癌;(2)术前CT影像资料完整;(3)无既往放化疗或其他抗肿瘤治疗史。排除标准:(1)肺部CT质量较差或缺乏薄层扫描图像;(2)患者临床资料不完整;(3)诊断为其他类型的肺癌(如鳞状细胞癌、小细胞肺癌、粘液型肺腺癌),存在其他良性病变或其他肺部疾病(如非典型腺瘤样增生、原位腺癌、微浸润性腺癌),以及肺结节<5 mm。符合条件的患者采用随机分层方法按比例6∶3∶1划分为训练集、测试集和内部验证集,用于模型的构建、参数调优与独立验证。研究流程见附件图1。
1.2 CT图像采集
所有患者均于术前接受胸部CT扫描,扫描均在同一批64排CT扫描仪上进行(Siemens SOMATOM Force、Siemens Definition AS+或GE Medical Systems Revolution),以确保数据的一致性。扫描参数:(1)层厚:0.625~1.5 mm;(2)管电压:100~120 kVp;(3)管电流曝光时间乘积:80~300 mAs;(4)矩阵尺寸:512×512;(5)图像重建采用锐化卷积核(b60),并分别在标准肺窗(窗宽1 500 HU,窗位–600 HU)和纵隔窗(窗宽350 HU,窗位50 HU)下进行显示和存储。
1.3 感兴趣区域分割
对采集的CT图像首先进行预处理,包括利用Python中的SimpleITK库将图像重采样至统一体素间距(1 mm×1 mm×1 mm),以保证各影像数据的空间一致性。原发灶区域:采用V-net自动分割算法对肿瘤原发灶进行初步分割[8],随后由专业医师进行人工校正,确保分割的准确性。瘤周区域:在原发灶区域基础上,向外均匀扩展3 mm,界定为瘤周区域,用以捕捉肿瘤周边可能存在的微环境特征。生境区域:利用K-means聚类方法对CT图像灰度值进行聚类分析(平均聚类数设为2),实现对图像生境区域的划分,进一步揭示肿瘤周围环境的异质性信息。这种方法不仅可以细化影像内不同区域的灰度信息,还能反映出肿瘤及其周边组织在生物学行为上的多样性,为后续的特征提取和转移风险评估提供坚实的定量基础。
1.4 影像组学特征提取
基于上述分割获得的原发灶、瘤周及生境区域,利用PyRadiomics(版本3.1.0)对图像进行高通量特征提取[9]。图像预处理:所有CT图像及对应分割数据均先重采样至1 mm×1 mm×1 mm的体素间距。特征类型:提取的特征包括原始图像特征与经过小波变换后的特征,主要涵盖一阶统计学特征、灰度共生矩阵(GLCM)、灰度游程长度矩阵(GLRLM)、灰度尺寸区域矩阵(GLSZM)、邻域灰度差矩阵(NGTDM)以及灰度依赖矩阵(GLDM)等,全面反映肿瘤的形态、纹理及其内部异质性。
1.5 数据集划分与预处理
提取的影像组学特征数据经过初步处理后,包括缺失值填补、归一化和标准化,确保数据的完整性和一致性。缺失值处理:对每个特征列中存在的缺失数据,均采用该列数据的众数进行填补。数据划分:根据预先设定的6∶3∶1比例,将患者的影像组学数据随机分为训练集、测试集和内部验证集,保证各数据集中淋巴结转移状态的类别分布平衡,为模型构建与验证提供坚实基础。
1.6 特征选择与降维
为减少冗余特征并提高模型的稳定性和泛化能力,采用两步特征筛选方法。单变量分析:首先,对每个影像组学特征进行正态性检验(Shapiro-Wilk检验),根据数据分布选用独立样本t检验或Mann-Whitney U检验筛选出差异具有统计学意义(P≤0.05)的特征。相关性分析:利用Spearman相关系数构建特征相关性矩阵,对于相关系数>0.75的高度相关特征进行剔除,以降低多重共线性风险。降维处理:采用主成分分析(PCA)对筛选后的特征进行降维处理,同时结合最小绝对收缩和选择算子(LASSO)回归进一步选取最具预测价值的特征,以获得最优的特征子集用于模型训练。
1.7 堆叠机器学习模型构建
基于原发灶、瘤周及生境区域提取并筛选后的影像组学特征,采用堆叠机器学习方法构建预测模型,主要流程如下:第一层模型构建:选用多种基础分类器(包括逻辑回归、随机森林、支持向量机、K近邻和梯度提升分类器)对训练集进行建模,通过重复分层交叉验证(repeated stratified K-fold CV)生成各模型的预测概率,形成meta特征矩阵。第二层模型整合:在第一层生成的meta特征基础上,结合部分临床特征,采用逻辑回归作为最终预测器构建第二层堆叠模型。模型参数采用贝叶斯优化方法进行调优,目标是最大化受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)、F1分数、召回率和精确度等指标。模型最终在训练集、测试集及内部验证集上进行评估,以全面验证模型在预测浸润性肺腺癌患者淋巴结转移状态中的表现。评估指标主要包括AUC、F1分数、召回率、精确度及精确率-召回率曲线(PR-AUC),确保所构建模型具有良好的稳定性和泛化能力。
1.8 统计学分析
统计学分析采用R软件(版本4.4.1)和Python(版本3.8)进行。符合正态分布的连续变量采用均数±标准差(x±s)描述,两组比较采用独立样本t检验。不符合正态分布的连续变量则采用中位数(上下四分位数)[M(P25,P75)]描述,两组比较使用Mann-Whitney U检验。分类资料采用频数(%)描述,两组比较采用χ2 检验。影像组学特征之间的相关性采用Spearman相关性检验进行评估。双侧P≤0.05为差异有统计学意义。
1.9 伦理审查
本研究已通过南京医科大学附属第一医院伦理委员会审核批准,批准号:2022-SR-760。 鉴于回顾性研究性质,患者知情同意要求予以豁免。
2 结果
2.1 患者的一般资料
最终纳入651例患者。在训练集中,男181例、女287例,年龄29~78(58.39±11.23)岁;在测试集中,男56例、女84例,年龄34~82(58.81±10.70)岁;在内部验证集中,男14例、女29例,年龄29~78(60.16±10.68)岁。根据淋巴结转移情况,患者分为阳性组和阴性组。淋巴结转移阳性患者有133例(22.1%),淋巴结转移阳性患者有143例(22.0%),淋巴结转移阴性患者有508例(78.0%)。患者根据数据集进一步分为训练集、测试集和内部验证集。在训练集中,淋巴结转移阴性369例,淋巴结转移阳性99例。在测试集中,淋巴结转移阴性106例,淋巴结转移阳性34例。在内部验证集中,淋巴结转移阴性33例,淋巴结转移阴性10例。
2.2 影像组学特征筛选及建模过程
在影像组学特征的类别分布中,glcm特征占比最高,为25.6%,其次是firstorder特征(19.4%)、glrlm特征和glszm特征(17.2%),表明不同类型的特征在原发灶、瘤周及生境区域中可能具有不同的重要性。针对生境影像组学,分析其不同类别特征对于淋巴结结局的预测情况,发现各类别特征在label 1和label 2中的分布存在显著差异,提示不同生境区域的影像特征可能与淋巴结转移状态密切相关(图1a~b)。进一步分析原发灶与瘤周区域的影像特征分布,发现二者在多个特征维度上的表现不同,提示不同区域的影像信息可能具有独立的预测价值(图1c~d)。在特征筛选过程中,首先评估特征的正态性,再筛除P>0.05的特征,仅保留与淋巴结转移预测能力相关的特征(图1c)。随后,利用Spearman秩相关分析评估特征间的相关性,对于相关系数>0.75的特征对,仅保留其中1个,以减少特征冗余,提高模型的稳定性。基于单因素分析,计算label 1和label 2影像特征的相关性,并绘制热图,发现部分特征之间相关性较高,可能存在信息冗余,而部分特征则相对独立,提示有必要进行特征筛选,以提升模型的泛化能力(图1e~f)。类似地,在原发灶与瘤周区域的影像组学特征相关性分析中,发现两者在部分特征上表现出较强的相关性,而在部分特征上相对独立,进一步支持影像组学模型可以从多个层面综合不同区域的信息,以提升淋巴结转移预测性能(图1g~h)。
图 1 影像组学特征筛选,堆叠模型的构建
a~b:生境的 label 1 和 label 2 来源,展示在生境 label 1(a)和 label 2(b)中影像组学特征的分布情况;c~d:原发灶和瘤周的特征分布情况;e~f:经过单因素分析后展示生境 label 1(e)和 label 2(f)内部特征间的相关性热图;g~h:原发灶和瘤周的相关性分析热图。
2.3 生境影像组学、原发灶影像组学及瘤周影像组学的性能比较
生境影像组学、原发灶影像组学及瘤周影像组学3种模型在训练集、测试集和内部验证集上的预测性能。从ROC曲线来看,生境影像组学模型在训练集与内部验证集上分别取得了0.938和0.952的AUC;而在测试集中,原发灶影像组学模型的AUC为0.920,略高于生境影像组学模型的0.910,表明在测试数据中生境影像组学的区分能力相对较弱。在精确率-召回率曲线分析中,生境影像组学在内部验证集上显示出最佳的性能,其PR-AUC达0.892;然而,在训练集和测试集中,原发灶影像组学模型分别获得了0.825和0.818的PR-AUC,相比之下生境影像组学的效能为0.805和0.786。这些数据提示,尽管生境影像组学在内部验证集上具有较高的预测精度,其优势在其他数据集上并不明显。进一步分析准确率与F1分数的结果,生境影像组学在内部验证集上表现尤为突出,其准确率和F1分数分别达到了93.94%与84.62%,明显优于其他模型;相反,在训练集(准确率90.49%、F1分数 73.76%)及测试集(准确率88.78%、F1分数 71.79%)中,原发灶影像组学略占上风。瘤周影像组学模型则呈现中等表现,其在训练集、测试集与内部验证集上的AUC分别为0.933、0.851及0.900,反映出该模型在不同数据集上的适应性相对有限;见表1。
各影像组学模型在不同数据集中的表现存在一定差异,其中生境影像组学在内部验证集上展现了最佳的综合性能,显示出较高的预测鲁棒性和临床应用潜力;而原发灶影像组学则在测试集中表现出更强的区分能力。
2.4 生境影像组学的模型可解释性分析
回归系数分析(图2a)表明,生境影像组学模型主要依赖若干关键主成分特征,其中生境label 1第1个主成分(habitat label 1 PC 1)、第3个主成分(habitat label 1 PC 3)和第5个主成分(habitat label 1 PC 5)等贡献度最高,提示这些生境特征在预测浸润性肺腺癌淋巴结转移风险中具有重要价值。与此同时,一些负系数特征对模型预测的调节作用值得关注,可能对应肿瘤微环境中对转移潜能具有抑制效应的因素。
图 2 生境影像组学模型的可解释性分析
a:训练阶段最终估计器的回归系数分布,横坐标表示系数大小,纵坐标为特征主成分;较大的正或负系数表示该特征对模型预测的贡献较大;b:SHAP(Shapley Additive Explanations)值分析,展示不同主成分对模型预测输出的影响,横坐标为SHAP 值,纵坐标为特征变量;颜色表示特征值大小,红色代表特征值高,蓝色代表特征值低,点的分布反映了特征对模型预测结果的贡献及变化趋势。
在SHAP值分析(图2b)中,生境label 1第1个主成分(habitat label 1 PC 1)、生境label 2第1个主成分(habitat label 2 PC 1)及生境label 1第2个主成分(habitat label 1 PC 2)等特征的SHAP分布较为分散且范围较大,说明这些特征不仅整体贡献度高,而且对不同患者样本的影响也存在明显差异;当特征取值较高(红色)时,往往可显著提升模型对淋巴结转移的预测概率。
总体而言,模型对生境特征的依赖凸显了肿瘤内部不同“生境”区域在肿瘤转移风险评估中的作用,这与本研究聚焦浸润性肺腺癌淋巴结转移预测的背景相吻合。
3 讨论
本研究基于原发灶、瘤周及生境影像组学特征,利用堆叠机器学习方法预测浸润性肺腺癌的淋巴结转移风险,为术前评估和个体化治疗方案的制定提供了新的思路。随着肺叶切除与亚肺叶切除在早期肺腺癌治疗中的日益普及,如何在保留更多正常肺组织的同时尽量降低复发与转移风险,已成为胸外科医师亟待解决的难题[10]。既往研究[11]表明,即使肿瘤中仅存在微小高危成分(如微乳头、实性等),也可能显著增加患者的不良预后风险。因此,在术前阶段识别高危病变并评估淋巴结转移风险,对手术方式的选择与围术期管理具有重要意义。
淋巴结清扫策略对早期肺癌患者的预后具有关键意义。准确预测淋巴结转移不仅有助于决定清扫范围,还能为优化围术期管理提供依据。基于本研究构建的原发灶、瘤周及生境影像组学模型,可在术前对患者淋巴结转移风险进行精准评估,从而为外科医师制定个体化淋巴结清扫策略提供参考[12-13]。具体而言,对于预测为高风险的患者,建议考虑进行广泛清扫以降低术后复发风险;而对于低风险患者,则可采用有限清扫方法,从而减少手术创伤与并发症风险。此外,我们认为这一模型还有助于对患者进行风险分层管理,为进一步的临床策略选择提供重要信息。
影像组学技术通过从CT图像中提取大量定量特征,可在一定程度上揭示肿瘤的内部异质性。然而,仅依赖传统的原发灶或瘤周特征难以全面表征肿瘤微环境及其亚区差异。本研究将生境影像组学引入模型构建中,通过对CT灰度值进行K-means聚类划分肿瘤及周边区域[14],不同“生境”可能对应生物学行为迥异的不同亚区。结果显示,生境影像组学在内部验证集中取得了最高的AUC和PR-AUC,提示生境特征在评估淋巴结转移风险时具有较强的泛化能力。然而,在训练集和测试集中,原发灶影像组学在部分指标上略优于生境影像组学,反映了不同模型在外部验证和真实应用情境下可能存在性能差异,需结合多项指标进行综合评估。
此外,对关键主成分特征的可解释性分析表明,一些高权重的生境主成分可能与肿瘤浸润及转移的分子或病理特征密切相关,为进一步探讨其潜在生物学机制提供了方向。需要指出的是,本研究为单中心回顾性研究,样本量相对有限,后续仍需在多中心、大样本的前瞻性研究中验证模型的可靠性与适用性。另外,本研究仅基于常规胸部CT图像,尚未纳入增强CT或PET-CT等多模态影像数据,可能低估了更多潜在特征对预测效果的贡献[15]。今后可进一步探索多模态影像组学与其他生物标志物的整合[16],以期构建更为精准且具备更广泛应用价值的预测模型。
总之,本研究证明了生境影像组学对浸润性肺腺癌淋巴结转移风险预测具有可观的临床价值,通过与原发灶及瘤周特征相结合,形成的堆叠机器学习模型为术前精准评估与个体化治疗策略提供了新的思路,也为影像组学在肺癌领域的深入应用奠定了基础。
利益冲突:无。
作者贡献:王鸿昌负责研究设计、模型训练、文章撰写;顾炎负责数据统计分析、作图;张文豪负责影像资料收集;慕广、薛文涛、王蒙恩负责影像资料质量控制、数据整理、病灶核对、勾画;符程皓负责文章校对;陈亮负责研究指导;袁梅负责研究指导、论文审阅、病灶勾画指导;王俊负责研究设计和指导、病灶勾画指导、论文审阅、经费支持。
本文附件图见本刊网站电子版。
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)