首页 > 医疗资讯/ 正文

Nat Commun:俞章盛/张岳团队开发基于组织病理学图像的癌症诊断和生存预测AI基础模型

来源 2025-03-15 12:09:04 医疗资讯

组织病理学图像分析被认为是癌症诊断的金标准,但依赖于病理学家的传统人工诊断方法既耗时又繁重,如果诊断经验不足还会导致漏诊和误诊,严重影响患者的后续治疗。计算病理学和人工智能(AI)的进步为使用十亿像素切片进行客观诊断、预后和治疗反应预测提供了可能。虽然基于深度学习的计算病理学在各种病理任务中显示出良好的前景,但自然图像和病理图像之间的内在差异、训练数据的稀缺性、不同癌症类型的形态学差异等因素影响了模型的分析性能和跨癌症任务的适应。相比之下,计算病理学的基础模型(训练策略包括监督学习和自监督学习)是通过对大量无监督的数字病理图像进行预训练而建立,即使面对多个任务也能始终实现高性能。

近日,上海交通大学俞章盛教授联合张岳团队展示了一个先进的、基于自监督学习的基础模型BEPH(BEiT-based model Pre-training on Histopathological image),并系统评估了其在各种癌症检测任务中的性能和通用性。该成果发表在Nature Communications上,文章题为“A foundation model for generalizable cancer diagnosis and survival prediction from histopathological images”。

图片

BEPH模型利用自监督学习从1100万张未标记的组织病理学图像中学习有意义的表征,这些表征可有效地适应各种任务,包括补丁级癌症诊断、WSI级癌症分类和多种癌症亚型的生存预测。与最先进的模型相比,BEPH在这些任务中始终实现了卓越的性能。BEPH提供了一种有效的解决方案,以提高模型性能,减少对专家注释的依赖,并促进AI在临床环境中的更广泛应用。该预训练模型可在https://github.com/Zhcyoung/BEPH上获得。

为高效地训练BEPH,研究团队利用先进的自监督学习技术对来自ImageNet-1k的自然图像和收集的病理图像进行预训练,并在TCGA上进一步预训练,以学习病理图像的广义表征。随后在一系列具有挑战性的分类和预测任务上对BEPH进行了微调,包括经典的补丁级癌症诊断、全切片图像(WSI)水平的分类(重点是肾细胞癌(RCC)亚型、非小细胞肺癌(NSCLC)亚型和非特异性浸润性乳腺癌(BRCA)亚型分类)以及BRCA、CRC、CCRCC、PRCC、LUAD和STAD的生存预测任务。(图1)

图片

图1. BEPH架构概述。

在补丁级分类任务中,在患者水平和图像水平上,BEPH的平均准确率分别为94.05±1.3875和93.65±0.6730,比最新报道的卷积神经网络模型(Deep、SW31、GLPB、RPDB)和弱监督模型(MIL-NP、MILCNN)高5-10%;比自监督模型(MPCS-RP)的最佳性能高出1.9%和1.5%。与其他算法相比,BEPH在图像级和患者级的特定放大水平下始终表现出更高的性能。

此外,在不同癌症中的泛化应用分析显示,BEPH在三种肺癌亚型中实现了99.99%±0.03的平均准确率(图2e),高于其他任何已报道的模型,表明BEPH模型能有效地泛化到多种癌症类型。

与目前性能最好的算法使用的图像修补策略不同,研究团队将图像缩小了3.125倍至224×224像素,导致大量图像细节的损失。虽然如此,但以上结果表明,BEPH对图像放大倍数和癌症类型的变化具有鲁棒性,这使其可能适用于广泛的癌症研究。

图片

图2.对公开可用的补丁数据集进行性能评估。

在WSI分类任务中,研究团队训练了一个基于多实例学习(MIL)的自监督特征提取器的弱监督子类型分类模型。在RCC、BRCA、NSCLC临床诊断中的WSI水平分类性能分析显示,

该模型的AUC分别为0.994±0.0013、0.946±0.019、0.970±0.0059,显著优于在自然图像或病理图像上进行预训练的相应模型。(图3)该结果表明BEPH是一种具有较强稳定性和泛化能力的自监督学习模型,能有效地从大规模的切片图像中学习有价值的特征和模式,从而实现对癌症病理变化的准确识别和分类。

图片

图3.在WSI水平独立测试集上的弱监督分类结果。

在标签检测效率分析中,当训练数据减少到原始大小的25%,同时保持测试数据集不变时,BEPH模型的性能仍然优于其他弱监督模型。此外,在~50%的训练数据下,BEPH的性能与在100%数据上训练的弱监督模型的性能相当。以上结果表明,BEPH能够有效地容忍数据稀缺,减轻了与预训练和下游任务数据收集相关的挑战。

生存预测模型的建立有助于提高临床医生对患者预后的评估能力。为此,研究团队训练了一个基于自监督特征提取器和弱监督的生存风险回归模型CLAMSurvival。与弱监督模型相比,BEPH在六种不同癌症类型(BRCA、CRC、CCRCC、PRCC、LUAD和STAD)的所有模型中的预测能力均为最优;与其它基础模型相比,BEPH表现出优异和一致的性能,并在区分高风险和低风险患者方面具有优势。这表明BEPH能够良好识别与生存相关的模式,并能更好地预测患者的生存,并且不需要对组织病理图像或基因组等附加信息进行注释,这使其更适合实际应用。

图片

图4.生存预测。

此外,经过有限的下游任务训练,BEPH生成了与病理学家注释相匹配的局部肿瘤热图。结合二维特征散点图,表明使用组织图像进行掩码图像建模预训练增强了模型对特定组织特征的关注。

图片

图5.BEPH模型的可解释性和可视化。

BEPH是一种利用未标记病理图像训练的自我监督基础病理模型。经验证评估,BEPH在癌症检测任务中有着广泛的应用,不仅可以执行补丁级癌症诊断分类任务,也能将整个组织病理图像作为输入,并对WSI分类任务执行弱自我监督。此外,在有临床信息的情况下,BEPH还可以转化为生存预测模型来预测患者的预后。BEPH的开发为使计算病理学更广泛地应用于临床和研究环境提供了参考。

论文原文:

Yang, Z., Wei, T., Liang, Y. et al. A foundation model for generalizable cancer diagnosis and survival prediction from histopathological images. Nat Commun 16, 2366 (2025). https://doi.org/10.1038/s41467-025-57587-y

Tags: Nat Commun:俞章盛/张岳团队开发基于组织病理学图像的癌症诊断和生存预测AI基础模型  

搜索
网站分类
标签列表