首页 > 医疗资讯/ 正文
引言
在诊断领域,深度学习技术的应用逐渐成为研究的热点,特别是在病理学(Pathology)领域。病理学是一门关键的医学科目,负责分析和解释组织样本和细胞样本,以诊断疾病。近年来,计算病理学(Computational Pathology)的发展,尤其是基于人工智能的图像分析系统,4月16日 Nature Medicine 报道的“Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning”,该研究中提到的TORCH模型,为临床诊断提供了新的视角和工具。TORCH通过整合临床病理数据和放射学图像数据,运用深度学习网络进行训练和验证,显示出了较高的准确性和诊断效能。
该研究展示了TORCH模型在预测原发性肿瘤起源(Primary Tumor Origins)方面的应用,并与传统的病理学家的诊断结果进行了比较。结果显示,TORCH在一系列测试中均表现出较高的Top-1准确率(82.6%)和Top-3准确率(98.9%),显著高于参与比较的病理学家。此外,当患者接受与TORCH预测一致的治疗方案时,其总生存期(Overall Survival)也较接受非一致治疗的患者更长。这一发现强调了AI在临床应用中的潜力,尤其是在处理临床未明确病因(Cancer of Unknown Primary, CUP)的病例中。
尽管TORCH展示了卓越的预测性能,但研究人员也指出了进一步验证该模型在随机对照试验中表现的必要性。此外,该研究也探讨了不同的样本采集位置(Specimen Sampling Site)和疾病种类对模型准确性的影响,显示出在不同疾病和样本类型中的表现差异,为未来优化模型提供了重要的方向。
TORCH不仅提升了病理诊断的准确性,也为病理学家提供了有力的辅助工具,尤其是对于初级病理学家在复杂病例的诊断中显示出明显的帮助。这项技术的进步不仅可能改变病理学的实践方式,也为患者提供了更为精准和个性化的医疗方案。随着技术的不断进步和验证,未来在更多临床场景中应用这类智能诊断工具,将有望显著提高疾病诊断和治疗的效率和效果。

Highlights
该研究旨在通过使用基于细胞学的深度学习模型TORCH,来预测原发部位未知的肿瘤(Cancer of unknown primary, CUP)的起源。通过分析57,220个来自四所三级医院的细胞学图像,研究团队开发了这一可以识别恶性病变并预测肿瘤起源的方法。
TORCH在内部和外部测试集上展示了出色的性能,其AUROC(Area under the receiver operating curve)值介于0.953至0.991之间。特别是,在预测肿瘤起源的准确性方面,TORCH显示出了高于病理医生的预测效果,其中一级准确率(top-1 accuracy)达到了82.6%,三级准确率(top-3 accuracy)高达98.9%。
当肿瘤的初步治疗方案与TORCH预测的起源一致时,患者的总体生存期显著优于接受不一致治疗的患者(27个月对17个月,P=0.006)。这一结果突出了TORCH作为辅助临床实践工具的潜力。
与病理医生的结果相比,TORCH在预测肿瘤起源方面展示了更高的预测效率,尤其是在帮助初级病理医生提高诊断得分方面(1.326对1.101,P<0.001)。此外,使用TORCH的辅助诊断可以显著提高初级病理医生在识别和处理CUP病例时的准确性和效率。

TORCH模型框架。
a,从三所大型三级转诊医院获取了总共42,682例病例,其中70%(即29,883例)被用作训练集。这些训练数据包括来自放射成像部门、医疗记录系统和病理数字数据库的临床病理数据。
b,诊断过程中,大多数图像放大倍数为×200或×400。
c,深度学习网络的目标是将目标图像分为五个类别,分类是根据最高预测概率得分来确定的。分类结果在四个机构进一步验证,包括三个内部测试集(n=12,799)和两个外部测试集(n=14,538)。(Credit: Nature Medicine)
Strategies
该研究使用了一种基于深度学习的方法(deep-learning method),名为TORCH,来预测未知原发部位癌症(Cancers of unknown primary, CUP)的肿瘤起源。研究者利用来自四家三级医院的57,220例细胞学图像(cytological images)作为数据集,这些图像涵盖了胸腔积液(hydrothorax)和腹水(ascites)的样本。
TORCH模型训练的基础是使用了深度卷积神经网络(deep convolutional neural networks),这种网络能够从细胞学图像中学习到区分肿瘤类型和起源的特征。研究中涉及的神经网络模型分别针对12种不同类型的肿瘤训练,包括食管癌、胃癌、肠癌、结直肠癌、肝癌、胆囊癌、胰腺癌、子宫和阴道癌、卵巢及输卵管癌、乳腺癌、肺和上呼吸道癌、血液和淋巴系统癌症。
模型的效果通过三个内部测试集(internal testing sets)和两个外部测试集(external testing sets)进行验证。内部测试集和外部测试集的数据来源相同医院,但是患者和图像是独立的。模型在测试集上的表现通过AUROC来评估,AUROC值在0.953到0.991之间变动,显示出很高的诊断准确性。
Behind the Scenes
未知原发部位癌症(Cancer of Unknown Primary, CUP)
CUP是一种特殊类型的癌症,指的是当医生通过初步的体检和影像学检查无法确定癌症的原始发生位置时的情况。在CUP中,癌细胞已经扩散到身体的其他部分,但其原发部位仍然无法识别。这种类型的癌症占所有癌症诊断中的大约3%-5%。根据美国癌症协会(American Cancer Society),CUP的患者中位生存时间相对较短,中位生存期通常不超过一年。大约25%的患者存活时间超过一年,而只有少数患者能存活超过五年。
诊断的挑战
CUP的诊断极具挑战性,因为癌症的治疗通常依赖于确定癌症的起源。由于原发部位未知,医生需要采用更广泛的检测方法来试图确定癌细胞的类型和可能的原发位置。这包括使用高级的影像学技术(如PET扫描)、免疫组化检查(Immunohistochemistry, IHC)、以及基因测序技术等。
治疗的复杂性
CUP的治疗策略依赖于患者的具体病情和已知的癌细胞特征。治疗可能包括化疗(Chemotherapy)、放疗(Radiotherapy)、靶向治疗(Targeted therapy)或免疫治疗(Immunotherapy)。由于缺乏有关原发癌位置的具体信息,治疗方案常常需要个体化和适应性调整。
TORCH模型的优势
高准确性(High Accuracy)
TORCH模型在内部和外部测试集上表现出了极高的诊断准确率。在五个测试集上,模型的一级准确率(Top-1 Accuracy)为82.6%,二级准确率(Top-2 Accuracy)为95.9%,三级准确率(Top-3 Accuracy)为98.9%。这表明TORCH模型能够在多数情况下准确预测肿瘤的原发部位,尤其是在一级预测中表现优异。
改进的性能指标(Improved Localized Performance Metrics)
TORCH模型在不同的癌症类型中表现出特定的优越性。例如,在腺癌(Adenocarcinoma)组中,模型的AUROC达到0.942,相比于非腺癌组的0.925表现更佳,统计学意义显著(P = 0.002)。这种针对性的优化使得TORCH在特定癌症诊断中更为准确。
对病理学家的辅助效果(Assistance to Pathologists)
与经验丰富的病理学家相比,TORCH显示出更高的诊断得分(1.677对1.265,P < 0.001)。此外,它也显著提高了初级病理学家的诊断能力,从而提高整体医疗质量。对初级病理学家而言,使用TORCH后,他们的诊断得分从1.101提升至1.326(P < 0.001),特别是在消化系统癌症的诊断中,准确率从78.8%提升至89.3%。
鲁棒性和泛化能力(Robustness and Generalization)
TORCH模型通过集成多个深度神经网络(Deep Neural Networks)和多种输入类型,显示出良好的泛化能力和跨医院数据的一致性。即使在不同医院的测试集上,模型的表现也维持在高标准,例如所有五个测试集的微平均一对多AUROC值为0.969,展现了模型的高度稳定性和可靠性。
病理学特征解读能力(Interpretability of Pathological Features)
TORCH不仅能预测癌症,还能通过解读细胞学图像(Cytological Images)中的病理学特征(如腺管结构、乳头状结构等)来辅助医生更好地理解疾病本质。这种模型的解释能力对于提高诊断的透明度和可信度至关重要。
TORCH模型开发难点
数据采集与处理(Data Collection and Processing) :TORCH模型的一个主要难点在于大规模且高质量的细胞学图像数据的采集和处理。研究团队从四家三级医院收集了57,220例病例的细胞学图像,这需要极其严谨的数据标准和高效的数据处理流程。细胞图像的质量、标注的准确性直接影响模型训练的效果和预测的准确性。此外,处理如此大量的数据集还需有效的数据存储和管理系统支持。
模型训练与验证(Model Training and Validation) :模型的训练涉及到复杂的深度学习网络和大量的计算资源。研究中使用了四种不同的深度神经网络在三种不同类型的输入上训练,产生了12种不同模型。每个模型都需要在硬件资源如DGX A100计算服务器上进行高效训练。此外,模型验证在内部测试集和外部测试集上进行,涉及大量的性能指标评估,如AUROC和准确率的计算,这些都需要严格的统计方法和验证策略。
模型泛化能力与解释性(Model Generalization and Interpretability) :保证模型在不同的医疗环境中都能保持较高的诊断性能是另一个挑战。TORCH在五个测试集上的表现显示了其较好的泛化能力,但每个模型在不同测试集间的表现仍有波动。此外,模型的解释性也是重要的研究方向,需要确保医生能理解模型的预测依据,这对于提高临床接受度和实用性至关重要。
临床集成与伦理考虑(Clinical Integration and Ethical Considerations) :将AI模型如TORCH集成到现有的医疗实践中,需要考虑到操作的复杂性、医生的培训以及患者的接受度等多方面因素。同时,使用人工智能在医疗诊断中引入的伦理问题,如患者数据的隐私保护和AI决策的透明度,都需要严格的法规和指导方针来规范。
潜在的局限性
样本限制 (Sample Limitation)
该研究使用的样本均来自四家大型三级医院,这可能会限制模型的普适性,因为这些样本可能不代表其他地区或国家的患者群体。
外部验证的不足 (Insufficient External Validation)
虽然TORCH模型在内部测试集上表现良好,但外部验证的样本数量相对较少,可能影响结果的广泛适用性。
未考虑临床环境的多样性 (Lack of Diversity in Clinical Settings)
研究中未考虑到不同临床环境下的应用,如不同的实验室条件和操作人员的技能差异,这可能会影响模型在实际应用中的表现。
数据集中的不平衡 (Imbalance in Dataset)
数据集中某些癌症类型的样本数量可能存在不平衡,这可能导致模型在识别少数类别的癌症类型时表现不佳。
高低确定性病例的处理 (Handling of High and Low Certainty Cases)
高低确定性病例的分类标准可能影响模型的训练和测试效果,且对于低确定性病例的诊断可能不够准确。
技术的复杂性 (Technical Complexity)
深度学习模型的复杂性可能限制了其在一些资源有限的临床环境中的应用,因为这些环境可能缺乏进行高效计算的硬件设备。
潜在的研究方向
增强模型泛化能力
未来可考虑提高TORCH模型的泛化能力。当前研究中,虽然TORCH在内部和外部测试集上显示出了良好的诊断性能,但是为了适应更广泛的临床环境,增强模型在不同人种、不同地理位置患者样本上的适应性和准确性仍是关键。
实验设计的多样化
可关注实验设计的多样化(Diversification of experimental design)。例如,可以通过随机对照试验(Randomized Controlled Trials, RCTs)来验证TORCH模型的临床应用效果,从而提供更加坚实的证据支持其在实际临床环境中的有效性和安全性。
模型解释性的提高
增强模型的解释性(Enhancing model interpretability)可能也是未来的研究重点。虽然深度学习模型在图像识别方面表现出色,但其“黑盒”特性使得临床应用时难以解释具体的决策逻辑。未来的研究可以探索如何提高模型的透明度和医生的信任度,例如通过可视化技术展示模型是如何识别和分类不同肿瘤的。
扩大训练和测试数据集
扩大训练和测试数据集的规模和多样性(Expanding the size and diversity of datasets)。未来的研究可以集成更多医疗机构的数据,包括不同类型的癌症和更广泛的地理区域,以提高模型的鲁棒性和适应性。
结合临床数据的多模态学习
探索结合临床数据的多模态学习(Multimodal learning integrating clinical data)。模型目前主要依赖影像数据,未来可以通过整合患者的基础病史、实验室测试结果等多种数据源,来进一步提升诊断的准确性和模型的实用性。
原文链接
Tian F, Liu D, Wei N, Fu Q, Sun L, Liu W, Sui X, Tian K, Nemeth G, Feng J, Xu J, Xiao L, Han J, Fu J, Shi Y, Yang Y, Liu J, Hu C, Feng B, Sun Y, Wang Y, Yu G, Kong D, Wang M, Li W, Chen K, Li X. Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning. Nat Med. 2024 Apr 16. doi: 10.1038/s41591-024-02915-w. Epub ahead of print. PMID: 38627559.
https://www.nature.com/articles/s41591-024-02915-w
- 搜索
-
- 1000℃Cell | 曾泽贤/潘登/冯驭团队开发SPAC-seq新技术,实现空间分辨率下高通量CRISPR筛选
- 1000℃福建师范大学ACS Nano:人工智能驱动的Janus敷料用于可视化伤口诊疗
- 1000℃中科院苏州纳米所ACS Nano综述:通过可穿戴AI接口学习人类-环境交互
- 1000℃Cancer Discov | 新型AI基础模型可根据基因型精准预测癌症治疗反应,涵盖10种实体瘤超3万个肿瘤基因组数据
- 1000℃新加坡国立大学/复旦大学《自然·通讯》:抗氧化脂质纳米颗粒增强mRNA稳定性用于再生治疗和基因编辑
- 1000℃489例疑似罕见遗传病患者进行全外显子测序WES:确诊率达53%,5.5%检出心血管或肿瘤相关基因变异
- 1000℃Nat Cancer | 基于组织病理学图像的AI模型可快速识别102种CNS肿瘤亚型,表现优于神经病理学家
- 1000℃国立清华大学《自然·通讯》:工程化人类PEG10纳米颗粒实现RNA自包装、递送与癌症治疗
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)