首页 > 医疗资讯/ 正文

Nature Medicine:皮肤科的“GPT-4”时刻!200万张图像炼成全能AI,精准诊断128种皮肤病

来源 2025-06-11 12:16:19 医疗资讯

引言

你是否曾为身上一颗痣的微小变化而彻夜难眠,或因一次突如其来的皮疹而焦虑不安?在皮肤健康的“战场”上,我们每个人都可能面临困惑,而预约一位资深皮肤科专家却往往耗时耗力。然而,一个革命性的“AI超级医生”可能正将这一困境彻底改写。

6月6日《Nature Medicine》刊登了一项颠覆性研究“A multimodal vision foundation model for clinical dermatology”。一个名为 PanDerm 的多模态视觉基础模型 (multimodal vision foundation model) 横空出世。它并非普通AI,而是一位博览群书的“全科专家”,其“学识”源自对全球11家顶级医疗机构、横跨四大影像模态(临床、皮肤镜、全身摄影和病理学)的超过210万张真实皮肤图像的深度学习。

这并非科幻。在一系列严苛的直接对决中,PanDerm展现了惊人实力:在早期黑色素瘤的动态监测中,其诊断准确率超越人类皮肤科医生10.2%;在AI辅助下,它能将医生的皮肤癌诊断准确率提升11%,更能将非专科医生的常见皮肤病鉴别诊断能力提升16.5%。从癌症筛查、风险预测,到128种皮肤病的精准鉴别,它几乎无所不能。

这位AI医生是如何炼成的?它真的能成为我们触手可及的健康守护者,还是会最终取代人类医生?

图片

揭秘“AI学神”的诞生:200万张图片的魔鬼训练

在AI的世界里,模型的强大与否,很大程度上取决于它“读过多少书”。过去的皮肤科AI,更像是一个个“偏科生”,它们可能在某个单一任务上表现出色,比如仅从皮肤镜 (dermoscopy) 图像中识别黑色素瘤。但临床实践远比这复杂得多。一位真正的皮肤科医生,需要综合分析来自不同设备、不同角度的图像信息,才能做出全面准确的判断。

PanDerm的目标,就是成为一名“全科医生”。为了实现这一目标,研究团队为它准备了一份前所未有的“学习大餐”——一个包含超过210万张真实世界皮肤影像的庞大数据库。

这份数据的“豪华”程度体现在两个方面:规模与多样性。

首先是多样性。这些数据源自四大核心影像模态 (imaging modalities),完美复刻了皮肤科医生的工作流:

全身摄影 (Total-Body Photography, TBP) 图像 (占比35.3%): 这是高风险人群进行皮肤癌筛查的重要工具,AI需要从中宏观地分析全身的皮损分布和风险。

皮肤病理学 (Dermatopathology) 图像 (占比25.4%): 这是诊断的“金标准”,即显微镜下的组织切片图像。让AI学习病理图像,意味着它能从细胞层面理解疾病的本质。

临床照片 (Clinical images) (占比21.4%): 这是最常见的皮肤病图像,直接拍摄皮损及其周围区域,考验AI对宏观形态的识别能力。

皮肤镜 (Dermoscopy) 图像 (占比17.9%): 这是一种特殊的放大镜拍摄的图像,能揭示皮下的细微结构,是色素性病变诊断的关键。

这些数据并非来自单一地区,而是横跨全球,汇集了来自11个临床机构的宝贵资料,包括澳大利亚、美国、西班牙等多个国家的研究中心和医院。这意味着PanDerm学习的病例覆盖了不同人种、不同肤色、不同地区的疾病特征,为其日后的“泛化能力”打下了坚实基础。

其次是训练效率。拥有海量数据只是第一步,如何让AI高效地“消化吸收”才是关键。研究团队采用了先进的自监督学习 (self-supervised learning) 技术。简单来说,就是让AI自己在没有“标准答案”的情况下,通过图像自身的内在联系进行学习。

PanDerm的架构设计得非常巧妙,它采用了一种被称为“掩码自动编码器 (Masked Autoencoder, MAE)”的变体结构,并引入了一个强大的“导师”——CLIP模型(一种能理解图像和文字关联的超大型模型)。训练时,一部分图像被“遮盖”起来,PanDerm的任务就是根据未被遮盖的部分,精准地“复原”出被遮盖区域的深层特征。

这种训练方式的效率有多高?研究数据显示,相较于其他顶尖的自监督学习模型如DINOv2或MILAN,它们通常需要500到800个训练周期 (epochs) 才能达到最佳性能,而PanDerm仅用了200个周期就达到了巅峰状态,计算效率大幅提升。这在医疗AI领域至关重要,因为高质量的医疗数据远比互联网上的猫狗图片稀缺,高效的训练方法意味着可以用更少的资源办成更多的事。

正是通过这样一场涵盖四大模态、超过200万张图片的“魔鬼训练”,Pan-Derm这位“AI学神”才得以诞生。它不再是一个只会解一道题的“偏科生”,而是一个融会贯通,拥有了跨模态、深层次视觉理解能力的“通才”。

终极对决:28项全能挑战,PanDerm一战封神

学成之后,必须接受考验。研究团队为PanDerm设置了一场堪称“皮肤科AI奥运会”的终极挑战——在28个不同的基准测试中,与现有最先进的AI模型进行全面对决。这些任务覆盖了皮肤科临床工作的方方面面,从筛查、诊断到预后预测,无所不包。

结果如何?PanDerm几乎在所有赛道上都取得了“state-of-the-art”(即当前最佳水平)的表现,常常以显著优势胜出。

诊断准确性与泛化能力的大考

诊断是临床的核心。研究团队在10个公开数据集上测试了PanDerm的诊断能力,这些数据集来自7个不同的国际中心,涵盖了皮肤镜、临床照片、TBP和病理图像。

数据显示,PanDerm的性能令人印象深刻。

在经典的皮肤镜数据集 HAM10000 上,PanDerm的加权F1分数 (Weighted F1 score,一种综合衡量准确率和召回率的指标) 达到了0.926,相较于表现第二的模型,性能提升了4.7%。

在巴西的临床照片数据集 PAD-UFES-20 上,它的优势更加明显,性能提升高达9.0%。

更关键的是它的数据效率 (label efficiency) 和 泛化能力 (generalization ability)。

所谓数据效率,是指模型在只有少量标注数据的情况下能学得多好。在医学领域,由专家标注的数据既昂贵又稀缺。研究发现,在多个任务中,PanDerm仅使用10%的标注训练数据,就能达到甚至超过其他模型使用100%数据训练出的性能。这意味着在部署新任务时,PanDerm可以极大地减少对专家资源的依赖,加速AI应用的开发周期。

而泛化能力,则考验模型在面对一个全新环境、全新人群时,表现是否依然稳定。研究人员将PanDerm应用在7个它在训练中从未见过的外部医疗中心数据集上,进行黑色素瘤诊断测试。结果显示,PanDerm在所有7个数据集上都显著优于其他模型。特别是在三个它从未训练过的临床照片数据集上,其AUROC(Area Under the Receiver Operating Characteristic curve,衡量模型综合诊断能力的指标,越接近1越好)分别提升了4.0%、2.6%和2.1%。这证明了PanDerm学到的不是特定数据集的“应试技巧”,而是真正可迁移、可泛化的“医学知识”。

拓宽视野:从皮肤癌到128种常见皮肤病

皮肤科远不止皮肤癌。湿疹、牛皮癣、各类感染……日常生活中困扰人们的皮肤问题五花八门。PanDerm能否应对这些更广泛的挑战?

研究团队在三个覆盖了从常见到复杂皮肤病的数据集上进行了测试。其中一个名为MMT-74的数据集,包含了多达74种细分的皮肤状况。结果显示,随着疾病种类的增加,PanDerm的优势愈发突出。

在包含9种皮肤病的MMT-09数据集上,PanDerm的加权F1分数比次优模型高3.2%。

在公共数据集DermNet(23种疾病)上,优势扩大到7.1%。

而在最复杂的MMT-74数据集上,它的性能提升达到了8.2%。

这表明,PanDerm强大的特征表示能力,使其能够精准地捕捉不同疾病间的细微差别,即便是在类别繁多、极易混淆的情况下,依然能保持高水平的诊断能力。

与时间赛跑:AI如何“预见”疾病的未来?

如果说诊断是评判“现在”,那么更让研究人员兴奋的,是AI预测“未来”的潜力。PanDerm在这方面展现了两个惊人的能力:早期变化检测和转移风险预测。

火眼金睛:捕捉毫米间的早期癌变

对于可疑的色素痣,医生常采用“短期序贯数字皮肤镜检查”(short-term sequential digital dermoscopy imaging) 的策略,即在3个月左右的时间里,连续拍摄多张皮肤镜图像,通过对比观察其细微变化来判断是否需要手术切除。这种方法能有效发现早期黑色素瘤,但极度依赖医生的经验和眼力,且耗时耗力。

PanDerm被赋予了这项“动态视觉”的任务。研究团队开发了一套精密的图像处理流程,能对齐不同时间点拍摄的图像,排除光照、角度等干扰,让AI专注于病变本身的真实变化。

在一个名为SDDI1的数据集上,原始的AI变化检测准确率(以AUROC衡量)仅为0.596,几乎相当于抛硬币。而经过图像处理优化后,PanDerm将这一准确率提升到了0.706。在另一个更具挑战性的SDDI2数据集上,准确率也从0.683提升至0.767。更重要的是,在使用优化流程后,PanDerm的表现比所有其他AI模型都要好,在SDDI1和SDDI2上分别领先次优模型4.3%和3.7%。

这意味着,PanDerm能够比其他模型更可靠地识别出那些肉眼难以察觉的早期恶性变化,为患者争取到宝贵的治疗时间。

超越诊断:预测黑色素瘤的“宿命”

对于已经确诊为侵袭性黑色素瘤的患者,最大的恐惧莫过于——它会复发和转移吗?传统上,医生根据肿瘤厚度、是否溃疡等临床指标来评估风险,但并不总是那么准确。

研究团队探索了一个大胆的方向:能否仅从一张诊断时的皮肤镜图像,就预测出这颗黑色素瘤未来的转移潜力?他们在一个包含680张侵袭性黑色素瘤图像的国际多中心数据集(ComBineMel)上对PanDerm进行了测试。

结果令人震撼。

在区分“会转移”与“不转移”的二分类任务中,PanDerm的AUROC值高达0.964(95% CI为0.937-0.991),非常接近完美。

它甚至能细分出“局部转移”和“远处转移”,其表现比现有方法好2.8%。

为了验证这一预测的临床价值,研究人员进行了生存分析 (survival analysis)。他们根据PanDerm的风险评分,将患者分为“高危组”和“低危组”。结果显示,被PanDerm标记为高危的患者,其无复发生存期 (recurrence-free intervals) 显著缩短。其风险比 (Hazard Ratio) 达到了惊人的5.63,这意味着高危组的复发风险是低危组的5.6倍以上。

更令人信服的是,当把PanDerm的预测分与所有传统的临床风险因素(如年龄、性别、肿瘤厚度、溃疡等)放在一起进行多变量分析时,PanDerm的预测成为了最强、最独立的复发风险预测指标。

在3年、5年和7年的时间点上,PanDerm的预测准确性(时间依赖性AUC)分别达到了0.950, 0.931和0.909,全面超越了仅使用多项临床指标的传统模型。

这不再是简单的图像识别,而是真正意义上的“预后预测”。PanDerm仿佛拥有了一双能够洞察肿瘤恶性潜能的“眼睛”,为医生制定个性化治疗和随访方案提供了前所未有的强大工具。

最佳拍档还是终极替代?AI与人类医生的“双向奔赴”

PanDerm如此强大,是否意味着皮肤科医生即将被“取代”?为了回答这个问题,并探究AI在真实临床场景中的应用价值,研究团队精心设计了三项“人机协作”的研究。

研究一:早期黑色素瘤检测,AI vs. 医生

在这项研究中,12位人类评审员(包括7名经验丰富的皮肤科医生和5名皮肤科培训生)与PanDerm一起,分析序贯皮肤镜图像,任务是尽早发现黑色素瘤的恶性迹象。

结果是颠覆性的:在总体诊断准确率上,PanDerm比人类评审员的平均水平高出10.2%,甚至比表现最好的人类专家还要高3.6%。

在“早期发现”这一关键能力上,差距更为悬殊。对于那些最终确诊为黑色素瘤的病例,PanDerm在第一次拍摄图像时就成功识别出了其中的77.5% (89例中的69例)。而人类医生,在同一时间点,平均只能识别出32.6%。

这表明,AI在处理动态、细微的视觉变化信息时,可能比人类更敏感、更稳定,能够克服人眼易疲劳、主观性强等弱点。

研究二:AI辅助下的皮肤癌诊断,1+1>2?

第二项研究邀请了41名不同经验水平的临床医生,对包含7种不同类型皮肤病变的皮肤镜图像进行诊断。他们先独立诊断一次,然后查看PanDerm给出的概率预测后,再进行第二次诊断。

结果显示,AI的辅助作用非常显著。

医生的总体诊断准确率从未使用AI时的0.69,显著提升到了使用AI辅助后的0.80。

这种提升对于经验较少的医生尤其明显。低年资医生的准确率提升了17%,中年资医生提升了12%,而经验丰富的高年资医生也获得了6%的提升。

这意味着PanDerm可以成为一个强大的“教学工具”和“安全网”,帮助经验不足的医生快速成长,减少误诊,尤其是在基层医疗环境中。

研究三:128种皮肤病的“开放性考卷”,AI的终极考验

最后一项研究是迄今为止最全面、最接近真实临床场景的考验。研究团队邀请了37名医疗专业人员,他们被分为两组:皮肤科专家组(20人,包括皮肤科医生和培训生)和全科医生组(17人,包括全科医生、护士等)。他们需要诊断一个包含128种不同皮肤病的临床照片数据集。

这项研究得出了几个关键结论:

AI显著提升了所有人的诊断能力:在PanDerm的帮助下,所有读者的平均Top-1诊断评分从2.83分提高到3.08分(满分4分),Top-3诊断准确率从54.0%提高到63.4%。

对非专科医生的帮助更大:全科医生组在AI辅助下,Top-3诊断准确率提升了16.5%,而皮肤科专家组提升了10.3%。这再次证明了PanDerm在弥合专科医疗资源鸿沟方面的巨大潜力。

一个出人意料的发现:当研究者将PanDerm作为一名独立的“参与者”进行评估时,发现它自身的诊断准确率(Top-1评分为3.6)不仅高于无AI辅助的人类医生(2.83),甚至高于“人+AI”协作后的诊断准确率(3.08)!

这个结果引人深思。它并不意味着AI应该完全取代医生。研究者认为,这可能反映了医生在采纳AI建议时的“选择性接受”现象——他们并不会盲从AI的每一个判断,而是结合自己的知识进行权衡。这恰恰是一种健康的、负责任的人机协作模式。医生依然是决策的主体,而AI则像一个无所不知、永远不会疲劳的顾问,在旁边提供最全面的信息和最客观的建议。

不止于皮肤,PanDerm推开的“全科AI”大门

从诞生于200万张图片的学习,到在28项全能挑战中力压群雄;从精准诊断癌症,到“预见”病变未来;从超越人类专家,到成为医生的最佳拍档——PanDerm的故事,为我们描绘了一幅AI赋能精准医疗的壮丽图景。

它向我们证明,一个设计巧妙、数据丰富的多模态基础模型,能够克服过去AI模型的局限,真正满足复杂临床工作的需求。它的成功不仅仅是皮肤科领域的突破,更为其他依赖多模态影像诊断的医学专科,如眼科、放射科、病理科等,指明了一条可行的发展道路。

当然,正如研究者所强调的,PanDerm并非终点。目前的验证覆盖了约200种皮肤病,而人类已知的皮肤病超过1000种。对于罕见病、复杂系统性疾病的皮肤表现,以及在不同人种肤色间的公平性问题,还需要更深入、更广泛的研究。

但无论如何,PanDerm已经推开了通往新时代的大门。在这个时代里,AI不再是冰冷的代码或遥远的噱头,而是一位温暖、可靠、无处不在的健康守护者。它或许无法取代医生与患者之间的人文关怀,但它无疑能够将医生从繁重、重复的视觉分析工作中解放出来,让他们有更多时间去沟通、去思考、去创造,最终实现科技与医学最完美的融合。

下一次,当你再为皮肤上的一个小变化而担忧时,或许为你提供第一个专业建议的,就是像PanDerm这样不知疲倦的“AI皮肤科医生”。而这,正是科技带给我们最好的礼物。

参考文献

Yan S, Yu Z, Primiero C, Vico-Alonso C, Wang Z, Yang L, Tschandl P, Hu M, Ju L, Tan G, Tang V, Ng AB, Powell D, Bonnington P, See S, Magnaterra E, Ferguson P, Nguyen J, Guitera P, Banuls J, Janda M, Mar V, Kittler H, Soyer HP, Ge Z. A multimodal vision foundation model for clinical dermatology. Nat Med. 2025 Jun 6. doi: 10.1038/s41591-025-03747-y. Epub ahead of print. PMID: 40481209.

Tags: Nature Medicine:皮肤科的“GPT-4”时刻!200万张图像炼成全能AI,精准诊断128种皮肤病  

搜索
网站分类
标签列表