首页 > 医疗资讯/ 正文

Nature:不止是“看片”高手!全开放AI模型Ark+,或将重塑未来医学影像诊断

来源 2025-06-23 12:14:55 医疗资讯

引言

在现代医学中,胸部X光片 (Chest Radiography, CXR) 无疑是应用最广泛、最基础的检查手段之一。从肺炎、肺结核到心脏问题,乃至骨折,这张小小的黑白影像承载着诊断疾病的关键信息。然而,准确解读X光片需要经验丰富的放射科医生,这项工作不仅耗时耗力,而且在全球范围内,专家资源分布极不均衡。

人工智能 (Artificial Intelligence, AI) 的崛起为我们带来了曙光。深度学习模型 (deep learning models) 在自动解读X光片方面展现出巨大潜力,但现有的模型大多像一个个“偏科生”,它们或诊断范围狭窄,或在新环境中水土不服,或面对罕见病便束手无策。更重要的是,许多性能顶尖的模型如同被锁在“黑箱”之中,其核心代码和数据并不公开,阻碍了科学界的协同创新。

我们能否创造一个“六边形战士”般的AI模型?它不仅要看得准、看得全,还要能够不断学习、适应新环境,并且完全开放,让全球的研究人员都能在其基础上添砖加瓦?

近日,一篇发表于《Nature》的重磅研究“A fully open AI foundation model applied to chest radiography”给了我们一个响亮的答案。该研究介绍了一个名为 Ark+ 的全新AI基础模型 (foundation model)。它如同一艘知识的方舟,通过巧妙地“博采众长”,从全球多个公开数据集中学习异构的专家知识,展现出了前所未有的诊断性能和适应能力。该研究告诉我们,一个完全开放、协同构建的AI,其力量甚至可以超越那些依赖海量私有数据训练的“闭源”巨头。

图片

AI界的“武林盟主”是怎样炼成的?

想象一下,你想培养一位武学宗师。你是让他拜一位绝顶高手为师,闭门苦练,还是让他游历江湖,遍访名门正派,学习各家武学之长?Ark+的缔造者们选择了后者。他们认为,AI模型的强大,不应仅仅依赖于“喂”给它海里的数据,更关键的是知识的多样性。

Ark+的核心思想:知识的累积与复用

Ark+的训练哲学可以用八个字概括:循环累积,复用知识 (cyclically accruing and reusing the knowledge)。研究人员没有试图去建立一个大一统的“标准答案”,强行将不同来源、不同标注风格的专家知识“捏”在一起,而是设计了一套巧妙的“师徒制”学习框架。

在这个框架中,有一个“学生模型” (student model) 和一个“老师模型” (teacher model)。

“学生模型”的任务是去“游学”。它会依次浏览来自全球各地的六个大型公开胸部X光数据集,这些数据集就像不同的“武林门派”。例如,来自美国的MIMIC-II、CheXpert、ChestX-ray14和RSNA Pneumonia数据集,来自越南的VinDr-CXR数据集,以及来自中国的Shenzhen数据集。这些数据集加起来包含了超过 70万 张X光片,每一张都附带着不同专家团队的诊断标签。

循环学习的过程是这样的:学生模型首先来到第一个“门派”(比如MIMIC-II数据集),学习这里的专家是如何诊断疾病的。学完一个周期后,它会将所学到的“武功心得”通过一种名为“指数移动平均” (Exponential Moving Average, EMA) 的方式,传授给“老师模型”。

“老师模型”的作用就像一位总教头。它会吸收学生从各个门派学来的知识,不断优化自身的“武学典籍”。当学生去下一个“门派”(比如CheXpert数据集)学习时,这位见多识广的老师就会在一旁指导,帮助学生更快、更好地领悟新知识,并与已学知识融会贯通。

这个过程周而复始,学生不断地从新的数据集中学习,老师则不断地累积和提炼所有知识。这种设计的好处是显而易见的:它尊重了知识的异质性。不同医院、不同国家的医生,他们的诊断习惯和标注侧重点可能存在差异。Ark+并不强求统一,而是让模型在学习过程中自然地理解和融合这些多样化的专业知识。

最终,经过50个周期的“游学”和“修炼”,老师模型集各家之所长,成长为一位知识渊博、能力超群的“武林盟主”。这个训练完成的老师模型,就是Ark+的核心。它拥有三个可以随时调用的“法宝”:一个强大的编码器 (encoder)、一个投影器 (projector) 和多个针对不同任务的多任务头 (multi-task heads),可以灵活地应用于各种临床诊断场景。

初出茅庐便技惊四座:Ark+的“高考”成绩单

一个模型吹得再天花乱坠,最终还是要靠实力说话。为了检验Ark+的真实水平,研究人员为其安排了一场堪称AI界“高考”的严格测试。考场,就设在了著名的公开数据集ChestX-ray14上。这个数据集包含了14种常见的胸部疾病,是行业内公认的“黄金标准”测试集。

研究人员将Ark+与另外五个赫赫有名的“重量级选手”同台竞技,包括同样由专家知识监督学习的CXR-FM和ELIXR,以及三个依靠自监督学习 (self-supervised learning) 成长起来的模型:RAD-DINO、MIM-CXR和CheSS。

评估AI模型性能,有一个核心指标叫做AUC (Area Under the ROC Curve)。简单来说,AUC值越接近1,代表模型区分“有病”和“没病”的能力越强,诊断越准确。

精调 (Fine-tuning) 对决:开放的力量

首先进行的是“精调”比赛。这相当于允许所有“考生”根据考纲(即ChestX-ray14的训练数据)进行针对性复习,然后参加考试。这对模型的要求最高,考验的是其学习和适应新知识的极限能力。

比赛结果令人震撼。在这场高手对决中,Ark+取得了平均AUC为 84.43% 的最高分,全面领先所有对手。

相较于同样强大的监督学习模型,Ark+的优势十分明显。它比紧随其后的RAD-DINO高出 0.89 个百分点,比MIM-CXR高出 1.35%,更是将CheSS甩开了 3.97 个百分点。这看似微小的百分比差异,在庞大的临床应用中,可能意味着成千上万的病人能否得到更准确的诊断。

更值得注意的是,Ark+与CXR-FM的比较。CXR-FM是一个性能非常强大的闭源模型,由于其模型不公开,无法进行精调。Ark+作为一个完全开放的模型,其精调后的成绩充分证明了“开放”的价值。开放,意味着任何研究者都可以拿到模型,并根据本地的特定需求进行优化,从而释放出模型最大的潜力。闭源模型则像一个无法打开的“黑匣子”,用户只能使用其固定功能,无法进行深度定制。

线性探测 (Linear-probing) 对决:基础的较量

如果说精调是考验模型的“学习潜力”,那么线性探测就是考验模型的“知识基础”。在这个环节,模型的核心部分(编码器)被“冻结”,只允许在其之上训练一个简单的分类器。这就像一场闭卷考试,完全考察模型在预训练阶段学到的知识有多扎实。

在这场“基础知识”竞赛中,Ark+再次拔得头筹。它的表现依然是所有模型中最出色的,稳定地排在第一位。有趣的是,另一个监督学习模型CXR-FM位居第二。这两者都显著优于那三个自监督学习模型。

这个结果揭示:在医学影像领域,源自人类专家的标注知识,其价值是不可估量的。自监督学习虽然巧妙,能让AI从无标签的数据中自己找规律,但在需要高度专业判断的医疗任务中,直接从顶级专家的诊断经验中学习,效率更高,效果也更直接。

无论是考验学习潜力的精调,还是考验知识基础的线性探测,Ark+都以无可争议的优势证明了自己。这份“高考”成绩单,不仅是其强大性能的体现,更是其背后“博采众长,开放共享”理念的胜利。

火眼金睛:当AI比专家看得更准

一个顶级的AI医生,不仅要能做出准确诊断,还要能发现他人忽略的细节,甚至修正可能的错误。Ark+凭借其独特的多任务头设计,展现了这种“火眼金睛”般的洞察力。

在Ark+的“武库”中,为每个训练数据集都配备了一个专属的任务头。比如,有CheXpert头、ChestX-ray14头、VinDr-CXR头等。当诊断一张新的X光片时,这些任务头会“七嘴八舌”地给出自己的诊断意见。这不仅扩大了诊断范围,还能形成一种“交叉验证”机制,有效纠正潜在的误诊。

研究人员展示了两个极具说服力的真实案例。这两个案例中的原始诊断标签来自ChestX-ray14数据集,是由自然语言处理技术从放射学报告中提取的。当Ark+的诊断与原始标签不一致时,一位拥有30年临床经验的资深心肺放射学专家介入,进行了最终裁决。

案例一:从“无异常”到“发现异常”

第一张X光片,其官方标签是“无异常” (No finding)。然而,Ark+却给出了不同的诊断:它认为病人存在肺不张 (Atelectasis),并且体内有一个支持设备 (Support devices)

这是AI出错了,还是原始标签有误?资深专家仔细审阅了影像和Ark+的预测后,给出了最终结论:Ark+是正确的!

专家的注释写道:“在右肺底部观察到肺不张。同时,影像中清晰可见一根左上肢的PICC导管(经外周静脉穿刺中心静脉置管),这正是一种支持设备。”

这个案例的意义非同小可。它表明Ark+不仅成功诊断出了一个被原始标签忽略的病症,还凭借从CheXpert数据集中学到的知识,识别出了原始数据集并未标注的“支持设备”。这极大地扩展了模型的诊断能力,使其更贴近真实的临床需求。

案例二:从“误诊”到“纠正诊断”

第二张X光片,官方标签指示为“水肿” (Edema),即肺部有液体积聚。然而,Ark+的多个任务头,特别是CheXpert头和VinDr-CXR头,都一致认为“无异常”。

再次请出专家进行仲裁。专家审阅后,再次站在了Ark+这一边。专家的意见是:“未见肺部液体积聚(水肿)的迹象。影像整体正常。

这个案例同样精彩。它展示了Ark+纠正人类专家(或生成标签的算法)可能出现的过度诊断的能力。在临床中,过度诊断同样有害,可能导致不必要的治疗和患者焦虑。Ark+通过整合来自多个不同来源的专家知识,形成了一种更稳健、更平衡的判断力,能够“滤除”那些不确定的、可能错误的诊断。

这两个案例生动地证明,Ark+不仅仅是一个被动执行指令的工具,它更像一个拥有广博知识和批判性思维的“AI诊断顾问”,能够提供更全面、更准确、更可靠的诊断意见。

不止于学霸,更是全能进化者

医学知识日新月异,新的疾病不断出现,诊断标准也在演进。一个固步自封的AI模型很快就会被时代淘汰。因此,“适应性” (adaptability) 是衡量一个基础模型是否优秀的关键标准。Ark+在这方面的表现,堪称“全能进化者”。

挑战一:适应不断演进的诊断需求

在真实的临床环境中,医生不仅需要知道病人“有没有病”(全局诊断),更想知道“病灶在哪里、具体是什么”(局部诊断)。研究人员用越南的VinDr-CXR数据集给Ark+出了一道难题。

在预训练阶段,研究人员“故意”只让Ark+学习了VinDr-CXR数据集中6个全局 (image-level) 诊断标签,而将其余22个更精细的局部 (lesion-level) 病灶标签“藏”了起来。也就是说,Ark+在训练时并不知道这些局部病灶的存在。

测试时,研究人员要求Ark+直接对这22种它“从未学过”的局部病灶进行诊断。这相当于考一个只学了“语文”的学生“数学”。

结果令人惊叹。在对全部27个标签(6个全局+21个局部,其中一个局部标签因测试集无样本而未评估)的综合测试中,Ark+的平均AUC达到了 94.06%,显著优于同样条件下测试的另一个强大模型CXR-FM (93.55%)。

在它“学过”的6个全局标签上,Ark+的表现堪称完美,所有标签的AUC均在90%以上,全面超越CXR-FM。在它“没学过”的21个局部标签中,Ark+在17个标签上的AUC超过了90%,并在14个标签上战胜了CXR-FM。特别是在那些常见的胸部疾病上,如肺不张、心脏扩大、肺炎等,Ark+的表现尤为出色。

这个实验有力地证明,Ark+拥有强大的知识迁移和泛化能力。它在学习全局诊断的同时,已经潜移默化地掌握了识别局部病灶的深层特征。这意味着,当临床上出现新的诊断需求时,我们不需要对模型进行大规模的重新训练,只需简单的适配,Ark+就能快速上手,极大地节约了时间和成本。

挑战二:从极少量样本中学习罕见病

罕见病的诊断是临床上的一大痛点,因为病例稀少,可供AI学习的样本更是凤毛麟角。一个基础模型能否从极少的几个样本中学会识别罕见病,是其临床实用价值的试金石。这种能力被称为“小样本学习” (Few-shot learning)。

研究人员从MIMIC-II数据集中挑选了三种罕见病:皮下气肿 (subcutaneous emphysema)主动脉迂曲 (tortuous aorta) 和 气腹 (pneumoperitoneum)。他们进行了一项“k-shot”实验,即只给模型提供k个(k从1到5不等)罕见病样本和k个正常样本进行学习,然后测试其诊断能力。

实验结果的盒须图 (box plots) 清晰地显示,在所有实验设置中,Ark+的表现都持续优于CXR-FM。它的AUC中位数更高,四分位距更窄,意味着其性能不仅更强,而且更稳定。

例如,在诊断“皮下气肿”时,仅用5个样本学习,Ark+的AUC中位数就接近 80%,而CXR-FM则在70%左右徘徊。对于“主动脉迂曲”和“气腹”,Ark+的优势同样显著。

这表明,Ark+在预训练阶段积累的广博知识,为其构成了一个非常坚实的“知识底座”。当遇到新的罕见病时,它不需要从零开始,而是能迅速将新知识与已有的知识体系关联起来,实现高效学习。这种“举一反三”的能力,对于攻克罕见病诊断难题,具有不可估量的价值。

身处“泥潭”而独善其身:Ark+的稳健性 

真实的医疗数据世界,远非理想化的实验室可比,它充满了各种挑战,如同一个“泥潭”。一个模型只有在这些复杂环境中依然能保持高性能,才算得上真正的稳健。

挑战一:应对“长尾分布”的挑战

在临床上,疾病的发生频率极不均衡。少数几种常见病(如肺炎)构成了“头部”,而大量的罕见病则构成了长长的“尾巴”,这就是所谓的“长尾分布” (long-tailed distribution)。这对AI模型是一个巨大的挑战,因为模型很容易“偏心”,只关注学习常见病,而忽略罕见病。

为了检验Ark+应对这一挑战的能力,研究人员使用了一个专门为此设计的“地狱难度”数据集——ChestDR。该数据集包含了19种胸部疾病,其样本量分布极不均衡。

在这场严苛的考验中,Ark+再次展现了其王者风范。通过精调,Ark+在19种疾病上的平均AUC达到了 86.55%,显著高于所有其他对比模型,包括RAD-DINO (82.73%)、MIM-CXR (78.03%) 和CheSS (75.86%)。

更有趣的是关于“标签效率” (label efficiency) 的实验。研究人员逐步减少用于训练的样本数量,从100%一直减少到5%(仅48个样本)。结果发现,在数据量极少的情况下(例如5%和10%),Ark+的线性探测性能甚至超过了精调。这说明Ark+的预训练学到的特征非常强大。最关键的是,在所有数据量设置下,Ark+的表现都显著优于CXR-FM。特别是在只用5%的训练数据时,Ark+的线性探测AUC比CXR-FM高出了惊人的 11.29%

这意味着Ark+不仅性能强大,而且“勤俭持家”,在数据资源有限的情况下,能发挥出远超同类模型的效能。这对于数据稀缺的研究领域和医疗机构而言,无疑是巨大的福音。

挑战二:打破“性别偏见”的魔咒

AI的公平性是近年来备受关注的伦理问题。如果训练数据中存在偏见(比如男女比例失衡),模型很可能会“学会”这种偏见,导致对少数群体的诊断性能下降。

研究人员进行了一项巧妙的实验来测试Ark+的“性别稳健性”。他们使用CheXpert数据集,该数据集包含了性别信息。他们分别建立了“纯男性训练集”和“纯女性训练集”。然后,他们用“纯男性训练集”训练出的模型去测试女性数据,反之亦然。如果模型的性能在这种“交叉测试”中没有显著下降,就说明它没有产生严重的性别偏见。

结果非常令人鼓舞。在总共12种疾病的24项测试中,Ark+在其中的 13项 测试中表现出无偏见,是所有模型中表现最好的。作为对比,CXR-FM有8项无偏见结果,MIM-CXR只有5项,而CheSS则更少,只有4项。

这些数据显示,Ark+似乎天生就对数据偏见有更强的“免疫力”。这可能得益于其从多个异构数据集中学习的策略,多样化的数据源在一定程度上中和了单一数据集可能存在的偏见。这一特性对于构建一个公平、可信、负责任的医疗AI至关重要,确保AI能为所有人群提供同等高质量的医疗服务。

Ark+的星辰大海:开启医疗AI的开源新纪元

Ark+的故事到这里并没有结束,它的征途是星辰大海。作为一个基础模型,它的价值不仅在于当前的强大性能,更在于其无限的“可扩展性” (extensibility) 和其所代表的开放精神。

应对未知挑战:从容面对新冠 (COVID-19)

2020年初,新冠疫情席卷全球,给医疗系统带来了前所未有的冲击。在疫情初期,快速准确的筛查手段至关重要。胸部X光片成为了一个重要的辅助诊断工具。这对当时的AI模型提出了一个全新的挑战:能否快速适应并学会诊断这种前所未见的“新型疾病”?

研究人员用COVIDxCXR-3数据集来评估Ark+的应急反应能力。要知道,Ark+在最初的预训练中,从未见过任何一张新冠病毒感染者的X光片。

即便是“裸考”,Ark+的表现也相当不错,通过精调后的准确率 (Accuracy) 达到了 98.83%,已经超过了许多专门为新冠诊断设计的模型。而当研究人员对Ark+进行“增量学习”,将新冠数据加入其训练体系,升级为 Ark++covid 后,其性能更是达到了恐怖的水平。精调后的准确率飙升至 99.08%,线性探测的准确率也高达 99.10%

研究人员通过t-SNE可视化技术,让我们“看”到了Ark+学习的过程。在学习前,正常、肺炎、新冠三种病例的特征在图中混杂在一起。经过增量学习和精调后,这三类样本点被清晰地分成了三个独立的簇。这直观地展示了Ark+高效学习和区分新疾病特征的强大能力。

这证明了Ark+是一个“活”的模型。面对未来的未知疫情或新型疾病,我们不必从头研发新的AI,而可以在Ark+的基础上,通过快速的增量学习,迅速构建起有效的诊断防线。

保护隐私的协作:联邦学习 (Federated Learning)

医疗数据极其敏感,隐私保护是重中之重。这使得跨机构、跨国家的数据共享变得异常困难,也成为了构建全球化AI模型的主要障碍。

Ark+展示了它的终极解决方案:联邦学习

简单来说,联邦学习就像一个“保护隐私的武林大会”。各个“门派”(医院或研究机构)不再需要将自己珍贵的“武功秘籍”(病人数据)交出来集中训练。取而代之的是,盟主(中央服务器)将一个初始的Ark+模型分发给各个门派。每个门派在自己的地盘上,用本地数据对模型进行训练,然后只将训练好的模型“心得”(模型权重),而不是原始数据,上传给盟主。盟主将各家的心得进行融合,形成一个更强大的“盟主版”Ark+,再分发下去,如此循环往复。

研究人员模拟了这一场景,将六个预训练数据集分散在三个虚拟的“本地站点”上。实验结果表明,通过联邦学习训练的Ark+,其平均性能达到了 87.06%。这个成绩非常接近于将所有数据集中在一起进行训练的“中心化学习” (87.60%),并且显著优于各个站点只用自己数据训练的“孤立学习” (86.27%)。

这证明,Ark+的框架完全可以支持联邦学习。它为全球医疗机构打破数据壁垒、在保护病人隐私的前提下协同开发更强大的AI模型,提供了一条切实可行的道路。

Ark+的未来:一个属于所有人的AI

Ark+的发布,其意义已远远超出一个高性能的AI模型。它代表了一种全新的范式:

开放 (Open):所有的代码、预训练模型权重、训练数据来源都完全公开。这为全球研究者提供了一个坚实的巨人肩膀,任何人都可以自由地使用、验证、改进和扩展Ark+。

轻量 (Light):相较于动辄需要巨型计算集群的超大模型,Ark+的规模相对“轻便”,其训练成本(在4张A100 GPU上训练约700小时)对于许多研究机构来说是可以承受的。这降低了参与的门槛。

普惠 (Affordable):Ark+的训练完全基于公开数据集,数据成本几乎为零。这使得构建高性能AI不再是少数拥有海量私有数据巨头的专利。

研究人员在论文的最后发出了充满激情的倡议:我们希望这项研究能够激励更多的研究者分享代码和数据,或参与到保护隐私的数据联邦中来,共同构建具有全球多样化专家知识和患者群体的开放基础模型,从而加速开放科学,实现医疗AI的民主化。

Ark+的故事,是一个关于知识、协作和开放的故事。它如同一艘已经启航的方舟,承载着战胜疾病的希望,驶向一个由AI赋能的、更健康、更公平的未来。而这艘方舟的掌舵人,将是全球每一个愿意贡献智慧和力量的我们。

参考文献

Ma D, Pang J, Gotway MB, Liang J. A fully open AI foundation model applied to chest radiography. Nature. 2025 Jun 11. doi: 10.1038/s41586-025-09079-8. Epub ahead of print. PMID: 40500447.

Tags: Nature:不止是“看片”高手!全开放AI模型Ark+,或将重塑未来医学影像诊断  

搜索
网站分类
标签列表