首页 > 医疗资讯/ 正文

Scientific Data:我国学者发布原发性鼻咽癌多模态MRI分割数据集

来源 2025-08-24 12:12:15 医疗资讯

鼻咽癌作为一种具有明显地域分布特征的头颈部恶性肿瘤,在全球范围内尤其是东南亚地区构成了沉重的疾病负担,其年龄标准化发病率在2020年达到每十万人1.5例,而在东南亚地区男性与女性的发病率分别高达7.7与2.5。早期诊断与精准分期是改善预后的关键,其中磁共振成像因其卓越的软组织对比度、多模态成像能力以及无电离辐射的特点,被广泛认为是鼻咽癌定位、定性及分期中最优选的影像学手段。尽管MRI在临床实践中具有不可替代的作用,但高质量、多模态且带有精细标注的鼻咽癌MRI数据集的匮乏,严重限制了相关计算机辅助诊断与治疗规划算法的发展,尤其是基于人工智能的自动分割与预后预测模型。

为了填补这一空白,本研究首次构建并发布了一个包含277例原发性鼻咽癌患者的多模态MRI影像数据集,涵盖T1加权、T2加权及对比增强T1加权序列,所有影像均经由经验丰富的放射科医师手工勾画肿瘤区域,并配套提供详细的临床资料与随访信息,旨在为医学影像分析研究社区提供高质量、标准化的基准数据资源。

在数据构建的方法学方面,本研究严格遵循了国际公认的数据采集与标注标准。所有病例均来自佛山市第一人民医院,经组织病理学确诊为原发性鼻咽癌,且排除了既往接受过放疗、化疗或伴有其他恶性肿瘤的患者,以确保肿瘤形态的原始性与数据的纯净性。影像数据通过六台不同型号的磁共振扫描仪采集,包括GE Discovery MR750w 3.0T和Philips Achieva 1.5T等设备,所有设备均经过严格的几何校准、信号强度标准化与磁场均匀性调整,以最大限度地减少设备间差异对影像一致性的影响。影像序列包括轴位T1WI、T2WI和CE-T1WI,共计831次扫描,关键成像参数如回波时间、重复时间、层厚、像素间距等均以中位数及极差形式详细报告,体现出数据在技术层面的规范性与可重复性。在数据预处理阶段,所有患者标识信息均被匿名化处理,去除直接与间接标识符,以符合医学伦理与隐私保护要求。

图1

图1 图形摘要与示例

肿瘤区域的勾画由两位具有十年以上经验的放射科医师独立完成,他们使用ITK-SNAP软件(v3.6.1)在轴位影像上逐层手动标注肿瘤边界,过程中综合参考T1WI、T2WI及CE-T1WI序列的影像特征,以准确识别肿瘤原发灶及其周围侵犯范围。具体而言,T1WI序列用于显示周围脂肪间隙与肌肉结构,CE-T1WI对早期黏膜增厚区域的边界确定尤为关键,而T2WI则有助于区分肿瘤组织与正常黏膜信号。标注完成后,标签被转化为二值掩模,并以NIFTI格式存储,便于后续机器学习任务的使用。为评估标注的一致性,本研究随机选取30例患者影像,由两位医师分别进行勾画,并计算其Dice系数与Jaccard指数作为评分者间信度的量化指标。结果显示,在不同序列上,Dice系数均保持在0.8以上,Jaccard指数也达到0.75以上,表明手工标注具有高度的一致性与可靠性。

图2
图2 评分者间信度(Dice系数)

除了影像数据,本研究还提供了丰富的临床资料与肿瘤形态学参数。临床数据包括患者性别、年龄、TNM分期(依据第八版UICC/AJCC分期系统)、病理类型、EBV感染状态(VCA-IgA与EBV-DNA)以及五年无进展生存期等信息。在277例患者中,男性占比较高(70%以上),中位年龄约50岁,绝大多数为非角化性鳞状细胞癌。分期方面以III期患者为主(140例),IVa期94例,IVb期13例,早期(I–II期)相对较少,这一分布符合鼻咽癌的自然病程特点。肿瘤形态学参数包括体积、表面积、最大直径和表面规则度等,这些指标通过基于三角网格的算法从三维标注中提取,可用于量化肿瘤的空间特征与异质性。所有临床与形态学数据均以CSV格式提供,并与影像数据通过患者编号进行关联,方便多模态数据的整合分析。

图3
图3 评分者间信度(Jaccard指数)

在技术验证方面,本研究不仅通过评分者间信度检验了标注质量,还进一步利用形态学参数描述了肿瘤的空间特征。例如,肿瘤体积在T1WI、T2WI和CE-T1WI序列上的中位数分别为8.60 cm³、8.67 cm³和9.42 cm³,最大直径约4.5–4.7 cm,表面规则度在0.39–0.40之间,反映出鼻咽癌肿瘤普遍具有一定的形态复杂性。此外,通过分析不同序列间肿瘤体积的一致性,也间接验证了多模态影像在肿瘤刻画中的互补性。所有数据均以结构化的形式存储在Zenodo平台,包括DICOM格式的原始影像、NIFTI格式的分割标签以及多个CSV文件存储的临床与机器元数据,数据集整体结构清晰、便于访问与使用。

图4
图4 数据集结构

综上,该数据集是迄今首个公开的、包含多模态MRI影像与精细手工标注的原发性鼻咽癌数据资源,不仅填补了领域内高质量数据共享的空白,也为后续影像算法开发、肿瘤量化分析以及预后模型构建提供了重要的基础支持。尽管当前自动分割方法在不断进步,但高质量的人工标注仍是模型训练与验证的金标准。本数据集的发布将有助于推动鼻咽癌影像分析研究的可重复性与可比性,促进人工智能在精准医疗中的应用。研究者还指出,数据集的局限性包括其单中心来源和 retrospective 设计,未来可通过多中心、前瞻性数据采集进一步扩大样本量与多样性。

原始出处:

Li, Y., Chen, Q., Li, M. et al. A dataset of primary nasopharyngeal carcinoma MRI with multi-modalities segmentation. Sci Data 12, 1450 (2025). https://doi.org/10.1038/s41597-025-05815-x

Tags: Scientific Data:我国学者发布原发性鼻咽癌多模态MRI分割数据集  

搜索
网站分类
标签列表