首页 > 医疗资讯/ 正文

【协和医学杂志】行业标准《人工智能医疗器械 质量要求和评价 第5部分:预训练模型》解析

来源 2025-10-26 12:10:08 医疗资讯

近年来,人工智能技术在医疗器械领域的渗透与融合日益加深,推动了智能诊疗、医学影像分析、健康监测等应用场景的创新发展。在这一趋势下,人工智能医疗器械标准体系的建设正逐步完善(图1)[1]

图片

图1 AI医疗器械标准体系框架图[1]

AI:人工智能

然而,由于医疗行业对安全性、可靠性的严格要求,目前人工智能医疗器械主要基于监督学习范式,其临床功能主要聚焦于辅助临床决策和医疗流程优化2个方面。2020年1月,国家药品监督管理局(NMPA)批准了国内首个基于深度学习的辅助决策类人工智能医疗器械独立软件,标志着我国医疗人工智能监管体系取得重要突破。截至2023年6月,NMPA已累计批准58款人工智能医疗器械产品,覆盖了医学影像识别、病理分析、心血管疾病预测等多个临床领域[2]。这一数据不仅反映了监管机构对创新技术的审慎接纳态度,也展现了人工智能医疗器械产业蓬勃发展的良好态势。

在人工智能医疗器械产品中,预训练模型凭借其在特定任务上的高效性、优异的泛化能力和出色的迁移学习性能,已逐渐成为驱动智能医疗技术创新的重要引擎之一[3]。此类模型通常依赖于在大规模、多样化的数据集上进行的预训练过程,从而学习通用且深层次的特征表示。随后,通过在具体任务上进行少量标注数据的微调技术(fine-tuning),即可快速适应医学影像分析、临床文本理解、疾病风险预测与早期诊断等多种实际应用场景,显著提升模型的性能。

然而,预训练模型也引发了一系列新的质量与安全挑战。例如,预训练模型的来源复杂、内部机制不透明(即“黑箱”问题)及可能存在的固有偏倚、鲁棒性不足等问题,均可对基于其开发的人工智能医疗器械带来潜在风险,进而影响患者的生命安全[4]

为系统应对上述挑战,NMPA在持续完善人工智能医疗器械标准体系的进程中,颁布了行业标准YY/T 1833.5-2024《人工智能医疗器械 质量要求和评价 第5部分:预训练模型》(下文简称“标准”)。该标准作为YY/T 1833系列标准[5-7]的重要组成部分,其制定与实施对于规范预训练模型在医疗器械领域的应用,保障产品安全有效具有里程碑意义。本文对该标准的重要条款进行解析,旨在阐明预训练模型的质量管理框架与质量特性评价方法的设计逻辑,为行业标准的落地与实施提供技术指引。

1 标准的适用范围解读

标准YY/T 1833.5-2024适用于人工智能医疗器械使用的预训练模型,用于对人工智能医疗器械产品预训练模型的评价。根据标准中的术语定义,预训练模型是指“已在数据集上经过训练的计算模型,可用作新任务的基础”。预训练模型通常采用先在大规模数据集中进行无监督或有监督预训练,之后针对具体下游任务微调的方式,实现在特定领域或任务中的性能优化。例如,在医学影像分析中,首先在大量医学影像数据中进行预训练,然后针对某种疾病的影像识别、特定疾病的精准分割等任务进行微调。

预训练模型可作为一项技术组件被医疗器械制造商选择、引入并用于医疗器械产品开发的关键环节。这一要求意味着,无论预训练模型的原始出处或开发背景如何,一旦其被确定为医疗器械的构成部分,应按照医疗器械的质量控制要求进行评价和检测,以确保预训练模型在真实医疗环境中使用具备足够的可控性、可追溯性及可信度,切实保障产品性能与安全可靠性。此过程需严格遵循标准要求,从模型说明文档的完整性到质量特性的量化评估,全方位把控预训练模型在医疗器械中的适用性,从而为相关医疗器械的临床应用提供坚实的质量保障。

2 预训练模型说明文档要求解读

预训练模型的技术透明度是进行有效风险评估和质量控制的前提。标准第4章对预训练模型说明文档的内容框架和详略程度提出了系统化要求。预训练模型提供方需全面描述模型相关的过程、方法和数据集细节,涵盖版本标识、模型框架、训练数据及其构建方法、标注方法、训练过程、模型适用性等,以有助于医疗器械制造商对模型本质、边界和风险进行控制,并辅助检测与监管方深入了解模型,保障模型的可追溯性与质量把控,有效推动预训练模型从“黑箱”向“透明可控”转型。

在模型框架方面,应明确结构来源,如采用的为修订的公开结构,应详尽阐述修改细节与技术差异。若属于未公开的自研结构,则需提供严谨的数学表达式或结构化描述。预训练模型的说明文档应描述模型节点、参数元数据、数据表示及处理等信息,必要时阐释可解释性。对于源任务数据部分,需界定数据模态、说明采集设备、介绍仿真数据生成方法,明确数据量与各子集分布,强调数据质量把控、清洗流程、隐私保护手段,并提供源任务基准性能指标。

对于训练过程,应描述学习方法、训练设置及源任务域界定。至于模型适用性,需明确推理及微调适用的数据模态、任务类型、应用场景、预期性能,说明适配的软硬件环境,以及迁移至新下游任务时的数据及其训练设置需求。这些全要素透明化要求,本质上是通过标准化技术文档构建预训练模型的全生命周期可验证性,为模型质量特性评估与医疗场景下的应用提供完备的信息基础。

2.1 模型框架描述

模型架构的透明化是对模型可控性和可追溯性的保障。标准要求应详尽阐述模型的基础架构类型(如常见的卷积神经网络、循环神经网络、Transformer结构或其衍生的复杂网络)、内部关键组件的构成(如网络层级、节点数量、激活函数选择、连接方式等)、模型参数的元数据信息及核心的数据表示方法。数据表示的相关内容包括数据在模型输入端的抽象程度、所接受的数据类型与格式、维度特征、数据编码技术(例如机器学习领域中常用的独热编码、标签编码等[7-8])及必要的输入数据预处理与输出数据后处理流程。

2.2 源任务数据描述

预训练模型的性能高度依赖训练数据质量,这已成为行业共识。因此,标准对源任务数据的描述给予了极高关注,体现了对“数据源头”质量控制的严格要求。以下是关键描述要素及举例说明:

1 数据模态与来源: 需明确训练数据所属的模态(如CT、MRI、超声等医学影像,或心电、脑电等生理信号,或电子病历、医学文献等文本数据)。若预训练过程使用了合成数据,则还需对数据生成方法和验证过程予以详细说明。对于训练数据涉及的标注信息,其规范性可参考YY/T 1833.3-2022《人工智能医疗器械 质量要求和评价 第3部分:数据标注通用要求》中的相关规定[6]

2 数据质量:要求对训练数据的准确性、完整性、一致性等关键质量指标进行声明,并阐述在数据采集、筛选、清洗等环节所采用的质量控制标准与流程。若数据集构建过程中使用的数据集满足 YY/T 1833.2-2022的要求,则应在预训练模型说明文档中按照该标准中第4章“数据集说明文档的要求”进行声明。如数据集建立过程依从特定标准,则应在预训练模型说明文档中进行说明。鼓励开发者参考现行人工智医疗器械数据集质量评价标准对数据集质量进行控制。

3 基准性能:建议提供预训练模型在其原始训练任务(源任务)上经过充分验证的性能表现数据,包括但不限于灵敏度、特异度、交并比等指标。上述要求为预训练模型在后续迁移至医疗用途下游任务时进行效果评估提供了关键参考。

2.3 训练过程与模型适用性描述

在模型训练过程中,需重点考虑其未来在医疗领域的应用场景。具体而言,应明确以下技术细节:

1 预训练设置:详细说明源任务设计(包括任务域界定,若涉及多源任务需逐一说明)及采用的学习范式(如监督学习、自监督学习等);

2 训练配置:完整描述数据增强策略(如图像翻转、缩放等处理方法)、模型初始化方案、优化器选择及关键超参数设置;

3 计算环境:明确标注模型训练与推理所需的硬件配置(如CPU/GPU规格)和软件环境(包括操作系统、深度学习框架版本等),这些信息将为后续医疗器械产品开发的资源规划和成本估算提供重要依据;

4 迁移指导:建议提供模型迁移至医疗下游任务时的数据需求评估(包括数据量预估和数据特性要求)以及推荐的微调策略。

上述要求通过全面规范从模型训练到实际应用的关键环节,有效确保预训练模型的技术透明度和临床应用可靠性。

3 预训练模型的核心质量特性解读

标准第五章重点规范预训练模型的质量特性要求,这些要求对确保人工智能医疗器械预训练模型的可靠性、安全性和有效性具有决定性作用,同时也是促进行业形成统一质量标准、实现科学监管的重要依据[4]。基于医疗器械应用的特殊性,标准明确定义了三类共九项核心质量特性,其构建了多维度、系统化的预训练模型质量评估框架,为模型的性能验证和质量控制提供了完整的技术规范标准(图2)。

图片

图2 预训练模型核心质量指标分类

第一 在执行层面,预训练模型提供方需明确声明模型的可训练性指标,如损失函数收敛曲线、目标数据分布拟合度等,并附上书面证据,以确保模型在训练阶段可按照预期进行参数优化与性能提升。同时,模型应具备通过微调在下游医疗任务中发挥作用的可迁移性且性能指标需达到既定要求,例如在影像分割、病理分类等具体任务中的准确率、Dice系数等,以满足实际医疗任务的应用需求。此外,模型效率亦是衡量预训练模型质量特性的核心指标,其关乎推理计算量、资源利用率与推理精度之间的平衡,预训练模型提供方应明确定义、量化关键效率指标并提供可验证的效率测试数据及优化措施说明,以保障模型在实际运行中的高效和精准性。由于泛化能力是人工智能医疗器械的重要质量特性,制造商需要对预训练模型的泛化能力进行考量,确保后续研发的产品符合监管要求。

第二 在算法要求方面,其包含架构可扩展性、输出重复性、健壮性3个维度。其中架构可扩展性要求模型可适应不同硬件资源的变化,在调整硬件时,其效率变化需符合规定范围(例如明确最低和最高硬件配置要求),从而保障模型在多样的医疗设备环境中具有良好的适用性。输出重复性的目的是确保模型在相同输入条件下可产生结果一致的输出,即量化指标需保持相同或处于同一值域范围,描述性文字的含义需保持一致,以避免因模型输出结果波动而影响临床决策。健壮性则要求模型在面对噪声数据和分布外(OOD)数据时,能稳定输出正确的结果,维持预期的性能表现,可通过噪声注入测试、OOD数据检测等标准化评估方案对该指标进行验证,以确保模型在真实医疗环境中的异常数据场景下仍能维持可靠的性能表现。

第三 在安全合规方面,包括对抗安全和隐私保护两个维度。其中前者要求预训练模型提供方明示模型的对抗安全性能(如适用),并需提供案例证明模型抵御对抗攻击的能力,以降低模型被攻击利用的风险,确保模型在真实医疗场景应用的安全性和可靠性。隐私保护是人工智能医疗器械开发的核心要求,模型可采用差分隐私等防范措施防止训练数据泄露(包括训练数据整体分布特征的逆向推导和特定训练样本的个体信息推断),同时对模型代码所产生的数据上传、数据储存、数据访问实施分级分级保护策略,以切实守护患者隐私。

本标准将抽象的模型质量属性转化为可测定的量化指标,增强了标准的可操作性,同时通过隐私保护与对抗安全测试要求等措施,提升了未来医疗器械产品开发的泛化能力及潜在风险,满足了医疗器械伦理的规范要求并实现了风险控制关口前移,从源头对算法进行标准化、规范化约束,有效控制产品开发风险,并为人工智能医疗器械产品的安全性和有效性提供坚实保障。

4 预训练模型质量符合性评价方法要点

标准第6章聚焦预训练模型质量的系统性评价框架,通过规范评价流程与方法,确保模型在医疗器械中应用的安全性和有效性。评价内容涵盖模型说明文档与质量特性2个维度:在模型说明文档评价方面,需检查文档对模型结构、数据、训练过程等描述的完整性、准确性,针对已在医疗领域广泛应用的成熟模型,可根据实际应用场景适当调整说明文档的呈现形式;在质量特性评价方面,则采用“指标说明+实际验证”的模式,针对九项特性指标,制定了具有可操作性的测试方案。

预训练模型的质量评价首先基于对模型说明文档的系统审查。文档符合性评价是预训练模型质量评价的重要组成部分,可确保预训练模型在开发和使用过程中的透明性和可追溯性,在评价过程中需全面核查标准第4章所要求内容的完整性、准确性,确保其对模型架构、数据来源、训练过程等关键信息的披露符合标准要求。这一环节为后续的技术验证和合规性判断奠定了基础。

针对模型宣称具备的各项质量特性,需制定科学的验证方案并实施客观测试,包括以下核心验证环节:

1 在具有临床代表性的数据集上进行实际微调,通过性能指标变化评估模型的可训练性与可迁移性;

2 通过多样化噪声、OOD数据和子群体分析,评估模型的健壮性与泛化性;

3 对模型开展对抗攻击,评估性能的稳定性;

4 对隐私保护措施进行技术审核和效果验证。

需注意的是,所有评价方法均应基于“用途适配”原则,结合模型应用场景、技术特点和风险等级开展,确保结果的科学性与公正性。评价过程要求模型提供方提交模型本体与说明文档,并形成详细的技术评估报告作为质量验证依据。该机制一方面为研发团队提供明确的技术优化方向,另一方面为第三方检测机构与监管部门建立了规范化的审查流程,从而实现从模型技术描述至临床应用落地的全生命周期质量把控。

5 标准实施解读与讨论

标准为预训练模型的引入设定了明确的质量基线和技术要求,以指导医疗器械制造商在模型选型阶段进行更为审慎的评估,减少低质量、高风险模型,从源头上提升最终产品的整体质量与安全水平。为确保标准落地实施,需重点推进以下工作:加强标准的解读与培训,统一评价方法和执行细则;推动建立基于本标准的模型质量认证体系;构建覆盖模型全生命周期的检测、评估与追溯平台,从而实现从模型筛选到临床应用的全流程监管。

本标准的实施有助于引导医学预训练模型的研发与应用,更好地指导人工智能医疗器械企业对通用人工智能模型进行遴选,确保最新、高质量算法有序投入医学应用,引导产业技术创新与健康发展。近年来,以美国食品药品监督管理局为代表的国际监管机构日益重视“良好机器学习规范(GMLP)”[9],强调对算法的持续更新与动态再评价。本标准的制定不仅与国际监管趋势接轨,更进一步将监管关口前移至算法研发阶段,实现从源头把控模型质量。

随着预训练模型技术(特别是大语言模型、视觉基础模型等)的持续快速演进,其在医疗健康领域的应用场景正不断拓展深化。这一发展趋势对预训练模型的质量评价理念、技术方法和标准体系提出了更高要求[10-11]。值得注意的是,由于预训练模型本身无需取得医疗器械注册证,制造商可能采用非医疗领域的质量管理体系,导致模型频繁更新、性能指标波动,进而在医疗应用中缺乏必要的稳定性和可重复性,影响产品的安全性和有效性。作为一项通用性基础标准,本标准的价值不仅在于解决当前问题,更重要的是为未来制定针对特定类型预训练模型(如生成式医疗大模型)或高风险应用场景(包括但不限于自主式手术机器人[12]、危重症监护系统[13]等)的专用性标准和实施细则奠定了框架基础,从而构建层次分明、覆盖全面的医疗人工智能标准体系。

6 小结

YY/T 1833.5-2024标准的发布,标志着我国在人工智能医疗器械关键技术要素的标准化方面迈出了重要一步。该标准聚焦于预训练模型这一核心组件,通过系统构建包含说明文档要求、质量特性指标及符合性评价方法在内的完整技术框架,有助于提升医疗器械产品的安全性和有效性,增强患者和医疗机构对人工智能医疗器械的信任,提高监管效率和科学性,促进医疗器械行业的健康有序发展,为提升人工智能医疗器械的安全性、有效性和质量可控性提供了强有力的标准化工具。随着本标准的深入实施,其将在人工智能医疗器械开发过程管控、质量提升、风险防控中发挥不可或缺的支撑作用,为行业健康发展提供坚实保障。

参考文献

[1]王浩, 唐桥虹, 郝烨, 等. 人工智能医疗器械标准体系设计探索[J]. 中国医疗设备, 2021, 36(12): 15-18.

[2]梁宏, 王雅文. 人工智能医疗器械的临床应用现状[J]. 医疗卫生装备, 2024, 45(2): 74-81.

[3]Rajpurkar P, Chen E, Banerjee O, et al. AI in health and medicine[J]. Nat Med, 2022, 28(1): 31-38.

[4]王浩, 李澍, 王晨希, 等. 人工智能医疗器械质量管理标准化趋势分析[J]. 中国医疗设备, 2021, 36(3): 20-23.

[5]王浩, 孟祥峰, 郝烨, 等. 行业标准《人工智能医疗器械质量要求和评价 第2部分: 数据集通用要求》解析[J]. 协和医学杂志, 2023, 14(6): 1180-1184.

[6]郝烨, 王浩, 李佳戈. 行业标准《人工智能医疗器械质量要求和评价 第3部分: 数据标注通用要求》解析[J]. 协和医学杂志, 2023, 14(6): 1185-1188.

[7]孟祥峰, 王浩, 李佳戈. 行业标准《人工智能医疗器械质量要求和评价 第1部分: 术语》解析[J]. 协和医学杂志, 2023, 14(6): 1175-1179.

[8]周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. 

[9]U.S. Food and Drug Administration. Good machine learning practice for medical device development: Guiding principles[EB/OL]. (2025-03-25)[2025-05-10]. https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles.

[10]陈晓红, 刘浏, 袁依格, 等. 医疗大模型技术及应用发展研究[J]. 中国工程科学, 2024, 26(6): 77-88.

[11]郭华源, 刘盼, 卢若谷, 等. 人工智能大模型医学应用研究[J]. 中国科学: 生命科学, 2024, 54(3): 482-506.

[12]陈妞, 陈莹, 郭瑾, 等. 人工智能在危重症护理中的应用现状及挑战[J]. 中华急危重症护理杂志, 2022, 3(3): 276-279.

[13]张旭, 马鑫, 贾通宇, 等. 机器人自主手术研究现状及展望[J]. 临床泌尿外科杂志, 2025, 40(1): 1-5.

Tags: 【协和医学杂志】行业标准《人工智能医疗器械 质量要求和评价 第5部分:预训练模型》解析  

搜索
网站分类
标签列表