首页 > 医疗资讯/ 正文

西湖大学郭天南团队《自然·通讯》:开发首个预训练DIA蛋白质谱AI模型,显著提升蛋白质组鉴定深度

来源 2025-04-17 12:13:11 医疗资讯

4月14日,西湖大学医学院郭天南团队联合西湖欧米团队在Nature Communications发表了最新AI蛋白质组研究成果,推出首个预训练DIA蛋白质谱AI模型DIA-BERT,显著提升DIA蛋白质组鉴定深度。

WX20250414-230311@2x

图1 论文截图

提纲挈领

近年来,DIA质谱已成为定量蛋白质组研究的主要方法,但是其复杂的数据分析一直是领域难点。如何从DIA质谱数据中对尽可能多的蛋白质进行鉴定和准确定量,是蛋白质组领域的研究热点,对临床蛋白质组转化具有重要价值。本研究首次将一种基于预训练变换器(Transformer)模型BERT引入DIA蛋白质谱数据分析,开发出全新的分析软件DIA-BERT。该工具先使用已有的DIA数据进行预训练,然后通过模型微调,显著提升了蛋白质组的鉴定深度,尤其在低丰度蛋白质的识别和定量分析上表现出色,为DIA蛋白质组数据分析设定了新的标杆。

近年来,数据非依赖性采集(DIA)质谱技术已成为高通量定量蛋白质组的最重要的手段。然而,DIA数据的复杂性和大规模数据的处理需求使得其分析面临诸多挑战。

DIA蛋白质组产生的质谱数据高度复杂,数以千百计的蛋白质片段的谱图数据交织在一起,人类无法识别,只有通过AI去卷积才能能够实现数据分析。既有的DIA数据分析软件层出不穷,极大的推动了定量蛋白质组领域的发展,但是它们仍存在多个技术限制,例如依赖独立的文件的特征提取、缺乏跨样本数据共享的能力、以及相对简单的机器学习模型,导致蛋白质组鉴定深度有限。

因此,如何进一步提升DIA数据分析的深度,是蛋白质组领域亟待解决的问题,成为领域热点。

本研究以Google开发的基于Transformer的BERT语言模型为基础,针对DIA蛋白质组,构建了一套全新的“端到端”预训练模型,包括一个蛋白质鉴定的模型和一个蛋白质定量的模型。

图片

图2 DIA-BERT的数据处理流程。DIA-BERT训练了初筛和重排两个模型来完成鉴定任务,并通过在合成数据上预训练、真实数据上微调的方式构建了定量模型。在推理阶段,首先用初筛模型对谱峰组与肽段的匹配结果进行评分,并过滤掉低质量的匹配。然后使用筛选后的数据微调预训练好的重排模型,再用微调后的模型重新打分并计算FDR,从肽段推断到蛋白质。最后,利用定量模型对肽段和蛋白质进行定量分析。

在研究结果部分,本文对DIA-BERT的性能进行了全面评估,并将其与现有的DIA-MS分析工具DIA-NN进行了比较。该比较使用了五种不同癌症的DIA蛋白质组数据集,包括宫颈癌、胰腺腺癌、肌肉肉瘤、胆囊癌和胃癌。

以下是具体分析的几个要点:

1.蛋白质组鉴定深度的比较

在使用两物种谱库方法的条件下,DIA-BERT在所有测试的DIA文件中均优于DIA-NN,且保持了低于0.01的保守假发现率(FDR)。

在上述五种癌症样本中,DIA-BERT在肽段母离子的识别数量上比DIA-NN平均高出22%,在蛋白质的识别数量上高出51%。

同时,DIA-BERT能够回溯识别DIA-NN已识别的80%肽段母离子和98%蛋白质,证明其对DIA数据有较强的捕捉能力。

图片

图3

2.蛋白质组鉴定的稳定性比较

研究进一步评估了DIA-BERT在五种癌症DIA蛋白质组数据中分析的稳定性。 研究将在至少三分之二的样品中鉴定到的多肽母离子和蛋白质设定为能够被稳定检测的分析物。结果显示,DIA-BERT在多肽母离子和蛋白质的识别上,平均分别为62%和86%,而DIA-NN为62%和78%,表明DIA-BERT在蛋白质鉴定的稳定上具有一定优势。

3.低丰度蛋白质的鉴定

研究进一步分析了含有多个多肽母离子的蛋白和只含有单个多肽母离子的蛋白质,发现在这两类蛋白质中,DIA-BERT都比DIA-NN识别更多的蛋白质,平均提高了150%。即使去除“单肽蛋白”,DIA-BERT仍能识别29%更多的蛋白质,且这一结果在统计上显著。

图片

图4

4.DIA-BERT对低丰度蛋白质的识别能力

研究发现DIA-BERT能够更好地识别低丰度的蛋白质。与DIA-NN相比,DIA-BERT能够鉴定出更多低丰度的蛋白质。

A screenshot of a graph

AI-generated content may be incorrect.

图5

5.进一步增加预训练数据的量有望进一步提升DIA-BERT的分析能力

由于DIA-BERT是首个基于预训练的DIA蛋白质组模型,研究团队还探讨了训练数据量对其性能的影响。数据显示,逐渐增加训练数据的数量,DIA-BERT的表现直线提升,并且直到我们使用952个DIA文件进行训练,也没有达到平台期,表明今后我们仍可以通过增加DIA预训练数据的数量进一步提升DIA-BERT的分析能力。

图片

图6

6.从分析人的蛋白质组延伸到分析其他物种的蛋白质组

研究表明,虽然DIA-BERT的模型使用来源于人组织的DIA预训练数据集,但是具有较强的泛化性。数据显示,除了可以分析人的蛋白质组数据,DIA-BERT还可以分析来自于酵母和秀丽隐杆线虫的蛋白质组,并且优于DIA-NN。其对低丰度蛋白质具有良好鉴定和定量能力,也适用于多种物种的蛋白质组数据分析。

图片

图7

7.定量分析:DIA-BERT的定量精度

本研究还开发了一种基于Transformer模型的峰面积估计算法,用以提升DIA-MS数据的定量精度。

通过使用合成数据生成的训练集,DIA-BERT能够更准确地估计峰面积,从而提高定量分析的精度。与传统方法相比,DIA-BERT在定量分析中的表现具有更高的可靠性和准确性。

对于三物种数据集,DIA-BERT的肽段母离子和蛋白质定量精度与DIA-NN相当,Spearman相关系数分别为0.94和0.92,表明其在定量任务中的稳定性和准确性。此外,DIA-BERT在低丰度和高丰度肽段母离子及蛋白质的定量精度方面表现出了较强的能力,尤其在低丰度情况下,DIA-BERT的变异系数(CV)比DIA-NN低,显示了其在处理低丰度数据时的优势。

图片

图8

8.用户界面与功能

最后,DIA-BERT具有用户友好的图形界面(GUI),通过该界面,用户可以轻松进行数据输入、配置分析参数、监控分析进度并查看运行日志。此外,DIA-BERT还支持独立执行质谱库预处理、单文件分析和跨运行定量操作,从而有效减少计算资源的消耗。

图片

图9

【总结】

DIA-BERT显著提高了DIA-MS数据中肽段母离子和蛋白质的识别准确性和灵敏度,并在定量分析中展现了强大的能力。

通过预训练Transformer模型的创新应用,DIA-BERT为蛋白质组学领域提供了一种新的端到端预训练AI模型,其鉴定深度高,定量准确度高,特别是在低丰度蛋白质的识别和定量分析方面具有明显的优势。此外,这个软件针对学术用户开源,其良好的可扩展性使其成为一个极具潜力的工具。更多信息可以访问:https://guomics.com/DIA-BERT/

西湖大学医学院助理研究员刘志伟为论文第一作者,西湖欧米AI工程师刘谱和西湖大学医学院助理研究员孙莹莹为共同第一作者,西湖实验室AI科学家陈义为共同通讯作者。

原文链接:

https://www.nature.com/articles/s41467-025-58866-4

Tags: 西湖大学郭天南团队《自然·通讯》:开发首个预训练DIA蛋白质谱AI模型,显著提升蛋白质组鉴定深度  

搜索
网站分类
标签列表