首页 > 医疗资讯/ 正文
蛋白质功能预测是现代生物学和生物信息学的关键挑战之一,因为它使人们能够更好地了解蛋白质在生命系统中的作用和相互作用。蛋白质的准确功能描述对于识别药物靶点、了解疾病机制和改善工业中的生物技术应用等任务是必要的。虽然近年来预测蛋白质结构变得越来越准确,但由于已知功能数量少,加上其复杂性和相互作用,预测蛋白质功能仍然具有挑战性。

蛋白质的功能使用基因本体(GO)来描述,这是生物学中最成功的本体之一。GO包括三个亚本体,用于描述单个蛋白质的分子功能(MFO)、蛋白质可以贡献的生物过程(BPO)和蛋白质活跃的细胞成分(CCO)。研究人员根据实验确定蛋白质功能,并生成科学报告,然后由数据库管理员获取并添加到知识库中。这些注释通常传播到同族蛋白。因此,UniProtKB/Swiss-Prot数据库3包含为数千种生物体和超过55万种蛋白质手动策划的GO注释。
最近的蛋白质功能预测方法依赖于不同的信息来源,如序列、相互作用、蛋白质三级结构、文献、共表达、系统发育分析或GO中提供的信息。这些方法可以使用序列域注释,直接应用深度卷积神经网络(CNN)或语言模型,如长期短期记忆神经网络和变压器,或使用预训练的蛋白质语言模型来表示氨基酸序列。模型还可能通过知识图嵌入、使用k个最近邻和图卷积神经网络的方法纳入蛋白质-蛋白质相互作用。此外,应用于科学文献的自然语言模型在自动函数预测方面也取得了成功。
许多函数预测方法的主要局限性之一是它们依赖于序列相似性来预测函数。虽然这种方法在应用于具有良好特征功能的类似蛋白质的蛋白质时是有效的,但对于与已知功能结构域几乎没有或没有序列相似性的蛋白质来说,这种方法可能不太可靠。分子功能主要来自结构,结构相似的蛋白质可能具有不同的序列。重要的是,具有类似序列的蛋白质可以具有不同的功能集,这取决于它们的活性位点和它们所处的生物体。
因此,对GO的所有三个亚本体使用相同信息来源的方法是有限的;而MFO亚本体的功能可以通过蛋白质序列或结构来预测,而来自BPO的功能,以及在较小程度上的CCO,本质上依赖于多种蛋白质的存在并以特定方式相互作用;因此,预测BPO和CCO注释需要与预测MFO注释不同的信息来源。
一般来说,预测蛋白质是否参与生物过程需要了解生物体蛋白质组,或至少了解其注释的基因组,以便预测蛋白质;因此,两种蛋白质可能具有100%的序列身份,但参与不同的过程,这取决于生物体蛋白质组中是否存在其他蛋白质。蛋白质-蛋白质相互作用网络可以编码蛋白质组,并限制蛋白质之间产生生物过程的潜在相互作用的搜索空间。
本体是另一个很少用于预测蛋白质功能的信息来源。本体论不仅仅是类的集合;相反,本体是形式理论,使用基于逻辑的语言指定类预期意义的某些方面。GO公理中包含的背景知识可以被一些机器学习模型用于通过知识增强的机器学习来改善预测。通过将形式公理纳入机器学习模型,可以在学习或预测过程中利用先前的知识,对参数搜索空间施加限制,从而提高学习过程的准确性和效率,并最终做出更好的预测。
虽然如何将形式背景知识纳入机器学习方法有不同的方法,但近似蕴涵旨在明确且可证明地执行“语义蕴涵”作为优化目标,从而再现演绎系统的许多形式属性。只有少数函数预测方法利用GO中的形式公理。用于预测蛋白质函数的分层分类方法,如GoStruct2,DeepGO、DeePred、SPROF-GO和TALE使用减量公理来提取类之间的层次关系,但忽略了GO中可用于减少搜索空间和改进预测的其他公理。
2024年2月14日发表在Nature Machine Intelligence的文章,开发了DeepGO-SE,这是一种蛋白质功能预测方法,它使用预先训练的大型蛋白质语言模型结合神经符号模型从蛋白质序列中预测功能,该模型作为近似语义蕴涵执行功能预测。我们使用ESM2蛋白语言模型来生成单个蛋白质的表示。与DeepGOZero类似,我们将ESM2嵌入投影到由GO中的公理生成的嵌入空间(ELEmbedings)中。
ELEmbeddings基于几何形状和几何关系编码本体公理,并对应于Σ代数或“世界模型”,我们可以确定语句是真还是假。与DeepGOZero相反,我们使用这些世界模型来执行“语义蕴涵”:语句φ由理论T(T⊧φ)蕴涵,当且仅当φ在每个世界模型中为真,其中T中的所有语句都是真。虽然一般来说,理论T或语句φ有无限多这样的世界模型,但我们学习了多个,但有限多的这样的模型,并生成作为“近似”语义蕴涵的函数预测,我们测试每个生成的世界模型的真理。使用这种形式的近似语义蕴涵,我们表明GO扩展版本中的公理增强了分子函数的预测。

DeepGO-SE模型的高级概述
此外,我们通过以蛋白质-蛋白质相互作用网络的形式整合有关生物体和相互作用体的信息,改进对复杂生物过程和细胞成分的预测。我们表明,与分子功能不同,对生物过程和细胞成分的注释预测可以从蛋白质-蛋白质相互作用中获益匪浅。对于生物过程,我们发现整合预测的分子功能和相互作用大大提高了预测的性能;这一发现表明,生物过程注释的预测不需要了解特定蛋白质,而只需要了解其分子功能,从而大大扩展了我们方法的通用性。
我们在带有实验注释的数据集上训练和评估我们的模型,该数据集根据序列相似性进行拆分,以确保使用与训练集共享类似蛋白质的测试集报告评估。我们发现,依赖序列相似性的方法在此设置中表现不佳,而DeepGO-SE显著提高了GO所有子本体的预测性能。例如,DeepGOPlus使用序列相似性和卷积神经网络(CNN)来预测函数,只能依靠其CNN及其在此测试集上的性能下降。
本文开发了DeepGO-SE,这是一种使用预训练的大型语言模型从蛋白质序列预测GO功能的方法。研究结果显示,DeepGO-SE生成多个GO近似模型,神经网络预测这些近似模型中关于蛋白质函数的陈述的真值。我们在多个模型上聚合真值,以便DeepGO-SE在预测蛋白质功能时近似语义蕴涵。
综上所述,DeepGO-SE是一种蛋白质功能预测方法,通过结合预训练的蛋白质语言模型生成的蛋白质序列特征、GO的背景知识和蛋白质之间的相互作用,提高了蛋白质的预测性能。我们的结果使我们能够得出三个主要结论:知识增强的机器学习方法现在能够改进不依赖背景知识的方法;GO函数预测最好使用单独的分层预测方法来表述;基于ESM2的函数预测模型现在可以推广到基本上看不见的蛋白质。
原文出处
Kulmanov, M., Guzmán-Vega, F.J., Duek Roggli, P. et al. Protein function prediction as approximate semantic entailment. Nat Mach Intell (2024). https://doi.org/10.1038/s42256-024-00795-w
猜你喜欢
- 香蒲丽防晒霜真假对比 这些小技巧你一定要知道
- 【期刊导读】肝脂肪变性对慢乙肝的双重影响:免疫应答增强与病毒变异增加
- 白领男士怎么保持精力旺盛
- 绘真约大咖 | 赵振国教授:聚焦结直肠癌和小肠腺癌精准治疗,分子检测中有哪些注意事项
- 提高孩子视力除了手法和技巧,还是要注意生活习惯
- Nature:骨再生的新突破:仿生胶原基质如何改变骨修复?
- 牛皮癣药物治疗大全
- 猪腰子的家常做法 既美味又没臊味
- Chin Med J: 妊娠糖尿病患者的产时和产后早期血糖状况的变化情况
- The Lancet Regional Health - Western Pacific:澳大利亚到2044年特定原因过早死亡率的趋势和预测
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)