首页 > 医疗资讯/ 正文
基于人工智能的蛋白质结构预测方法,例如Alphafold2,已经达到了接近实验的准确性。这些方法主要依靠多序列比对(multiple sequence alignments, MSA)作为输入来从若干同源序列中学习共同进化信息。然而,过度依赖MSA也成为各种蛋白质相关任务的瓶颈,耗时的MSA搜索给需要高通量的任务(例如蛋白质设计)带来了巨大的阻碍。为了解决这一问题,作者提出了一种无需MSA搜索的蛋白质结构预测方法——HelixFold-Single,该方法采用大规模蛋白质语言模型(large scale protein language model, PLM)作为 MSA 的替代,以学习无MSA搜索的共同进化知识,而后通过结合预先训练的蛋白质语言模型和AlphaFold2的基本模块得到最终端到端的可微模型,该模型可以仅从一级序列预测蛋白质的三维坐标。近日,该项研究工作发表在Nature Machine Intelligence期刊上。(Nat Mach Intell 2023, 5 (10), 1087–1096)

HelixFold-Single的基本架构如图1所示。模型由三个部分组成:PLM Base、Adapter 和 Geometric Modelling。作者首先采用大规模PLM Base对蛋白质序列中的协同进化信息进行编码,作为MSA的替代方案。然后,作者采用适配层从 PLM中提取协同进化信息,以有效生成几何建模输入所需的单序列特征和残基对特征。在几何建模中,作者参考Alphafold2的基本架构,使用修改后的Evoformer(名为EvoformerS)和结构模块来充分交换单个序列特征表示和残基对特征表示之间的信息,以捕获几何信息并恢复原子的3D坐标。
HelixFold-Single的训练由两个阶段组成,在第一阶段,通过掩码语言预测任务,使用数百万个未标记的蛋白质序列训练大规模PLM base。随后在第二阶段,使用带标签的蛋白三维实验结构以及Alphafold2生成结构来训练整个模型。

图1、HelixFold-Single模型架构
随后作者将HelixFold-Single与两种主流蛋白质预测模型Alphafold2和RoseTTAFold在CASP14和CAMEO数据集上进行了比较(见图2)。总体而言,HelixFold-Single显著超越了CASP14 和CAMEO 上所有无 MSA 的方法,并且在某些场景下与基于MSA 的方法相当。HelixFold-Single 展示了将 PLM 融入几何建模以进行蛋白质结构预测的潜力。研究人员还分析了HelixFold-Single在具有不同数量同源序列的靶标上的性能,结果表明HelixFold-Single的准确性与同源序列的数量有关,在具有大同源家族的靶点上HelixFold-Single的预测准确性可以与基于 MSA 的方法相媲美。

图2、HelixFold-Single与其他方法在CASP14和CAMEO数据集上的总体比较
此外作者还比较了HelixFold-Single与Alphafold2的预测速度(如图3所示)。与基于 MSA 的方法相比,HelixFold-Single的优势在于其效率,因此它非常适合高通量蛋白质结构预测任务,例如蛋白质设计。

图3、Alphafold2预测、MSA搜索与HelixFold-Single预测的中位数时间比较
在该项研究工作中,为了避免耗时的MSA搜索过程对大规模蛋白质预测的限制,作者提出了一种无需MSA搜索预测蛋白结构的方法HelixFold-Single。HelixFold-Single 尝试利用 PLM 和几何建模的优势,仅通过一维序列来进行端到端的蛋白质结构预测。通过利用蛋白语言模型中的大规模参数嵌入同源信息,作者证明PLM可以作为 MSA 的替代品,以减少蛋白质结构预测所需的时间。HelixFold-Single对于具有大同源家族的靶标可以与基于MSA的方法相媲美,并且比基于MSA的方法高效得多,展示了其在蛋白质研究中的应用前景。有实验结果表明:更大规模的PLM可以实现更优越的性能,后续有望通过使用更大规模的PLM并引入更多样化的数据来进一步提高模型预测蛋白质结构的性能。
参考文献:
(1) Fang, X.; Wang, F.; Liu, L.; He, J.; Lin, D.; Xiang, Y.; Zhu, K.; Zhang, X.; Wu, H.; Li, H.; Song, L. A Method for Multiple-Sequence-Alignment-Free Protein Structure Prediction Using a Protein Language Model. Nat Mach Intell 2023, 5 (10), 1087–1096. https://doi.org/10.1038/s42256-023-00721-6.
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)