首页 > 医疗资讯/ 正文
生物大分子的结构通常使用两种数学表示法来描述:内部坐标和笛卡尔坐标。内部坐标表示由一组键长、键角、二面角或扭转角定义,笛卡尔坐标表示则由欧几里得空间中所有原子的x、y、z 坐标定义。两种表示法在不同的应用场景中均已被广泛应用。内部坐标是核磁共振结构测定和精修的首选描述,有利于几何优化,而笛卡尔坐标是分子动力学模拟和X 射线晶体学结构的首选格式。当所有键长及角度都被精确指定时,使用自然延伸参考系(NeRF)等算法,可以从内部坐标进行反向变换重建得到蛋白质骨架结构3D 笛卡尔坐标,在此过程中通常会将键长和角度固定在平均值以降低结构建模的复杂性。直觉表明这种固定键长与角度的方法能够很好地重建笛卡尔坐标,因为键长与角度的值都被约束在平均值附近,仅存在很小的误差。但事实上,有研究表明与平均值的微小偏差也会极大程度上影响笛卡尔重建,对于平均包含150个氨基酸的蛋白质,在固定键长和角度的条件下,内部坐标反向变换到主链Cα原子笛卡尔坐标时产生的 RMSD 误差为 ∼6 Å。目前已有多项研究报道采用以PDB中序列或结构相关性(例如拉氏图中φ 和 ψ 扭转角相关性、Dunbrack转子库中使用的主链和侧脸扭转角相关性等等)为条件的统计方法降低笛卡尔重建的误差,但这些研究中都没有考虑到内部坐标中ω扭转角依赖性。

加州大学Teresa Head-Gordon小组与多伦多大学Julie D Forman-Kay小组针对这一问题,提出了一种更全面的机器学习方法——Int2Cart,可以量化地学习更深层次氨基酸序列上下文中的内部坐标相关性,相对于固定键长与角度标准假设,Int2Cart能够提供更准确的 3D 笛卡尔坐标。近日,该项研究工作发表在美国化学会出版的Journal of Chemical Theory and Computation期刊上 (Journal of Chemical Theory and Computation 2023 19 (14), 4689-4700)。【1】
研究人员提出的神经网络Int2Cart,架构如图1所示。该神经网络是门控循环单元(GRU)循环神经网络,其中每个时间步的输入是来自高斯修饰的φ、ψ 和ω 扭转角以及嵌入的残基类型共同构成的串联隐藏向量,GRU 的隐藏向量输出与不同的输出网络连接以分别预测主链键长d(例如N-Cα键长)、键角θ(例如C − N − Cα角),或可选地预测侧链键长r(例如Cα – Cβ键长)和侧链键角α(例如N − Cα – Cβ角)。

图1: Int2Cart模型架构
在中心组件GRU中,研究人员将GRU层堆叠三次,每层都包含一个隐藏状态ht,其信息由输入向量通过以下等式构成的重置和更新机制进行更新:

其中W, U, b是模型的可训练参数,xt是当前时间步的单元格输入,rt和zt表示重置和更新门,控制新的更新向量t中保留多少信息,并控制新隐藏状态向量ht由更新向量t和旧隐藏状态ht−1的组成方式。σ表示sigmoid函数,⊙表示逐元素乘法。
第一层GRU单元的输入为φ、ψ 和 ω 扭转角以及氨基酸类型。每个扭转角由高斯涂抹函数(Gaussian smearing function)离散为长度为180的向量,每个修饰后的扭转角向量进一步通过两个全连接层(维度为90和64)以及修正线性单元(ReLU)激活层进行变换,以生成扭转角的潜在表示。残基类型由可训练的嵌入字典进行编码,并形成长度为64的潜在向量而后通过两个全连接层(维度为128和64)以及ReLU激活层构成 GRU 单元的输入。最后一个 GRU 层的隐藏状态输出与后续多个输出连接,以预测主链键长和键角(或可选地预测侧链键长和键角)。每个输出都接入一个全连接神经网络,隐藏层维度大小为100,使用ReLU激活,输出层维度大小为1,无激活。
在获得主链扭转角以及模型预测的键长及键角数据后,研究人员使用SidechainNet 包重建蛋白质所有主链原子的3D笛卡尔坐标。SidechainNet利用自然延伸参考系(NeRF)算法,用前三个原子的位置以及新的键长、键角和扭转角按次序计算下一个原子的位置。
研究人员随后测试了在给定三个扭转角φ, ψ, ω的条件下,固定键长和键角与从Int2Cart学习键长键角两种方式重建笛卡尔坐标的误差情况。结果表明,与固定方法相比,Int2Cart重建的结构质量明显优于固定方法,结构RMSD分布以较低的RMSD值为中心,当所有蛋白质标准化为100个氨基酸时,中位RMSD为 2.14 Å,整个测试集的平均RMSD为3.5 Å。相比之下,当所有蛋白质标准化为100个氨基酸时,固定方法产生的中位RMSD为 3.24 Å,整个测试集的平均值为5.1Å。此外,Int2Cart表现还明显优于之前的研究,表明更深层次的序列相关性有利于模型学习。随后,研究人员还对Int2Cart与固定方法在整个测试集的回转半径(Rg)以及二级结构恢复率(SS-match)方面进行了进一步的分析。结果表明,尽管Int2Cart笛卡尔重建预测的结构的Rg值与真实结构更接近,固定方法笛卡尔重建方法仍然能够产生相对较好的结果。但需要注意的是,Int2Cart在二级结构恢复率方面显著地优于固定方法,Int2Cart预测结构的二级结构恢复率大于0.8的蛋白质所占比例有明显的提高。
研究人员还对模型在两个外部测试集上的表现进行了评估,评估模型的泛化能力。与之前的测试数据集结果相比,在CASP-12蛋白数据集上除了C-N-Cα角的预测结果在RMSE和相关系数方面变得稍差,所有其他预测目标都非常接近先前的结果。同时,在CASP12 测试集中标准化为 100 个氨基酸的蛋白质的重建结构RMSD 为 2.06 Å,与原始测试集的结果一致。
【总结】在该项工作中,研究人员开发了一种新的机器学习方法来提高3D 笛卡尔坐标反向变换的保真度。Int2Cart算法利用门控循环单元神经网络来预测给定扭转角的完整蛋白质序列中每个残基的键长和键角。结果表明,Int2Cart在测试集上重建的结构有95%在RMSD方面显著优于固定定主链键长和键角方法(固定主链键长和键角是多种蛋白质建模方法中的标准做法)。Int2Cart在CASP-12数据集上的成功进一步验证了Int2Cart 算法可以在不同类型的蛋白质之间转移,并且可以持续提高笛卡尔结构重建的质量。当前形式的模型提供了一种有用的计算工具,可以大大提高仅从主链扭转角重建的蛋白质结构的质量,无论是球状折叠蛋白质还是无序蛋白质。Int2Cart有望在蛋白质结构修正以及蛋白质力场的开发中得到广泛应用,这些蛋白质力场的开发会受益于模型预测的更准确的主链键长和键角。最后,Int2Cart GRU神经网络模型也可用于其他链分子(如核酸和脂质等),研究者只需使用新数据进行重新训练。
参考文献
【1】Li, J.; Zhang, O.; Lee, S.; Namini, A.; Liu, Z. H.; Teixeira, J. M. C.; Forman-Kay, J. D.; Head-Gordon, T. Learning Correlations between Internal Coordinates to Improve 3D Cartesian Coordinates for Proteins. J. Chem. Theory Comput. 2023, 19 (14), 4689–4700.
- 搜索
-
- 1000℃Cell | 曾泽贤/潘登/冯驭团队开发SPAC-seq新技术,实现空间分辨率下高通量CRISPR筛选
- 1000℃福建师范大学ACS Nano:人工智能驱动的Janus敷料用于可视化伤口诊疗
- 1000℃中科院苏州纳米所ACS Nano综述:通过可穿戴AI接口学习人类-环境交互
- 1000℃Cancer Discov | 新型AI基础模型可根据基因型精准预测癌症治疗反应,涵盖10种实体瘤超3万个肿瘤基因组数据
- 1000℃新加坡国立大学/复旦大学《自然·通讯》:抗氧化脂质纳米颗粒增强mRNA稳定性用于再生治疗和基因编辑
- 1000℃489例疑似罕见遗传病患者进行全外显子测序WES:确诊率达53%,5.5%检出心血管或肿瘤相关基因变异
- 1000℃Nat Cancer | 基于组织病理学图像的AI模型可快速识别102种CNS肿瘤亚型,表现优于神经病理学家
- 1000℃国立清华大学《自然·通讯》:工程化人类PEG10纳米颗粒实现RNA自包装、递送与癌症治疗
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)