首页 > 医疗资讯/ 正文

Nature Methods:蛋白质“变形金刚”设计指南:AI“脑补”自然进化,一键生成智能分子开关

来源 2025-08-10 12:10:27 医疗资讯

引言

生命,这座宏伟而复杂的殿堂,其运转的基石是蛋白质——一群不知疲倦的纳米级分子机器。它们有的负责催化生化反应,有的负责传递信号,有的则构成我们身体的支架。然而,这些天然的分子机器并非总是能完全满足我们的需求。在合成生物学和精准医疗的时代,我们渴望能够随心所欲地控制这些机器,让它们在特定的时间、特定的地点,响应特定的信号,执行特定的任务——就像给它们安装一个“开关”一样。

这种通过引入一个“感应”模块来控制“功能”模块活性的蛋白质,被称为变构蛋白开关(allosteric protein switches)。然而,设计这些“智能”蛋白质,尤其是决定将“感应”模块插入到“功能”模块的哪个位置,长期以来都是一个巨大的挑战。这就像给一架精密的机械表增加一个新齿轮,位置稍有不慎,整个手表就会停摆。传统的方法依赖于大量的试错筛选,耗时耗力,成功率低,如同大海捞针。

8月4日一项发表于《Nature Methods》的研究“Rational engineering of allosteric protein switches by in silico prediction of domain insertion sites”,为我们带来了一把开启新世界大门的钥匙。研究人员开发了一种名为 ProDomino 的人工智能模型。它通过向大自然的进化智慧“学习”,能够精准预测蛋白质分子上的最佳“改造点”,从而将设计智能蛋白质的模式,从“大海捞针”的蛮力时代,带入了“按图索骥”的智能时代。

图片

蛋白质世界的“混搭”与工程师的“无从下手”

要理解这项研究的巧妙之处,我们首先来看下蛋白质的构造哲学。许多蛋白质并非一个完整的整体,而是由多个相对独立的结构和功能单元——结构域(domains)——像乐高积木一样拼接而成。在数亿年的进化长河中,大自然这位最伟大的工程师,最擅长的就是“混搭”这些结构域,创造出功能千变万化的新蛋白质。

其中一种极为强大的“混搭”策略,就是结构域插入(domain insertion)。这并非简单的将两块乐高积木首尾相连,而是将一个结构域(我们称之为“插入结构域”,insert domain)完整地嵌入到另一个结构域(“亲本结构域”,parent domain)的内部。这种“你中有我”的紧密耦合,使得两个结构域在结构和功能上产生了深度的相互依赖。一旦插入结构域的构象发生变化(例如,因为它结合了一个小分子或感受到光),这种变化就可能通过机械力传导给亲本结构域,从而像多米诺骨牌一样,开启或关闭亲本结构域的功能。

这正是设计变构蛋白开关的黄金策略。理论上,我们只要找到一个合适的感应结构域(如光敏结构域或药物结合结构域)和一个我们想控制的功能结构域(如一个酶或一个基因编辑器),然后将前者插入后者的某个关键位置,就能创造出一个光控或药控的分子开关。

但理想很丰满,现实很骨感。这个“关键位置”到底在哪?蛋白质的氨基酸链条长短不一,从几十到几千个氨基酸不等,可能的插入位点成千上万。大多数插入都会直接破坏亲本蛋白质的折叠和功能,导致其彻底失活。只有极少数的“幸运”位点,不仅能容纳一个外来的结构域,还能有效地将感应结构域的构象变化传递出去,实现变构调控。找到这些万里挑一的“变构热点”(allosteric hotspots),是蛋白质工程师们面临的核心难题。过往的研究表明,即便是那些暴露在蛋白质表面、看起来很灵活的环区(loops),也只有一小部分能容忍结构域插入。传统的生物信息学方法因为对蛋白质动态构象的理解有限,预测效果不佳,最终还是得回到实验室进行繁琐的筛选。

从“进化漏洞”到“设计圣经”: ProDomino的诞生

面对这一困境,研究人员转换了思路:既然人工设计这么难,我们何不向大自然学习呢?

他们推测,在自然界中偶然发生的“结构域插入”事件,虽然可能像进化过程中的“Bug”,但这些成功存活下来的“Bug”,本身就是一份完美的“工程说明书”。它们用活生生的例子告诉我们:在何种蛋白质的何种位置,可以成功地进行结构域插入。

于是,一个宏大的计划诞生了:创建一个关于天然结构域插入事件的大规模数据库,然后用它来训练一个机器学习模型。研究人员首先从庞大的 Interpro 蛋白质数据库和 CATH 结构域分类数据库出发,通过复杂的计算流程,筛选出了174,872个独特的天然结构域插入案例。这个数据集横跨整个生命之树,涵盖了202个不同的插入结构域超家族和168个不同的亲本结构域类型。

分析这个数据集本身就带来了一些有趣的发现。比如,最“滥情”的亲本结构域是 P-loop NTPase,它可以和13种不同的插入结构域“配对”;而最“百搭”的插入结构域则是 PDZ 结构域,它能被插入到11种不同的亲本中。更有趣的是,这些自然插入事件似乎是普遍现象,并未偏向于特定的蛋白质类型,这说明其背后的物理化学规律是普适的。

有了这份“设计圣经”,下一步就是训练AI了。研究人员采用了当时最先进的蛋白质语言模型之一 ESM-2。你可以将ESM-2理解为一个精通“蛋白质语言”的翻译大师,它能将一个蛋白质的氨基酸序列,转化为包含丰富结构和功能信息的数学表达——嵌入(embeddings)。这比传统的独热编码(one-hot encoding) 提供了远为丰富的信息。

他们将这些高质量的嵌入向量,输入到一个相对简单的神经网络中,模型的任务是:对于蛋白质序列中的每一个氨基酸位置,预测它是否是一个“耐受插入”的位点。在训练过程中,研究人员还巧妙地使用了一种位置掩码(positional masking) 策略,让模型在每次学习时,只关注一个已知的正确插入位点和一个随机选择的负样本位点。这种做法,既解决了数据中正负样本极度不平衡的问题,也迫使模型更专注于学习区分“好”与“坏”位点的细微差别。

经过这一系列精心设计,一个强大的蛋白质结构域插入位点预测器——ProDomino (Protein Domain Insertion Optimizer)——就此诞生。

牛刀小试:在已知地图上,AI能否找到宝藏?

一个新模型是骡子是马,得拉出来遛遛。研究人员首先选择了一个已经被“前人”详细研究过的蛋白质——细菌转录因子 AraC——作为ProDomino的第一个考场。在之前的研究中,科学家们已经通过实验手段,地毯式地筛选了AraC上几乎所有的插入位点,绘制出了一张详尽的“插入耐受性地图”。

ProDomino能否在不看这张“地图”的情况下,独立地找到上面的“宝藏”?

结果令人振奋。ProDomino对AraC序列的预测分数曲线,呈现出几个明显的峰值。其中最高的两个峰值,恰好对应了AraC上两个已被实验证明的、能够实现强大变构调控的位点:I113 和 S170。更严格的评估指标——受试者工作特征曲线下面积(AUROC)——给出了0.84的高分。这表明,ProDomino不仅能找到“可以”插入的位点,更有潜力直接定位到那些能实现功能开关的“黄金”位点。这场牛刀小试,有力地证明了ProDomino的预测能力。

光影魔术手:用AI点亮抗生素“开关”,实现精准时空猎杀

在已知地图上找到宝藏固然可喜,但在未知世界里开疆拓土才是真正的挑战。研究人员决定将ProDomino应用于全新的蛋白质,目标是设计出光控的“分子开关”。

他们选择了两种常见的抗生素抗性酶:嘌呤霉素乙酰转移酶(PAC) 和 氯霉素乙酰转移酶(CAT)。这两种酶能让细胞分别抵抗嘌呤霉素和氯霉素的毒性。他们的目标是:通过插入一个光敏结构域 AsLOV2(它在蓝光照射下会发生构象变化),让这两种抗性酶变成“光控”的——比如,黑暗中保持活性,蓝光下失活。

ProDomino迅速给出了预测。在PAC中,它指向了E83附近区域;在CAT中,它则锁定了K136位点。这两个位点都位于蛋白质表面的α-β连接环上。

研究人员按照“AI设计图”施工,将AsLOV2结构域插入到了预测的位点。实验结果堪称完美:

在表达光控PAC的人类细胞中,黑暗条件下细胞能抵抗嘌呤霉素的攻击而存活;一旦用蓝光照射,PAC失活,细胞在48小时内纷纷死亡。在表达光控CAT的大肠杆菌中,黑暗中培养的细菌能够正常生长,而在蓝光下培养的细菌则几乎完全停止生长,两者在培养7小时后的光密度(OD)值相差了近20倍。

最令人惊叹的是一个空间控制实验。研究人员将表达光控CAT的细菌均匀铺在培养基上,然后用一个刻有图案的光掩膜(photomask) 从下方进行照射。结果,只有在被掩膜遮挡的黑暗区域,细菌才能生长,完美地“复刻”出了掩膜的图案。这生动地展示了AI设计的分子开关所能达到的精准时空控制能力。

为了更全面地评估ProDomino的可靠性,研究人员还测试了多个高分和低分预测位点。结果显示,模型预测的成功率高达78%。高分预测的位点大多能成功构建出有活性的融合蛋白,而低分预测的位点则大多导致蛋白质失活。这表明,ProDomino的预测分数,是指导实验设计的可靠指标。

终极试炼场:驯服“基因魔剪”CRISPR,从“光控”到“药控”

如果说设计单结构域酶的开关是“困难”模式,那么改造像CRISPR-Cas这样由多个结构域组成的复杂分子机器,无疑是“地狱”模式。CRISPR系统是基因编辑领域的明星工具,如果能给它装上一个精准的开关,实现“指哪打哪”和“随时开关”,将极大地提升其安全性,对基因治疗意义重大。

研究人员首先向最著名的SpCas9系统发起了挑战。此前,已有研究通过大规模的转座子筛选实验,绘制了Cas9的插入图谱。ProDomino的预测结果与该图谱有相当高的一致性 (AUROC为0.71),但同时也预测了几个实验未能发现的、具有高插入潜力的“新大陆”。

研究人员挑选了四个这样的“争议位点”,将AsLOV2光敏结构域插入其中,并与一个转录激活结构域VPR相连,构建成光控的基因激活工具(dCas9-VPR-LOV2)。实验结果再次验证了AI的“远见”。这四个全新的光控Cas9变体,均表现出良好的插入耐受性,并且其中三个展现出强大的光响应性:在黑暗中能高效激活下游基因的表达,其活性是光照下的8倍到14倍之多。

如果说改造Cas9还只是锦上添花,那么对Cas12a系统的改造,则真正展现了ProDomino解决“从无到有”问题的强大能力。Cas12a是另一种重要的基因编辑工具,其单链结构使得设计可控开关的难度更大,此前鲜有成功案例。

ProDomino对MbCas12a(一种Cas12a的直系同源物)的预测图谱呈现出多个峰值,暗示其对结构域插入的耐受性可能更强。研究人员首先测试了多个高分和低分位点的插入耐受性,再次确认了ProDomino预测的可靠性。

随后,他们进入了最终的设计环节。这一次,他们不仅要实现“光控”,还要挑战“药控”。

光控Cas12a:他们选择了活性最好的N1153位点,将AsLOV2插入其中。得到的Cas12a-LOV2杂合蛋白表现出显著的光依赖性,在光照下其基因编辑活性会降低到黑暗条件下的三分之一,成功实现了光控的基因编辑。

药控Cas12a:这是本次研究的华彩乐章。研究人员将光敏结构域AsLOV2,替换为人类糖皮质激素受体2的配体结合域 (GR2)。GR2在没有结合其配体——一种临床常用药物皮质醇(cortisol)——时,结构松散;结合皮质醇后,则会折叠成紧凑的构象。研究人员希望利用这种“药物诱导折叠”的特性,实现对Cas12a的“激活”控制。他们将GR2插入到K487N1153这两个活性位点。

实验结果令人瞩目。尤其是N1153位点的Cas12a-GR2变体,展现出了近乎完美的开关特性。在没有人为添加皮质醇的情况下,它的基因编辑活性几乎为零,接近检测极限;而一旦加入皮质醇,它的活性便“一飞冲天”,在多个内源基因靶点上,其编辑效率能够达到野生型Cas12a的50%至70%。这意味着,研究人员成功地创造出了一种高效、紧密且由临床药物控制的“安全锁”版基因剪刀。

从“大海捞针”到“按图索骥”:重塑蛋白质工程的游戏规则

ProDomino的成功,标志着蛋白质工程领域一个设计范式的转变。它将蛋白质开关的设计,从依赖直觉和大规模筛选的“手工作坊”模式,推向了由数据驱动和模型指导的“智能制造”时代。

这项研究的价值远不止于创造了几个新奇的分子工具。

速度与效率:研究人员在论文中提到,整个实验验证过程——从克隆所有候选蛋白到完成各种检测——仅用了约6个月时间。这与过去为了一个项目耗时数年才能成功的经历相比,是巨大的飞跃。

普适性与可及性:ProDomino的成功并非局限于某一类蛋白质,它在结构和功能迥异的多种蛋白质(转录因子、酶、基因编辑器)上都取得了成功,展示了其广泛的应用潜力。它使得设计定制化的生物传感器、可控的细胞疗法和前沿的科研工具,变得前所未有的高效和可预测。

思想的启迪:ProDomino的核心,是向自然学习。它证明了,蕴藏在海量生物数据中的进化信息,是解决复杂生物学设计问题的金矿。人工智能,正是我们挖掘这座金矿的强大工具。

未来,我们可以想象,将ProDomino与基于结构的预测工具相结合,或者与从头设计全新开关结构域的方法相结合,将进一步释放其潜力。蛋白质工程师们将不再是黑暗中摸索的探险家,而是手持AI绘制的精准地图,自信地走向下一个设计目标的领航员。

生命的设计语言,深奥而复杂。但现在,有了AI这位精通进化语法的“翻译”,我们正以前所未有的速度,破译着这本天书,并开始书写属于我们自己的新篇章。

参考文献

Wolf B, Shehu P, Brenker L, von Bachmann AL, Kroell AS, Southern N, Holderbach S, Eigenmann J, Aschenbrenner S, Mathony J, Niopek D. Rational engineering of allosteric protein switches by in silico prediction of domain insertion sites. Nat Methods. 2025 Aug 4. doi: 10.1038/s41592-025-02741-z. Epub ahead of print. PMID: 40759748.

Tags: Nature Methods:蛋白质“变形金刚”设计指南:AI“脑补”自然进化,一键生成智能分子开关  

搜索
网站分类
标签列表