首页 > 医疗资讯/ 正文
引言
从水中摇曳的水草到翱翔天际的雄鹰,从我们自身到身边的宠物,每一个生命体都由一部独特的“天书”——基因组(Genome)所编码。一个更令人着迷的谜题是,我们体内的肝脏细胞和大脑神经元拥有完全相同的基因组“文本”,为何却分化出截然不同的形态和功能?
答案隐藏在基因组的“标点符号”和“语法规则”中,即那些被称为“调控元件(Regulatory Elements)”的DNA序列。它们如同一排排精密的开关,精准地控制着基因在何时、何地、以何种强度开启或关闭。然而,这本“生命说明书”的语法极其复杂,长期以来,我们既缺乏一张完整的高清“地图”,也缺少一把能解读其深层逻辑的“钥匙”。7月8日,《Cell》的重磅研究“Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning”为我们带来了历史性的突破。研究人员不仅开发了一项名为UUATAC-seq的“超能”技术,绘制了横跨五亿年演化史的脊椎动物调控图谱,更创造了一个名为“女娲”(NvwaCE)的人工智能模型,以前所未有的精度,开始真正“读懂”生命的底层指令。
神兵利器“UUATAC-seq”:一把看清基因“开关”的超清放大镜
如果我们想了解一座庞大城市(基因组)的电力系统,我们需要知道哪些开关(调控元件)是“开着”的,哪些是“关着”的。在生物学中,一种主流技术是ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing),它的原理很巧妙:利用一种叫做“转座酶(transposase)”的生物分子“探针”,专门去“剪切”那些处于“开放”状态、可以被访问到的DNA区域。这些区域通常就是活跃的调控元件。通过对这些剪切下来的DNA片段进行测序,我们就能绘制出一张细胞的“染色质可及性图谱(chromatin accessibility landscape)”,也就是一张“电力系统”的实时快照。
然而,传统的单细胞ATAC-seq技术(single-cell ATAC-seq)一直面临着“鱼与熊掌不可兼得”的困境。它们要么像一台老式相机,分辨率低、信噪比差,捕获到的信息(DNA片段)少得可怜;要么像一台笨重的专业设备,流程繁琐、成本高昂,难以进行大规模研究。许多现有方法在技术原理上存在一个根本性缺陷:它们使用的“双末端接头转座酶(dual-adaptor transposase)”在标记DNA片段时,有一半的产物因为两端接上了相同的“标签”而无法在后续步骤中被扩增,导致高达50%的宝贵信息被白白浪费。
为了彻底解决这些痛点,研究人员开发出了一套全新的技术——UUATAC-seq(Ultra-throughput, ultra-sensitive ATAC-seq)。这个名字直截了当地宣告了它的三大特性:超高通量、超高灵敏度和超高效率。UUATAC-seq的成功,源于几个核心的巧妙设计:
首先,它采用了一种“同源接头转座酶(homo-adaptor transposase)”系统。这一改变从根本上解决了信息丢失的问题。它确保了所有被转座酶成功切割的DNA片段,无论两端是什么样的“标签”,都能100%被用于后续的扩增和测序。这就好比将相机的感光元件利用率从50%直接提升到了100%,极大地提升了数据的灵敏度和捕获效率。
其次,研究人员设计了一套精巧的、分四轮进行的“组合条形码(combinatorial barcoding)”策略。这就像一个层层递进的、高效的包裹分拣系统。第一轮,在细胞核内,利用携带了第一种条形码的转座酶进行标记;第二轮,通过杂交连接反应,加上第二种条形码;第三轮,通过一种研究人员独创的“温控接头转换(temperature-controlled adaptor switch)”技术,巧妙地加上第三种条形码;最后,在PCR扩增时引入第四种条形码。这种四轮“加密”系统,使得研究人员仅用少量条形码就能组合出海量的唯一身份标识,从而能够在一个实验中同时处理数百万甚至更多的细胞,实现了前所未有的通量。
那么,UUATAC-seq的实战表现究竟如何?研究人员进行了一系列严苛的测试。在一个经典的“人鼠细胞混合实验”中,他们将人类细胞核与小鼠细胞核混合在一起进行UUATAC-seq分析。结果显示,被错误识别的“混合细胞核”比例仅为0.599%,这证明了该技术极高的准确性和极低的交叉污染率。
在数据质量上,UUATAC-seq更是展现了“碾压级”的优势。以培养的293T细胞为例,UUATAC-seq平均每个细胞核能检测到22,642个独特的DNA片段(Unique Fragments, UFs),而目前被广泛使用的10x Genomics scATAC-seq技术,即使是最新版本,其检测到的片段数也仅在22,000到30,000之间,但UUATAC-seq的通量却远超对手。更重要的是,在评估数据信噪比的关键指标——TSS富集分数(TSS enrichment score,即信号在基因起始位点的富集程度)上,UUATAC-seq也表现优异。
为了进行一次“终极对决”,研究人员将UUATAC-seq与包括10x scATAC、sci-ATAC-seq等在内的9种主流snATAC-seq技术,在同一样本——小鼠大脑上进行了全面的基准比较。结果令人震撼:在随机抽样3000个细胞核进行分析时,UUATAC-seq在所有核心指标上均拔得头筹。它检测到的独特片段数最高,鉴定出的开放区域(peaks)数量最多(达到130,461个),并且有效数据比例(Fraction of Reads In Peaks, FRIP,即测序数据中真正落在有效开放区域的比例)也最高。
最能体现其强大威力的是一个直观的比较:研究人员仅用UUATAC-seq对一只小鼠的所有主要组织进行了一次实验,就获得了超过58万个高质量的细胞核数据。这次单次实验所产生的总分子信息量(以TSS富集度乘以总独特片段数计算)高达154.6万亿,这一数值远超其他所有技术单次实验所能达到的总和。作为对比,另一个大型的小鼠细胞图谱项目sci-ATAC-seq3,其单次实验的信息量约为2.2万亿。这不仅仅是量的提升,更是质的飞跃,意味着UUATAC-seq为构建生命图谱提供了一种前所未有的、兼具深度和广度的强大工具。
五大物种“生命天书”:从鱼到鼠,一幅横跨亿年的生命全景图
拥有了UUATAC-seq这把“神兵利器”,研究团队开启了一项雄心勃勃的计划:绘制一幅横跨脊椎动物演化史的“生命说明书”。他们精心挑选了五种代表性物种,它们在演化树上占据了关键节点,并且基因组大小差异巨大,覆盖了鱼类的斑马鱼(Zebrafish),其基因组约14亿碱基对;以超强再生能力闻名的两栖类代表——墨西哥钝口螈(Axolotl),它拥有一个庞大到惊人的基因组,约320亿碱基对;爬行类的代表豹纹守宫(Gecko),基因组约22亿碱基对;鸟类的代表鸡(Chicken),基因组约11亿碱基对;以及研究最深入的哺乳类模式生物——小鼠(Mouse),其基因组约27亿碱基对。这种巧妙的物种选择,覆盖了从10亿到320亿碱基对的巨大基因组跨度,为研究基因组大小如何影响调控复杂性提供了一个完美的天然实验场。
得益于UUATAC-seq的超高效率,研究人员为每一种动物构建染色质可及性图谱都只用了一天的时间和一个批次的实验,这在以往是不可想象的。最终,他们成功获取了超过105万个高质量的单细胞核染色质可及性图谱,以前所未有的分辨率揭示了这五大物种、数百种细胞类型的“基因开关”状态。
通过对这片数据“新大陆”的深入探索,研究人员发现了一些关于生命调控的基本规律:一个惊人的发现是,基因组的大小与调控元件的总数成正比,但与单个调控元件的大小无关。具体来说,拥有320亿碱基对基因组的墨西哥钝口螈,其体内的候选顺式调控元件(candidate cis-regulatory elements, cCREs)数量远超基因组仅有11亿碱基对的鸡。然而,当我们观察单个cCRE时,却发现它们的长度在所有物种中都惊人地保守,中位数稳定在250个碱基对左右。
这就像比较一本小册子和一部鸿篇巨著《大英百科全书》。《大英百科全书》的“句子”(cCREs)总数远多于小册子,但每句话的平均长度(~250个单词/碱基对)却是相似的。这揭示了一个深刻的演化原则:基因组的扩张主要是通过增加调控“开关”的数量和复杂性,而不是改变“开关”本身的基本构造。
研究人员还发现,在所有物种中,基因的“启动子(Promoter)”区域——即基因转录的起点——存在两种截然不同的cCRE模式。一种是长度约为250碱基对的狭窄开放区域,富含CTCF等与特定谱系相关的转录因子结合位点,其功能更像“增强子(Enhancer)”或“抑制子(Repressor)”,负责精细调节;另一种是长度约为900碱基对的宽阔开放区域,富含SP1等“管家基因(housekeeping gene)”相关的基序,负责维持细胞的基本生命活动。这一发现统一了长期以来关于启动子和增强子在结构与功能上的争论,表明它们可能共享着一套更为底层的设计逻辑。
基因组大小的差异还体现在调控的复杂度上。研究人员利用Cicero算法分析了基因调控网络。以关键的造血转录因子Gata2基因为例,在小鼠体内,围绕该基因的调控连接网络相对简洁。然而,在基因组庞大的墨西哥钝口螈中,同一个Gata2基因的同源基因,其周围的调控网络却复杂了近10倍,呈现出一张密密麻麻、错综复杂的“蜘蛛网”。这直观地展示了,更大、更复杂的基因组意味着更长程、更复杂的基因调控方式。
AI“女娲”横空出世:一块破译天书的“罗塞塔石碑”
手握这五大物种、超过百万细胞的“生命天书”,研究人员面临着一个终极挑战:我们有了高清地图,但如何读懂地图上的“语言”?这些由A、T、C、G四种碱基组成的序列,究竟遵循着怎样的“语法规则(grammar)”,才能让一个细胞成为肝细胞,而不是神经元?
为了回答这个问题,研究人员构建了一个强大的深度学习模型,并给它起了一个富有东方智慧的名字——女娲(NvwaCE)。NvwaCE的使命,就像神话中的女娲抟土造人一样,是从最基本的元素——DNA序列——中“创造”出对细胞身份的理解。
NvwaCE的核心任务是:输入任意一段500碱基对的DNA序列,它需要准确预测出在图谱中的每一个细胞类型里,这段DNA是“开放的”还是“关闭的”。这是一个“兆任务(mega-task)”级别的挑战,因为模型需要同时为数十万个细胞输出预测结果。
研究人员首先对模型进行了精心打磨。他们测试了不同深度的神经网络(ResNeXt架构)、不同长度的输入序列以及不同质量的训练数据,最终确定了一套最优化的模型架构和训练方案。他们发现,更高质量的训练数据是提升模型性能的关键。使用UUATAC-seq产生的高质量小鼠图谱训练出的NvwaCE,其性能远超使用其他技术产生的、质量较低的数据集训练出的模型。
经过训练的NvwaCE表现如何?其准确性以“AUROC”(Area Under the Receiver Operating Characteristic curve)值来衡量,该值越接近1,表示模型预测越准确。在对五大物种的预测中,NvwaCE在单细胞水平上的AUROC值普遍高于0.80,在某些细胞类型中甚至可以达到0.95以上。当把10个单细胞的数据合并成一个“伪批量(pseudo-bulk)”样本时,NvwaCE对小鼠图谱的预测AUROC值更是达到了惊人的0.93!这表明NvwaCE已经能非常精准地从DNA序列中解读出其在特定细胞中的状态。
接下来是真正的“大考”:NvwaCE能否具备“触类旁通”的能力,去预测一个它从未“学习”过的物种?研究人员用在小鼠数据上训练好的NvwaCE模型,去扫描人类、猕猴、牛、猪等另外七种哺乳动物的基因组。
结果令人振奋。NvwaCE成功地预测出了这些全新物种的谱系特异性染色质可及性图谱。更重要的是,它不仅识别出了那些已经被ENCODE等大型国际项目注释过的已知cCRE,还发现了大量全新的、未被注释的调控元件。在对人类基因组的预测中,高达44.89%的被预测为cCRE的序列是全新的!这些新发现的cCRE大多位于以往研究中被忽略的稀有细胞类型,如肾上腺皮质细胞和垂体细胞。
这一结果有力地证明,NvwaCE模型所学到的,并非简单的序列模式匹配,而是超越物种界限的、更深层次的“调控语法”。就像古埃及的罗塞塔石碑,上面刻有三种不同文字的同样内容,帮助后人破译了失传的象形文字一样,NvwaCE通过学习不同物种的调控图谱,掌握了那套比DNA序列本身更古老、更保守的“生命语法规则”。这把“钥匙”终于能让我们开始解读“生命天书”的真正含义。
从预测到治疗:AI“先知”开启基因医学新纪元
如果说UUATAC-seq是“望远镜”,多物种图谱是“星图”,那么NvwaCE就是一位能够预测天体运行的“先知”。这位“先知”最令人兴奋的能力,在于它能精准预测基因组中一个微小变动——哪怕只是一个碱基的改变——会带来怎样的功能后果。这为理解遗传病和开发基因疗法打开了全新的大门。
研究人员首先将NvwaCE用于分析已知的、与人类疾病相关的非编码区突变,即“数量性状位点(Quantitative Trait Loci, QTLs)”。结果显示,NvwaCE的预测与已知的临床表型高度一致。例如,它准确预测出rs1168116位点的变异会影响肝细胞中特定基因的调控,从而与甘油三酯水平相关;而rs34038797位点的变异则会影响免疫细胞的功能,与淋巴细胞计数有关。
为了进一步验证NvwaCE在精准医疗领域的巨大潜力,研究团队选择了一个经典的、具有重大临床意义的目标——镰状细胞贫血病(Sickle Cell Disease)的治疗。这种疾病的根源在于成年后表达的β-珠蛋白(β-globin)基因发生了突变。一个有效的治疗策略是重新“唤醒”在胎儿时期表达、成年后被“沉默”的γ-珠蛋白(γ-globin,也称胎儿血红蛋白,HBG),以补偿有缺陷的β-珠蛋白。因此,找到能够安全、高效开启HBG基因的“开关”突变,是该领域的研究热点。
传统的寻找方法依赖于昂贵且耗时的大规模实验筛选。而现在,研究人员让NvwaCE“先知”来完成这项工作。他们将一个经过人类造血干细胞数据微调的NvwaCE模型,对HBG基因启动子上游500个碱基对的区域进行了“饱和定点突变(in silico saturation mutagenesis)”分析。这意味着,模型在计算机里模拟了这500个位置上每一个可能的单碱基突变,并预测其对HBG基因“开关”的影响。
随后,他们将NvwaCE的预测结果与一项已发表的、使用腺嘌呤碱基编辑器(Adenine Base Editor, ABE)在人CD34+造血干细胞中进行的真实实验筛选结果进行对比。结果的吻合程度令人难以置信:NvwaCE的预测值与实验测量值之间的皮尔逊相关系数(Pearson correlation coefficient)高达0.96,模型预测准确率(ACC)为1!这表明NvwaCE的预测能力几乎等同于真实世界的实验结果,但速度和成本却有天壤之别。
更激动人心的是,NvwaCE不仅准确再现了已知的有效突变位点,还做出了一个全新的、大胆的预测。在所有可能被ABE靶向的位点中,模型预测-68位点的A>G突变是诱导HBG表达第三有效的突变。这个-68位点周围存在一个强烈的负向调控基序,而这个突变在任何公共数据库(如dbSNP)或已发表的文献中都从未被报道过。这是一个纯粹由AI发现的、全新的潜在治疗靶点。
为了验证这个“AI预言”,研究团队在实验室里进行了最终的验证。他们使用基因编辑技术,在人类红系祖细胞Hudep2中精确地引入了-68 A>G突变。实验结果完美地印证了NvwaCE的预测:尽管基因编辑的效率只有23.75%,但经过编辑的细胞群体中,HBG1/2基因的表达量却实现了惊人的30倍增长!
从一个全新的实验技术,到一幅跨越亿万年演化史的生命蓝图,再到一个能够精准预测并指导疾病治疗的人工智能模型,这项发表在《细胞》上的研究工作完成了一个完美的闭环。它不仅为我们理解生命的复杂调控提供了全新的理论框架和数据资源,更展示了AI与生命科学深度融合所能爆发出的巨大能量。
“生命天书”的扉页已经打开,在UUATAC-seq和“女娲”模型的帮助下,我们正以前所未有的清晰度和洞察力,开始阅读那些决定我们从何而来、我们将去往何处的最深刻的篇章。
参考文献
https://www.cell.com/cell/fulltext/S0092-8674(25)00686-5
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)