首页 > 医疗资讯/ 正文

Nat Commun |伯晓晨/陈河兵/廖明帜/李昊团队开发DNA基础模型SUCCEED,推动功能基因组智能解析

来源 2026-05-25 08:25:26 医疗资讯

深度解析医学证据,DeepEvidence为你支撑决策

基于DNA序列预测基因组调控功能,是解析非编码变异、细胞类型特异调控程序和三维基因组结构的重要基础。近年来,深度学习模型在转录因子结合、染色质可及性、组蛋白修饰、基因表达和3D染色质结构预测等任务中展现出强大潜力。然而,现有序列模型多面向单一任务或特定数据集训练,往往依赖重复训练,难以在不同细胞类型、不同组学模态及不同尺度任务之间实现高效迁移。

近日,军事医学研究院伯晓晨、陈河兵、李昊团队联合西北农林科技大学廖明帜团队在Nature Communications发表题为“Large-scale data-driven pre-trained DNA models enhance performance across diverse genomics tasks”的研究论文。该研究提出了一种面向功能基因组学任务的有监督多任务DNA基础模型SUCCEED(Sequence-Functional Genome Foundation Model)该模型基于6,389ENCODE功能基因组信号进行大规模预训练,整合卷积神经网络与Transformer架构,能够同时捕获局部序列基序和远距离调控依赖关系,为从DNA序列出发预测多层次基因组调控信息提供了新的计算框架。

SUCCEED模型设计与验证

为捕捉不同尺度上的顺式调控语法,研究团队设计了融合局部与远程序列信息的混合架构SUCCEED。该模型主要由四个模块组成:用于早期基序提取的卷积前端、多阶段下采样卷积塔、用于建模长程依赖关系的Transformer编码器,以及支持多任务输出的点式预测头。

其中,一维卷积神经网络可识别启动子、增强子等顺式调控元件中的保守局部序列基序;下采样模块逐步降低序列分辨率,从不同基因组区域整合信息;Transformer模块进一步建模远距离基因组区域之间的相互作用;最终,多任务预测头可同时预测染色质可及性、组蛋白修饰、转录因子结合等多类调控信号。

在预训练阶段,研究团队从ENCODE数据库系统整理了6,389个功能基因组tracks,覆盖多种组织、细胞类型和表观基因组信号,包括染色质可及性、组蛋白修饰和转录因子结合等。SUCCEED以one-hot编码DNA序列为输入,通过6,389个任务特异性输出头学习DNA序列与调控功能之间的映射关系。该有监督多任务预训练策略,使模型能够直接学习与生物调控功能相关的可迁移表征。

图1. SUCCEED框架概述

高效精准的基因组预测能力

研究团队首先在DNA-only设定下,将SUCCEED与代表性序列模型Enformer进行了系统比较。尽管SUCCEED使用了更少的卷积核和Transformer层数,但在多个表观基因组预测任务中仍表现出强竞争力。

在CAGE信号预测中,SUCCEED的Pearson相关系数达到0.760,高于Enformer的0.703;在组蛋白修饰ChIP-seq任务中,SUCCEED达到0.698,与Enformer的0.692基本相当;在转录因子ChIP-seq和DNase/ATAC-seq任务中,SUCCEED也取得了接近Enformer的预测精度。进一步在CD44基因座上的可视化结果显示,SUCCEED能够较好重现多类实验测量信号,说明其可以捕获基因组局部区域的真实调控模式。

研究团队还在7项常用基因组学基准任务中评估SUCCEED,包括启动子预测、TATA启动子预测、核心启动子预测以及人类剪接位点预测等。在相同数据集上,微调后的SUCCEED平均准确率达到0.906,高于从头训练模型的0.891,说明大规模有监督预训练能够提升模型在多类序列功能任务中的泛化能力。

图2. SUCCEED模型性能评估

预测细胞类型特异表观基因组图谱

细胞类型特异性表观基因组图谱预测,是功能基因组学中的核心任务。为增强模型在未见细胞类型中的预测能力,研究团队在SUCCEED框架中加入了处理细胞类型特异染色质状态的编码器,将DNA序列表征与ATAC-seq信号表征进行融合,从而预测细胞类型特异的组蛋白修饰、转录因子结合及其他表观基因组特征。

研究团队将SUCCEED与现有代表性方法EPCOT进行比较。在跨染色体测试中,SUCCEED在大多数表观基因组标记上优于EPCOT,尤其在组蛋白修饰预测方面表现突出;在转录因子结合预测中,SUCCEED也在多数标记上取得更高准确率。在跨细胞类型测试中,SUCCEEDIMR-90A549等未见细胞系中保持较强泛化能力,并在多种组蛋白修饰与转录因子结合任务中优于EPCOT。

进一步与多种自监督DNA基础模型和有监督模型比较发现,基于大规模功能基因组数据进行有监督预训练的SUCCEED和Sei,整体优于仅基于DNA序列进行自监督训练的模型。SUCCEED在多种常见表观基因组信号预测中取得最佳综合表现,凸显了功能基因组监督信息对DNA基础模型训练的重要价值

图3. SUCCEED在细胞类型特异表观基因组图谱预测中优于其他模型

增强低质量ATAC-seq与scATAC-seq数据

ATAC-seq能够在全基因组范围内刻画染色质可及性,但其信噪比高度依赖测序深度、样本质量和实验条件。尤其是在scATAC-seq数据中,稀疏性和噪声问题更加突出,限制了稀有细胞类型调控元件的识别。

基于SUCCEED学习到的调控语法先验,研究团队进一步构建了染色质可及性数据去噪与增强框架。该框架以DNA序列和低质量ATAC-seq或scATAC-seq信号为输入,将SUCCEED提取的序列先验与噪声信号编码器提取的特征拼接后,经解码器输出增强后的高质量信号。

在低质量bulk ATAC-seq数据中,SUCCEEDPearson相关系数和AUPRC指标上均优于AtacWorks,并在极低测序深度下仍保持较高准确性。在scATAC-seq场景中,SUCCEED即使仅使用单细胞输入,也能够重建较可靠的染色质可及性图谱,其性能接近传统方法使用约300个细胞得到的结果。对于效应CD4⁺ T细胞等低信号细胞群,SUCCEED也能从少量细胞中恢复关键调控区域活性

消融实验进一步证明,SUCCEED提供的调控先验对数据增强至关重要。在未见红系细胞样本、0.2 million reads测序深度条件下,基于SUCCEED的模型在peak calling任务中的AUPRC达到0.38,而不使用SUCCEED的对照模型仅为0.17。以上结果表明,SUCCEED可作为低质量bulk ATAC-seqscATAC-seq数据增强的通用框架。

图4. SUCCEED提升染色质可及性数据去噪与增强效果

预测细胞类型特异三维染色质结构

三维染色质结构在基因调控、细胞身份维持和疾病发生中发挥重要作用。然而,高分辨率Hi-C和HiChIP等实验成本较高,且对样本质量和细胞数量要求较高,限制了其在大规模细胞类型研究中的应用。

研究团队将SUCCEED进一步用于细胞类型特异三维染色质结构预测。与C. Origami等依赖ATAC-seq和CTCF ChIP-seq输入的方法不同,SUCCEED通过大规模表观基因组预训练学习到长程序列依赖关系,因此能够在缺少CTCF输入的条件下重建三维染色质结构

在IMR-90、GM12878、K562等数据集中,SUCCEED预测的接触矩阵与实验Hi-C数据高度一致,并在insulation score等指标上优于或接近现有方法。值得注意的是,SUCCEED在仅使用ATAC-seq与DNA序列信息时,仍可准确重建三维染色质结构,说明其学习到的序列调控先验知识能够补充部分实验信号缺失

在单细胞应用场景中,研究团队利用scATAC-seq数据训练和测试SUCCEED。结果显示,即使训练细胞数不超过200个,SUCCEED仍能保持较高预测准确率,并有效恢复细胞类型特异的三维染色质特征。这为利用更易获得的scATAC-seq数据推断3D基因组结构提供了新思路。

图5. SUCCEED预测细胞类型特异三维染色质结构

结 语

本研究提出的SUCCEED,是一种数据驱动、可迁移、可扩展的DNA基础模型。该模型通过整合卷积神经网络与Transformer架构,在大规模ENCODE功能基因组数据上进行有监督多任务预训练,能够同时学习局部序列基序和远距离调控依赖关系

在多个下游任务中,SUCCEED展现出稳定的性能优势,包括基因组功能预测、跨尺度迁移学习、细胞类型特异表观基因组图谱预测、低质量ATAC-seq与scATAC-seq数据增强,以及细胞类型特异三维染色质结构预测。与此同时,SUCCEED还表现出一定的零样本跨物种迁移能力,可在未使用小鼠数据训练的情况下,对小鼠组织和早期胚胎发育阶段的调控信号进行预测。

总体来看,SUCCEED为DNA基础模型的发展提供了一种新的研究范式。相较于仅依赖DNA序列进行自监督学习的模型,基于大规模功能基因组数据的有监督预训练策略,更有助于模型学习真实且具有生物学意义的调控功能,从而提升对复杂基因调控规律的表征能力与泛化能力。随着未来更多组织类型、疾病状态、发育阶段以及单细胞多组学数据的不断积累,SUCCEED有望进一步拓展至复杂疾病非编码变异功能解释、稀有细胞类型调控机制解析以及多组学整合建模等更复杂的应用场景,成为推动功能基因组智能解析的重要基础框架。与此同时,将自监督预训练与基于大规模功能基因组数据的有监督学习相结合,可能成为未来解析DNA序列信息与基因调控语法的重要方向,并为深入理解基因组序列与生物功能之间的复杂关系提供新的思路。

阅读全文

Tags: Nat Commun |伯晓晨/陈河兵/廖明帜/李昊团队开发DNA基础模型SUCCEED,推动功能基因组智能解析  

搜索
网站分类
标签列表