首页 > 医疗资讯/ 正文
人类基因组中非编码区域的信息解码一直是基因组学领域的基础性难题,调控元件如何在不同细胞类型中调控基因表达机制的问题至今仍未得到充分解决,非编码变异如何破坏DNA序列底层的调控语法也尚未完全阐明。随着表观基因组测序技术的发展,积累了大量可供研究这些问题的数据,包括染色质可及性、DNA甲基化、组蛋白修饰和三维染色质互作等,研究人员可以对基因组非编码区域的信息进行系统化解读。
与此同时,自然语言与生物序列之间的内在相似性启发了在基因组学中使用大型语言模型的尝试。大型语言模型的开发是近年来人工智能突破的主要推动力,并在生物信息学中得到了广泛应用。然而,目前的主流基因组语言模型往往仅DNA序列作为模型输入,在预测未知细胞类型中的表观基因组信号方面仍然存在局限。亟需发展具有细胞类型特异性感知能力的预训练语言模型,实现对任意细胞类型和基因组区域的表观基因组信号预测,将会为解码基因调控机制、解读致病遗传变异提供更多的信息。

针对上述挑战和局限,斯坦福大学统计系Wing Hung Wong教授、其博士后刘桥(即将加入耶鲁大学生物统计系任职助理教授)、清华大学自动化系江瑞教授合作在Genome Biology发表题为“EpiGePT: a pretrained transformer-based language model for context-specific human epigenomics”的通讯文章。此文章提出了EpiGePT模型,突破了传统模型和现有基因组语言模型在新细胞类型下预测能力的局限,利用DNA序列信息、转录因子表达信息和转录因子结合基序(TF-motif)信息准确预测包括染色质开放性、组蛋白修饰、转录因子结合强度多种表观基因组学信号。该模型通过引入转录因子模块,使模型具备细胞类型感知能力,并融入3D染色质相互作用数据引导模型训练,从而实现了调控元件-启动子互作等三维基因组特征的高效预测。
具体而言,EpiGePT基于多种细胞系或组织的细胞群测序数据进行大规模预训练,其输入包含两个模块:1)序列模块。EpiGePT通过卷积、池化等操作学习长度为128 kbp的基因组区域的特征,并得到1000个分辨率为128bp的基因组区间的数字嵌入表示,作为Transformer编码器模块的输入特征之一。2)转录因子模块。EpiGePT利用转录因子基序结合知识数据库和已有工具Homer获取711个转录因子在每个128bp的基因组区间的潜在结合状态,并和转录因子的表达值(标准化后的TPM 值)相乘,得到每个基因组区间的细胞类型特异的嵌入表示。通过在token层面融合两种嵌入表示,构建Transformer编码器模块的输入特征,并利用其输出结合线性层,在token层面同时预测每个基因组区间的8种表观基因组信号。该模型在104种细胞系或组织的数据上进行了预训练和实验验证。此外,研究团队在部分细胞类型中融入三维基因组互作信息,并通过引入额外的损失函数,引导Transformer模块中自注意力机制的学习,从而增强模型对潜在染色质互作关系的捕捉能力。
基于EpiGePT,研究人员能够通过在人类任意细胞类型和基因组区域完成表观基因组信号的精确预测。研究团队也验证了EpiGePT模型在迁移至小鼠染色质开放性预测任务的泛化能力。EpiGePT能够通过直接基于自注意力分数、基于模型微调、基于三维基因组数据引导后的自注意力分数三种方式预测增强子-启动子、沉默子-启动子等顺式调控关系,同时也能够通过梯度筛选出特定细胞类型中发挥关键调控作用的转录因子。此外,EpiGePT在筛选致病遗传变异进行了研究,模型输出的细胞类型特异的数字表征能够提升已有工具(CADD)预测致病变异的准确性。以上研究结果充分验证了EpiGePT的高准确性和强泛化能力,表明其能够为基因调控机制和遗传变异研究提供有力支持,并有望推动精准医学和靶向药物研发的进程。
研究团队开发了网站http://health.tsinghua.edu.cn/epigept并提供了EpiGePT开源预训练模型以及在线预测服务。
该研究得到了NIH K99/R00基金、国家自然科学基金等项目的资助。清华大学自动化系博士生高子靖与斯坦福大学统计系刘桥为论文的共同第一作者,斯坦福大学统计系Wing Hung Wong、刘桥与清华大学自动化系江瑞为论文共同通讯作者。相关成果于2024年12月发表于生物信息学领域旗舰期刊《基因组生物学(Genome Biology)》。
论文信息:
Gao et al. EpiGePT: a pretrained transformer-based language model for context-specific human epigenomics. Genome Biology 2024, 25: 310. https://doi.org/10.1186/s13059-024-03449-7.
- 搜索
-
- 1000℃Cell | 曾泽贤/潘登/冯驭团队开发SPAC-seq新技术,实现空间分辨率下高通量CRISPR筛选
- 1000℃福建师范大学ACS Nano:人工智能驱动的Janus敷料用于可视化伤口诊疗
- 1000℃中科院苏州纳米所ACS Nano综述:通过可穿戴AI接口学习人类-环境交互
- 1000℃Cancer Discov | 新型AI基础模型可根据基因型精准预测癌症治疗反应,涵盖10种实体瘤超3万个肿瘤基因组数据
- 1000℃新加坡国立大学/复旦大学《自然·通讯》:抗氧化脂质纳米颗粒增强mRNA稳定性用于再生治疗和基因编辑
- 1000℃489例疑似罕见遗传病患者进行全外显子测序WES:确诊率达53%,5.5%检出心血管或肿瘤相关基因变异
- 1000℃Nat Cancer | 基于组织病理学图像的AI模型可快速识别102种CNS肿瘤亚型,表现优于神经病理学家
- 1000℃国立清华大学《自然·通讯》:工程化人类PEG10纳米颗粒实现RNA自包装、递送与癌症治疗
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)