首页 > 医疗资讯/ 正文
构建全面的人类泛基因组参考需依赖多样化的完整基因组数据,而复杂结构变异(SV)的解析是理解人类遗传多样性的核心。此前研究中,人类基因组组装存在大量缺口,尤其是着丝粒、高度相似的片段重复区域(SDs)等复杂区域,其因技术限制未被完全解析,导致部分蛋白质编码基因缺失。这些“暗物质”区域蕴藏着丰富的遗传信息,与疾病易感性、药物反应等密切相关。
近年来,长读长测序(LRS)技术的发展显著提高了SV的检测灵敏度,还能结合Hi-C、Strand-seq 等技术实现高质量单倍型组装,对构建人类泛基因组参考图谱草图至关重要。特别地,将LRS与PacBio HiFi技术和Oxford Nanopore Technologies (ONT) 超长读长测序技术相结合,为解析这些复杂区域带来了曙光。
近日,来自德国杜塞尔多夫海因里希·海涅大学、美国华盛顿大学等研究团队合作,通过对来自全球28个人群的65个多样性个体(主要来自1KGP)进行深度测序,成功构建了130个高度连续的单倍型基因组,填补了先前92%的基因组组装缺口,39% 的染色体达到端粒到端粒(T2T)完整状态。研究解析了主要组织相容性复合体(MHC)、SMN1/SMN2、AMY1/AMY2 等复杂基因位点的完整序列连续性及1,852个复杂结构变异(CSV),并完成1,246个人类着丝粒的组装验证。将上述数据与泛基因组参考草图结合后,短读长数据的基因分型准确性大幅提升,使得每个个体可检测的SV数量增至26,115个,为疾病关联研究提供了更丰富的结构变异资源。
01 130 个单倍型基因组
研究团队选取千人基因组计划(1kGP)队列中65个淋巴母细胞系进行测序,这些细胞系代表来自五大洲、和28个不同人群的个体。结果显示,平均生成47倍覆盖度的PacBio HiFi reads(长约 18 kb)和56倍覆盖度的ONT长读长数据(超100 kb),同时整合了Strand-seq、Bionano光学图谱等多组学数据。
利用Verkko组装流程,通过Graphasing工具结合Strand-seq实现全局定相,最终成功构建了130个高精度、高连续性的单倍型基因组。经验证,基因组连续性中位数(auN)达137 Mb,碱基准确性中位数为54-57,已知单拷贝基因完整性达99%,填补了92%的既往PacBio HiFi组装缺口。此外,602条染色体实现T2T无缺口组装,559条以单scaffold 形式组装。
图1. LRS、组装及65个人类样本变异检测
02 SV检测与分析
基于上述单倍型组装,以T2T-CHM13为参考,研究团队鉴定出188,500个SVs、630万个插入缺失(indels)和2,390万个单核苷酸变异(SNVs);以GRCh38为参考则鉴定出176,531个SVs、620万个indels和2,350万个SNVs。相较先前数据,该SV数据集规模平均增加59%,假发现率平均降低55%。
研究团队共鉴定出12,919个移动元件插入(MEIs),占总SVs的8.2%,包括559个全长L1插入,96.1%含至少一个完整开放阅读框(ORF),82.3%含两个完整OR。与既往研究相比,MEIs总数增加36.65%。此外,还鉴定出276个基于T2T-CHM13的倒位和298个基于GRCh38的倒位,并发现21个新倒位变异。功能分析发现1,535个SVs破坏985个独特的基因,包括37个功能缺失不耐受基因。GWAS分析显示,3,818个SVs与疾病相关SNPs存在强连锁不平衡。
SD分析显示,平均每个基因组包含168.1 Mb SDs;92.8Mb SDs在90%以上个体中共享,61.0Mb呈现群体差异性;33 Mb为T2T-CHM13中未注释的新SDs。
研究团队成功组装了30名男性的高连续性Y染色体,7个(23%)实现男性特异性区域无断裂组装,其中4个为新的完整Y染色体。研究团队还解析了人类基因组最大异染色质区域Yq12的特征,该区域由高度相似但长度可变的DYZ1和DYZ2重复序列交替排列组成。Yq12异染色质区长度差异显著(17.85–37.39 Mb),重复序列数量及长度均存在高变异。
图2. 针对复杂基因组区域的改进基因组资源
03 复杂基因位点的完整解析
研究团队首次完整组装了MHC区域,注释了27–33 个人类白细胞抗原(HLA)基因、140–146个非HLA基因/假基因。99.2%的HLA等位基因与经典分型一致,发现了826个HLA等位基因新变异,并鉴定出170个未在已报道参考单倍型中出现的SV。此外,MHC II类DR单倍型还反映了经典的HLA-DR分组系统;对RCCX多等位基因簇的表征则揭示了其模块化结构。
图3. MHC基因位点的结构可变区域
研究团队通过更新的PAV算法识别出1,247个CSVs,平均每个基因组72个,包含128种独特的复杂模式。27%CSV涉及局部重复序列、38%涉及局部倒位。研究团队还成功解析了与人类大脑进化相关的NOTCH2NL和NBPF基因区域的三种独特单倍型结构。
在SMN1/SMN2区域(与脊髓性肌萎缩症相关),研究团队组装、验证并表征了101个单倍型,明确了SMN1/2、SERF1A/B等基因的结构及拷贝数。48%单倍型携带两个SMN拷贝,同时发现发现3个仅含SMN2的潜在疾病风险单倍型。研究团队还鉴定出39种不同的淀粉酶(AMY)单倍型(覆盖83%人群),其中4种常见单倍型占比57%,并首次完全解析了含11个AMY1拷贝的最大单倍型(H1L1)。
图4. 人群中的复杂SV
04 着丝粒的遗传与表观遗传变异
研究团队通过Verkko和hifiasm两种算法完整组装了1,246 个人类着丝粒。验证发现,α-卫星高阶重复(HOR)阵列长度存在显著差异(高达37倍),并鉴定出4,153个新α-卫星HOR变异。表观分析显示,所有着丝粒均含至少一个低甲基化区域(CDR),7%的着丝粒存在两个CDR(双动粒结构)。约30% α-卫星HOR序列含移动元件插入,以 L1HS(58%)和 Alu(41%)为主,且多位于CDR外围。
图5. 1,246个人类着丝粒的序列、结构和甲基化模式变化
05 基因分型与泛基因组应用
整合该研究中65个新组装基因组与HPRC中42个基因组构建泛基因组图谱,研究团队使用PanGenie对1kGP队列3,202人进行基因分型,共解析出2,834个SNPs、577万个indels 和47.8万个SV等位基因。与既往数据集相比,每个基因组检测的SVs显著增加(26,115个),尤其是罕见SVs。基于该泛基因组图谱,靶向工具Locityper 对MHC基因分型准确率提升97.1%。
综上所述,该研究通过高连续性的单倍型组装,首次系统解析了多样化人群中复杂基因位点和着丝粒的遗传变异,填补了人类基因组图谱的关键缺口。整合后的泛基因组参考显著提升了SV的检测能力,为理解人类遗传多样性、解析疾病关联机制提供了重要资源。
参考文献:
Logsdon, G.A., Ebert, P., Audano, P.A. et al. Complex genetic variation in nearly complete human genomes. Nature (2025). https://doi.org/10.1038/s41586-025-09140-6
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)