首页 > 医疗资讯/ 正文

Nature:填补92%组装缺口!65个近乎完整人类基因组发表,深度解析复杂遗传变异

来源 2025-07-30 10:23:32 医疗资讯

构建全面的人类泛基因组参考需依赖多样化的完整基因组数据,而复杂结构变异(SV)的解析是理解人类遗传多样性的核心。此前研究中,人类基因组组装存在大量缺口,尤其是着丝粒、高度相似的片段重复区域(SDs)复杂区域,其因技术限制未被完全解析,导致部分蛋白质编码基因缺失。这些“暗物质”区域蕴藏着丰富的遗传信息,与疾病易感性、药物反应等密切相关。

近年来,长读长测序(LRS)技术的发展显著提高了SV的检测灵敏度,还能结合Hi-C、Strand-seq 等技术实现高质量单倍型组装,对构建人类泛基因组参考图谱草图至关重要。特别地,将LRS与PacBio HiFi技术和Oxford Nanopore Technologies (ONT) 超长读长测序技术相结合,为解析这些复杂区域带来了曙光。

近日来自德国杜塞尔多夫海因里希·海涅大学美国华盛顿大学等研究团队合作,通过对来自全球28个人群65个多样性个体(主要来自1KGP)进行深度测序,成功构建130个高度连续的单倍型基因组,填补了先前92%的基因组组装缺口39% 的染色体达到端粒到端粒(T2T)完整状态研究解析了主要组织相容性复合体(MHC)、SMN1/SMN2、AMY1/AMY2 等复杂基因位点的完整序列连续性1,852个复杂结构变异(CSV),并完成1,246个人类着丝粒的组装验证。将上述数据与泛基因组参考草图结合后,短读长数据的基因分型准确性大幅提升,使得每个个体可检测的SV数量增至26,115个,为疾病关联研究提供了更丰富的结构变异资源。

图片

01 130 个单倍型基因组

研究团队选取千人基因组计划(1kGP)队列中65个淋巴母细胞系进行测序这些细胞系代表来自五大洲、和28个不同人群的个体。结果显示,平均生成47倍覆盖度的PacBio HiFi reads(长约 18 kb)和56倍覆盖度的ONT长读长数据(超100 kb),同时整合Strand-seq、Bionano光学图谱等多组学数据

利用Verkko组装流程通过Graphasing工具结合Strand-seq实现全局定相最终成功构建了130高精度、高连续性的单倍型基因组。经验证,基因组连续性中位数(auN)达137 Mb,碱基准确性中位数为54-57,已知单拷贝基因完整性达99%,填补了92%的既往PacBio HiFi组装缺口此外,602条染色体实现T2T无缺口组装,559条以单scaffold 形式组装

图片

图1. LRS、组装及65个人类样本变异检测

02 SV检测与分析

基于上述单倍型组装,以T2T-CHM13为参考研究团队鉴定出188,500个SVs、630万个插入缺失(indels)和2,390万个单核苷酸变异(SNVs)GRCh38为参考则鉴定出176,531个SVs620万个indels和2,350万个SNVs。相较先前数据,该SV数据集规模平均增加59%,假发现率平均降低55%

研究团队共鉴定出12,919移动元件插入(MEIs)SVs的8.2%包括559个全长L1插入,96.1%含至少一个完整开放阅读框(ORF),82.3%含两个完整OR。与既往研究相比,MEIs总数增加36.65%。此外,鉴定出276个基于T2T-CHM13倒位298个基于GRCh38倒位发现21个新倒位变异功能分析发现1,535个SVs破坏985个独特的基因,包括37个功能缺失不耐受基因。GWAS分析显示,3,818个SVs与疾病相关SNPs存在强连锁不平衡。

SD分析显示,平均每个基因组包含168.1 Mb SDs92.8Mb SDs在90%以上个体中共享,61.0Mb呈现群体差异性33 Mb为T2T-CHM13中未注释的新SDs。

研究团队成功组装了30名男性的高连续性Y染色体7个23%实现男性特异性区域无断裂组装,其中4个为新的完整Y染色体研究团队还解析了人类基因组最大异染色质区域Yq12的特征该区域由高度相似但长度可变的DYZ1和DYZ2重复序列交替排列组成。Yq12异染色质区长度差异显著17.85–37.39 Mb)重复序列数量及长度均存在高变异

图片

图2. 针对复杂基因组区域的改进基因组资源

03 复杂基因位点的完整解析

研究团队首次完整组装了MHC区域,注释27–33 个人类白细胞抗原(HLA)基因、140–146个非HLA基因/假基因99.2%的HLA等位基因与经典分型一致,发现了826个HLA等位基因新变异,鉴定出170个未在已报道参考单倍型中出现的SV此外,MHC II类DR单倍型还反映了经典的HLA-DR分组系统;对RCCX多等位基因簇的表征则揭示了其模块化结构。

图片

图3. MHC基因位点的结构可变区域

研究团队通过更新PAV算法识别出1,247个CSVs,平均每个基因组72个,包含128种独特的复杂模式。27%CSV涉及局部重复序列38%涉及局部倒位。研究团队还成功解析了与人类大脑进化相关的NOTCH2NL和NBPF基因区域的三种独特单倍型结构。

SMN1/SMN2区域(与脊髓性肌萎缩症相关),研究团队组装验证并表征101个单倍型,明确了SMN1/2SERF1A/B等基因的结构及拷贝数48%单倍型携带两个SMN拷贝,同时发现发现3个仅含SMN2的潜在疾病风险单倍型。研究团队还鉴定出39种不同的淀粉酶(AMY)单倍型(覆盖83%人群),其中4种常见单倍型占比57%,并首次完全解析了含11个AMY1拷贝的最大单倍型H1L1

图片

图4. 人群中的复杂SV

04 着丝粒的遗传与表观遗传变异

研究团队通过Verkko和hifiasm两种算法完整组装1,246 个人类着丝粒。验证发现,α-卫星高阶重复(HOR)阵列长度存在显著差异(高达37倍),并鉴定出4,153个新α-卫星HOR变异。表观分析显示,所有着丝粒均含至少一个低甲基化区域(CDR),7%的着丝粒存在两个CDR(双动粒结构)。约30% α-卫星HOR序列含移动元件插入,以 L1HS(58%)和 Alu(41%)为主,且多位于CDR外围。

图片

图5. 1,246个人类着丝粒的序列、结构和甲基化模式变化

05 基因分型与泛基因组应用

整合该研究中65新组装基因组与HPRC42个基因组构建泛基因组图谱,研究团队使用PanGenie对1kGP队列3,202人进行基因分型,解析出2,834个SNPs、577万个indels 和47.8万个SV等位基因。与既往数据集相比,每个基因组检测SVs显著增加(26,115个尤其是罕见SVs。基于该泛基因组图谱靶向工具Locityper MHC基因分型准确率提升97.1%。

综上所述,研究通过高连续性的单倍型组装,首次系统解析了多样化人群中复杂基因位点和着丝粒的遗传变异,填补了人类基因组图谱的关键缺口。整合后的泛基因组参考显著提升了SV的检测能力,为理解人类遗传多样性、解析疾病关联机制提供了重要资源。

参考文献:

Logsdon, G.A., Ebert, P., Audano, P.A. et al. Complex genetic variation in nearly complete human genomes. Nature (2025). https://doi.org/10.1038/s41586-025-09140-6

Tags: Nature:填补92%组装缺口!65个近乎完整人类基因组发表,深度解析复杂遗传变异  

搜索
网站分类
标签列表