首页 > 医疗资讯/ 正文

Nature：填补92%组装缺口！65个近乎完整人类基因组发表，深度解析复杂遗传变异

来源 2025-07-30 10:23:32 医疗资讯

构建全面的人类泛基因组参考需依赖多样化的完整基因组数据，而复杂结构变异（SV）的解析是理解人类遗传多样性的核心。此前研究中，人类基因组组装存在大量缺口，尤其是着丝粒、高度相似的片段重复区域（SDs）等复杂区域，其因技术限制未被完全解析，导致部分蛋白质编码基因缺失。这些“暗物质”区域蕴藏着丰富的遗传信息，与疾病易感性、药物反应等密切相关。

近年来，长读长测序（LRS）技术的发展显著提高了SV的检测灵敏度，还能结合Hi-C、Strand-seq 等技术实现高质量单倍型组装，对构建人类泛基因组参考图谱草图至关重要。特别地，将LRS与PacBio HiFi技术和Oxford Nanopore Technologies (ONT) 超长读长测序技术相结合，为解析这些复杂区域带来了曙光。

近日，来自德国杜塞尔多夫海因里希·海涅大学、美国华盛顿大学等研究团队合作，通过对来自全球28个人群的65个多样性个体（主要来自1KGP）进行深度测序，成功构建了130个高度连续的单倍型基因组，填补了先前92%的基因组组装缺口，39% 的染色体达到端粒到端粒（T2T）完整状态。研究解析了主要组织相容性复合体（MHC）、SMN1/SMN2、AMY1/AMY2 等复杂基因位点的完整序列连续性及1,852个复杂结构变异（CSV），并完成1,246个人类着丝粒的组装验证。将上述数据与泛基因组参考草图结合后，短读长数据的基因分型准确性大幅提升，使得每个个体可检测的SV数量增至26,115个，为疾病关联研究提供了更丰富的结构变异资源。

01 130 个单倍型基因组

研究团队选取千人基因组计划（1kGP）队列中65个淋巴母细胞系进行测序，这些细胞系代表来自五大洲、和28个不同人群的个体。结果显示，平均生成47倍覆盖度的PacBio HiFi reads（长约 18 kb）和56倍覆盖度的ONT长读长数据（超100 kb），同时整合了Strand-seq、Bionano光学图谱等多组学数据。

利用Verkko组装流程，通过Graphasing工具结合Strand-seq实现全局定相，最终成功构建了130个高精度、高连续性的单倍型基因组。经验证，基因组连续性中位数（auN）达137 Mb，碱基准确性中位数为54-57，已知单拷贝基因完整性达99%，填补了92%的既往PacBio HiFi组装缺口。此外，602条染色体实现T2T无缺口组装，559条以单scaffold 形式组装。

图1. LRS、组装及65个人类样本变异检测

02 SV检测与分析

基于上述单倍型组装，以T2T-CHM13为参考，研究团队鉴定出188,500个SVs、630万个插入缺失（indels）和2,390万个单核苷酸变异（SNVs）；以GRCh38为参考则鉴定出176,531个SVs、620万个indels和2,350万个SNVs。相较先前数据，该SV数据集规模平均增加59%，假发现率平均降低55%。

研究团队共鉴定出12,919个移动元件插入（MEIs），占总SVs的8.2%，包括559个全长L1插入，96.1%含至少一个完整开放阅读框（ORF），82.3%含两个完整OR。与既往研究相比，MEIs总数增加36.65%。此外，还鉴定出276个基于T2T-CHM13的倒位和298个基于GRCh38的倒位，并发现21个新倒位变异。功能分析发现1,535个SVs破坏985个独特的基因，包括37个功能缺失不耐受基因。GWAS分析显示，3,818个SVs与疾病相关SNPs存在强连锁不平衡。

SD分析显示，平均每个基因组包含168.1 Mb SDs；92.8Mb SDs在90%以上个体中共享，61.0Mb呈现群体差异性；33 Mb为T2T-CHM13中未注释的新SDs。

研究团队成功组装了30名男性的高连续性Y染色体，7个（23%）实现男性特异性区域无断裂组装，其中4个为新的完整Y染色体。研究团队还解析了人类基因组最大异染色质区域Yq12的特征，该区域由高度相似但长度可变的DYZ1和DYZ2重复序列交替排列组成。Yq12异染色质区长度差异显著（17.85–37.39 Mb），重复序列数量及长度均存在高变异。

图2. 针对复杂基因组区域的改进基因组资源

03 复杂基因位点的完整解析

研究团队首次完整组装了MHC区域，注释了27–33 个人类白细胞抗原（HLA）基因、140–146个非HLA基因/假基因。99.2%的HLA等位基因与经典分型一致，发现了826个HLA等位基因新变异，并鉴定出170个未在已报道参考单倍型中出现的SV。此外，MHC II类DR单倍型还反映了经典的HLA-DR分组系统；对RCCX多等位基因簇的表征则揭示了其模块化结构。

图3. MHC基因位点的结构可变区域

研究团队通过更新的PAV算法识别出1,247个CSVs，平均每个基因组72个,包含128种独特的复杂模式。27%CSV涉及局部重复序列、38%涉及局部倒位。研究团队还成功解析了与人类大脑进化相关的NOTCH2NL和NBPF基因区域的三种独特单倍型结构。

在SMN1/SMN2区域（与脊髓性肌萎缩症相关），研究团队组装、验证并表征了101个单倍型，明确了SMN1/2、SERF1A/B等基因的结构及拷贝数。48%单倍型携带两个SMN拷贝，同时发现发现3个仅含SMN2的潜在疾病风险单倍型。研究团队还鉴定出39种不同的淀粉酶（AMY）单倍型（覆盖83%人群），其中4种常见单倍型占比57%，并首次完全解析了含11个AMY1拷贝的最大单倍型（H1L1）。

图4. 人群中的复杂SV

04 着丝粒的遗传与表观遗传变异

研究团队通过Verkko和hifiasm两种算法完整组装了1,246 个人类着丝粒。验证发现，α-卫星高阶重复（HOR）阵列长度存在显著差异（高达37倍），并鉴定出4,153个新α-卫星HOR变异。表观分析显示，所有着丝粒均含至少一个低甲基化区域（CDR），7%的着丝粒存在两个CDR（双动粒结构）。约30% α-卫星HOR序列含移动元件插入，以 L1HS（58%）和 Alu（41%）为主，且多位于CDR外围。

图5. 1,246个人类着丝粒的序列、结构和甲基化模式变化

05 基因分型与泛基因组应用

整合该研究中65个新组装基因组与HPRC中42个基因组构建泛基因组图谱，研究团队使用PanGenie对1kGP队列3,202人进行基因分型，共解析出2,834个SNPs、577万个indels 和47.8万个SV等位基因。与既往数据集相比，每个基因组检测的SVs显著增加（26,115个），尤其是罕见SVs。基于该泛基因组图谱，靶向工具Locityper 对MHC基因分型准确率提升97.1%。

综上所述，该研究通过高连续性的单倍型组装，首次系统解析了多样化人群中复杂基因位点和着丝粒的遗传变异，填补了人类基因组图谱的关键缺口。整合后的泛基因组参考显著提升了SV的检测能力，为理解人类遗传多样性、解析疾病关联机制提供了重要资源。

参考文献：

Logsdon, G.A., Ebert, P., Audano, P.A. et al. Complex genetic variation in nearly complete human genomes. Nature (2025). https://doi.org/10.1038/s41586-025-09140-6

Tags： Nature：填补92%组装缺口！65个近乎完整人类基因组发表，深度解析复杂遗传变异

首页 > 医疗资讯/ 正文

Nature：填补92%组装缺口！65个近乎完整人类基因组发表，深度解析复杂遗传变异

猜你喜欢