首页 > 医疗资讯/ 正文
引言
2001年,人类基因组计划 (Human Genome Project) 的第一份草图问世,被誉为生命科学的“登月计划”。我们似乎第一次拥有了阅读生命之书的完整手稿。然而,这本“书”并不像想象中那样完美无瑕。它更像是一张宏伟但仍有留白和折痕的地图,其中一些最复杂、最富变数、也可能与我们健康和疾病最息息相关的区域,仍然笼罩在迷雾之中。这些区域充满了重复序列和复杂的结构变异 (Structural Variants, SVs),像基因组中的“暗物质”,难以用传统技术探明。
生命之书的复杂性远超我们的想象,每个人的版本都存在着独一-无二的“修订”。这些差异不仅塑造了我们的高矮胖瘦、肤色相貌,更深刻地影响着我们对疾病的易感性。要真正理解人类的多样性和疾病的根源,一本“标准版”的基因组地图是远远不够的。我们需要的是一本包含地球上不同人群遗传多样性的“基因组图集”。
近日,《Nature》的研究报道“Complex genetic variation in nearly complete human genomes”,来自人类基因组结构变异联盟 (Human Genome Structural Variation Consortium, HGSVC) 的研究人员,通过对来自全球28个不同群体的65个个体进行深度测序,构建了130个高质量的单倍型解析基因组。这项工作不仅填补了以往基因组图谱中的大量空白,更揭示了大量前所未见的复杂遗传变异,为我们理解人类基因组的真实面貌打开了一扇全新的大门。这不仅仅是一次技术上的突破,更是一场关于我们“生而不同”的深刻探索。
超越单一蓝图:泛基因组时代的黎明
如果我们要绘制一幅完整的世界地图,却只依赖于对一个城市的精细勘测,那么这幅地图无疑会充满偏见和谬误。它无法代表其他城市独特的街道布局、地标建筑和文化景观。在很长一段时间里,我们对人类基因组的理解就面临着类似的困境。我们长期依赖一个或几个“参考基因组”,例如广为人知的GRCp8。这个参考基因组如同一本标准教科书,为遗传学研究提供了重要的基准。但它本质上是少数几个个体的基因序列拼接而成,无法完全代表全球数十亿人丰富的遗传多样性。
当我们将一个个体的基因组与这个“标准答案”进行比对时,那些与参考序列不同的部分很容易被识别出来。然而,如果某个基因片段在参考基因组中本身就存在错误、缺失或者一种罕见的构型,那么基于这种比对的分析就会产生偏差。更重要的是,它很难捕捉到那些复杂的、大规模的结构变异,因为参考基因组本身可能就没有这些结构。
为了克服这一局限性,“泛基因组” (pangenome) 的概念应运而生。它的目标不再是创建一个单一的参考标准,而是构建一个能够代表人类群体遗传多样性的图谱集合。这就像从拥有一张城市地图,升级到拥有一本包含世界上所有主要城市详细地图的图集。每个人的基因组都是这个图集中的一页,共同构成了一幅完整的人类遗传景观。
在这项最新的研究中,研究人员向着构建这样一个“基因组图集”的目标迈出了一大步。他们巧妙地结合了多种前沿测序技术,包括能够读取超长DNA片段的PacBio 的高保真 (High-fidelity, HiFi) 测序和Oxford Nanopore Technologies的测序技术。长读长测序 (Long-read sequencing, LRS) 就像拥有了一把能够一次性看清长段文字的“放大镜”,避免了将无数短句拼接成完整篇章时可能出现的混乱和错误。
通过使用名为Verkko和hifiasm (ultra-long) 的先进算法,研究人员为65个来自非洲、美洲、东亚、欧洲和南亚等不同人群的个体,生成了130个单倍型解析的基因组组装。这意味着对于每一个个体,他们不仅得到了两条染色体(一条来自父亲,一条来自母亲)的混合序列,而是清晰地区分了这两条独立的遗传路线。
这次组装的质量是前所未有的。组装的连续性中位数达到了惊人的130兆碱基 (Mb),这意味着大部分序列都是完整无缺的长片段,而非零散的碎片。此外,研究人员成功填补了先前组装中92%的已知空白区域 (gaps),并且39%的染色体达到了“端粒到端粒” (telomere-to-telomere, T2T) 的完整水平,也就是从染色体的最顶端到最末端,没有任何序列缺口。这堪称生命科学领域的“无缝地图”绘制工程。其碱基准确度的质量值 (quality value, QV) 中位数在54到57之间,这意味着每数十万个碱基中,错误的数量不到一个,达到了极高的精确度。
有了这样一个高质量、高多样性的“基因组图集”,研究人员终于可以开始探索那些隐藏在基因组“暗物质”中的秘密。
基因组“暗物质”:揭开结构变异的神秘面纱
在基因组学研究的早期,人们的注意力主要集中在单核苷酸多态性 (Single-Nucleotide Polymorphisms, SNPs) 上,也就是单个DNA碱基的变化。这就像是校对一本书时只关注错别字。然而,人类基因组的变异远不止于此。更大尺度的变异,如DNA片段的插入、缺失、重复、倒位和易位,被称为结构变异 (Structural Variants, SVs),它们对基因功能和表型的影响可能更为剧烈。这就像一本书中整段文字被删除、复制或颠倒,其意义将发生天翻地覆的变化。
然而,这些SVs常常隐藏在基因组的重复序列区域,这些区域就像是书中大量印刷着相似甚至相同段落的页面,用传统的短读长测序技术很难准确地识别和组装它们,因此SVs在很大程度上成为了基因组研究中的“暗物质”。
借助此次构建的高质量、多样化的泛基因组图集,研究人员得以对这些“暗物质”进行前所未有的深入探索。他们开发并整合了超过10种不同的变异检测工具,对130个单倍型基因组进行了系统性分析。结果是惊人的:与最新的T2T-CHM13参考基因组相比,他们总共鉴定出了188,500个SVs,630万个小片段插入和缺失 (indels),以及2390万个SNVs。
这个SVs目录的规模和质量都远超以往。与之前的研究相比,新发现的SVs数量增加了59%,而错误发现率则降低了55%。这意味着我们不仅看得更多,而且看得更准了。研究人员估计,每增加一个个体进行分析,就能新发现大约842个SVs,并且如果这个个体来自非洲人群,新发现的SVs数量会是非洲人群的1.86倍。这再次凸显了将不同人群纳入基因组研究的极端重要性,尤其是在遗传多样性最为丰富的非洲人群中。
在这些SVs中,一类特殊的变异引起了研究人员的特别关注,那就是“移动遗传元件” (Mobile Element Insertions, MEIs),它们也被称为“跳跃基因”。这些DNA序列像基因组中的游牧民族,能够在基因组的不同位置之间“跳跃”。研究发现,MEIs占到了所有SVs的8.2%。研究人员共识别出12,919个潜在的MEIs,其中包含559个全长的L1元件。令人惊讶的是,这些L1元件中,82.3%的序列结构完整,理论上保留了再次“跳跃”的能力。这表明我们的基因组远非一个静态的蓝图,而是一个至今仍在活跃演化的动态系统。
另一类难以捉摸的SVs是倒位 (inversions),即DNA片段被翻转180度。由于倒位的断点常常位于高度重复的序列中,识别它们极具挑战性。在这项研究中,研究人员成功鉴定并验证了276个新的倒位事件。其中包括一个位于5号染色体长臂 (5q35) 的一个长达1.8兆碱基 (Mb) 的巨大倒位,该区域与一种名为Sotos综合征的罕见遗传病有关。这个发现为理解该疾病的发病机制提供了新的线索。
这些发现如同点亮了一盏明灯,照亮了过去被我们忽视的基因组“暗物质”。我们现在知道,这些大规模的结构变异是人类遗传多样性的一个核心组成部分,其重要性丝毫不亚于我们熟知的SNPs。
我们基因的“动荡地带”:Y染色体与重复序列之谜
在人类基因组这本大书中,有些章节似乎天生就比其他章节更“活泼”,更容易发生变化。其中最引人注目的,莫过于Y染色体和广泛分布的“节段性重复” (Segmental Duplications, SDs)。这些区域是基因组中的“动荡地带”,它们的变异与演化速度极快,长期以来给研究人员带来了巨大的挑战。
Y染色体的千变万化
Y染色体是决定男性生物学性别的重要染色体,但它也是人类基因组中最具挑战性的部分之一。其大部分区域由高度重复的序列构成,像是一篇用极少数几个词语反复写成的长文,极难解读。
此次研究利用长读长测序技术,在Y染色体的组装上取得了重大突破。研究人员成功地为30位男性个体组装了高度连续的Y染色体序列。其中,7条Y染色体(占23%)甚至实现了从头到尾的无缝组装,没有任何缺口。这7条Y染色体中,有4条是全新的、完整的人类Y染色体图谱,它们分别代表了在非洲、亚洲和欧洲人群中普遍存在的E1b1a、R2a和R1b1a等父系遗传谱系。
这些完整的Y染色体序列,使研究人员能够深入探索其最神秘的区域——Yq12异染色质区。这个区域主要由两种卫星DNA序列DYZ1和DYZ2交替排列组成。分析结果显示,不同个体之间Yq12区域的长度差异巨大,范围从17.85兆碱基 (Mb) 到37.39兆碱基 (Mb) 不等,相差超过一倍。DYZ1重复单元的长度变化范围从24.4千碱基到3.59兆碱基,差异悬殊。这些数据生动地展示了Y染色体在人类演化过程中的快速变异和重塑。
节段性重复:基因创新的温床
节段性重复 (SDs) 是基因组中长度超过1千碱基 (kb) 且序列相似度高于90%的DNA片段。它们像是在基因组的不同位置“复制-粘贴”了相似的段落。这些区域是基因重组的热点,也是基因拷贝数变异 (Copy Number Variation, CNV) 的主要来源,因此被认为是基因创新的“温床”。
通过高质量的基因组组装,研究人员发现,平均每个人的基因组中含有约168.1兆碱基 (Mb) 的SDs。但即便是如此高质量的组装,与完全无缝的T2T-CHM13参考基因组(含有193.7 Mb的SDs)相比,平均每个单倍型基因组中仍有大约25.6 Mb的SDs区域未能被完全解析,其中大部分位于着丝粒附近的区域。
分析发现,大约92.8 Mb的SDs在绝大多数人(超过90%的个体)中都存在,是相对保守的区域。而另外61.0 Mb的SDs则在人群中表现出丰富的变异性。更有趣的是,研究人员还新发现了33 Mb在T2T-CHM13参考基因组中未被注释为SD的序列。这些新发现的SDs覆盖了167个蛋白质编码基因,其中一些在T2T-CHM13中是单拷贝的,但在人群中却是多拷贝的。这暗示T2T-CHM13在这个位点上可能代表了人群中的少数等位基因。
同样,对非洲人群遗传多样性的分析再次带来了惊喜。当比较不同大陆人群时,非洲个体的基因组中拥有最多的新SDs。平均每个非洲个体比非非洲个体多贡献了3.97兆碱基 (Mb) 的新SDs序列。这为“现代人起源于非洲”的理论提供了又一个有力的遗传学证据,也强调了在全球范围内,尤其是在非洲,开展基因组研究的重要性。
免疫系统的“百变罗盘”:MHC区域的精细解读
在人类6号染色体的短臂上,存在一个堪称基因组中“最繁忙的十字路口”的区域——主要组织相容性复合体 (Major Histocompatibility Complex, MHC)。这片长约5兆碱基 (Mb) 的区域,虽然只占整个基因组的一小部分,却包含了大量与免疫功能密切相关的基因,特别是人类白细胞抗原 (Human Leukocyte Antigen, HLA) 基因。MHC被称为免疫系统的“百变罗盘”,因为它编码的蛋白质负责识别“自我”与“非我”,是抵御病原体入侵的第一道防线。它的多样性直接决定了我们免疫系统的强弱和特异性。
MHC区域的基因不仅数量众多,而且多态性极高,是人类基因组中变异最丰富的区域之一。此外,该区域的基因排布极为复杂,充满了重复和拷贝数变异,因此,要完全解析MHC区域的单倍型(即来自父母双方的各自版本)是极其困难的。
在这项研究中,研究人员利用他们的高质量基因组组装,对130个完整的MHC单倍型进行了前所未有的精细注释和分析。他们的成果令人振奋:
首先,他们极大地提高了HLA基因注释的完整性。在国际免疫遗传学数据库 (IPD-IMGT/HLA database) 中,存在大量不完整的HLA等位基因注释。研究人员利用他们的数据,成功解析了其中的826个不完整注释,其中包括112个与疫苗反应和自身免疫病密切相关的HLA-DRB基因座的序列。这为理解个体对疫苗和疾病的反应差异提供了关键信息。
其次,他们揭示了MHC II类基因区域复杂的演化历史。MHC II类基因的排布遵循一个被称为DR组的系统。研究人员发现,不同的DR组单倍型(如DR1、DR8、DR4/7/9等)具有截然不同的基因构成。通过精细的序列比对,他们重构了这些单倍型的演化路径。例如,DR8单倍型很可能是通过一次染色体内的大片段缺失事件,从DR3/5/6单倍型演化而来。而DR1单倍型则可能是DR2和DR4/7/9单倍型之间发生重组的产物。这些发现如同一部精彩的演化侦探小说,揭示了我们免疫系统多样性背后的遗传机制。
再次,他们深入解析了另一个极其复杂的区域——RCCX模块。这个区域包含STK19、C4、CYP21和TNX等四个基因,它们以模块化的形式存在,并且经常发生串联重复,形成单模块、双模块甚至三模块的复杂结构。这种结构的变异与多种疾病相关。研究人员不仅精确地解析了这些不同模块的组合方式,还发现了一些非常罕见的结构,例如一个包含两个功能性CYP21A2基因的三模块单倍型,以及一个由基因转换事件产生的、携带非寻常C4B基因的单倍型。这些发现对于理解RCCX相关疾病的遗传基础至关重要。
最后,这项研究证明,一个更完整、更多样化的参考,能够显著提升对MHC区域的基因分型准确性。当研究人员只使用先前HPRC计划的参考(包含45个个体)时,对MHC基因的等位基因预测准确率为81.0%。而当他们将本次研究的107个新个体加入参考后,在留一法交叉验证中,准确率提升到了86.3%。当使用全部214个单倍型作为参考时,准确率更是飙升至97.1%。这充分说明,一个更大、更好的“基因组图集”是我们精确解读个体遗传信息的关键。
着丝粒之谜:染色体分离的“双引擎”假说
在每条染色体的中心,有一个着丝粒 (centromere) 的特殊区域。在细胞分裂时,着丝粒就像一个“把手”,纺锤丝会附着在这里,将复制好的两条染色单体精确地拉向细胞两极。如果这个过程出错,就会导致染色体数目异常,引发唐氏综合征等遗传疾病或癌症。长期以来,着丝粒被认为是基因组中的“功能沙漠”,主要由高度重复的α-卫星DNA序列 (alpha-satellite DNA) 构成,其序列本身被认为不那么重要。
然而,近年的研究,尤其是T2T联盟完成第一条完整人类基因组后,彻底改变了我们的看法。着丝粒不仅不是一成不变的,反而是基因组中演化和变异最快的区域之一。这项研究通过对65个多样性人类基因组中1,246个着丝粒的完整组装和分析,为我们揭示了这个神秘区域前所未见的复杂性和动态性。
研究人员首先发现,着丝粒的长度在不同个体甚至不同染色体之间存在巨大的差异。α-卫星DNA形成的高级重复结构 (Higher-Order Repeats, HORs) 是着丝粒的核心。这些HOR阵列的长度从几十千碱基到几兆碱基不等。例如,10号染色体的着丝粒长度可以相差高达37倍。这种巨大的长度变异本身就暗示着丝粒区域处在一个快速的演化通量中。
更令人惊讶的是,研究人员发现着丝粒的结构也并非一成不变。他们识别出了4,153种新的α-卫星HOR变体和全新的HOR阵列组织形式。例如,在1号、12号和19号染色体上,他们发现一些个体的着丝粒被单体的α-卫星序列插入,有效地将一个HOR阵列“分裂”成了两个。在6号和10号染色体上,他们也发现了与T2T-CHM13参考基因组完全不同的HOR阵列组织方式,而这些新的组织方式在他们研究的人群中其实更为常见。
这些遗传学上的多样性引出了一个更深层次的问题:它们会如何影响着丝粒的功能?为了回答这个问题,研究人员利用ONT测序能够直接检测DNA修饰的特性,分析了着丝粒区域的CpG甲基化模式。DNA甲基化是一种重要的表观遗传修饰,通常与基因沉默有关。此前的研究表明,活跃的着丝粒区域会存在一个低甲基化的区域,被称为“着丝粒下降区” (centromere dip region, CDR),这被认为是动粒 (kinetochore) 附着的位置,也就是纺锤丝真正的“把手”。
研究人员在所有1,246个着丝粒中都找到了至少一个CDR。然而,一个颠覆性的发现在于,在大约7%的染色体上(例如在6号、15号和19号染色体上的一些单倍型),他们观察到了两个相距超过80千碱基 (kb) 的CDR。ONT的长读长数据证实,这两个CDR确实存在于同一条染色体上,而不是细胞群体的平均效应。
这个发现引出了一个大胆的假说:这些染色体可能拥有两个潜在的动粒附着位点,形成了一个“双动粒” (di-kinetochore) 结构。在细胞分裂中,拥有两个“把手”的染色体可能会被纺锤丝从两个方向同时拉扯,导致染色体断裂或不均等分离,这是基因组不稳定的一个重要来源。尽管这个假说还需要CENP-A(一种着丝粒特有的组蛋白)免疫沉淀等实验的进一步证实,但它无疑为我们理解染色体分离的稳定性和某些疾病的起源,提供了一个革命性的新视角。
从图集到应用:开启精准基因组学新篇章
一项基础研究的最终价值,在于它能否转化为推动科学和医学进步的实用工具。这项关于人类基因组复杂变异的研究,其意义远不止于绘制了一幅更精美的“基因组图集”。它最大的贡献之一,是为未来的基因组学研究,特别是基于常规短读长测序数据的分析,提供了一个前所未有地强大和精准的“导航系统”。
过去,当我们拿到一个个体的短读长测序数据时,我们通常会将其与单一的参考基因组(如GRCp8)进行比对,来“推断”这个人的基因型。这个过程被称为基因分型 (genotyping)。然而,如果一个个体的基因组中含有参考基因组所没有的复杂结构变异,这个推断过程就很容易出错,甚至完全失败。
而现在,研究人员将他们新组装的65个高质量基因组(130个单倍型)与之前HPRC的42个基因组相结合,构建了一个包含超过200个多样化单倍型的泛基因组参考图谱。利用这个新的“基因组图集”和一种名为PanGenie的巧妙算法,他们能够对来自1000基因组计划 (1000 Genomes Project) 的3,202个个体的常规短读长数据,进行更精准的基因分型。
这个新方法的威力体现在它能够准确地推断出那些难以捉摸的结构变异。结果显示,平均每个个体能够检测到26,115个SVs。这个数字远高于以往基于短读长数据的研究(例如,1kGP-HC SV callset平均只能检测到9,596个SVs)。这意味着,我们现在能够从相同的原始数据中,挖掘出近三倍的结构变异信息。
尤其是在检测稀有变异方面,这种新方法的优势更为明显。对于非洲个体,新方法平均能检测到1,490个稀有SVs(等位基因频率<1%),而之前的方法只能检测到382个(HPRC)或477个(1kGP-HC)。对于理解罕见病和人群特异性疾病来说,这些新发现的稀有变异是无价之宝。
研究人员将这种通过短读长数据重建完整个人基因组的过程,与直接通过长读长测序组装的“金标准”基因组进行了比较。结果显示,基于新方法重建的个人基因组,其k-mer质量值中位数达到了45,而之前基于GRCp8的方法只有43。虽然这与长读长组装的质量值(中位数53)还有差距,但已经实现了巨大的飞跃。它意味着我们现在可以用成本低得多的短读长测序,实现对个人基因组(包括复杂变异区域)更准确的重建。
这项研究工作如同一座灯塔,照亮了人类基因组中此前被隐藏的广阔疆域。它不仅仅是填补了我们知识上的空白,更是提供了一套强大的新工具和资源。随着未来更多、更高质量的基因组被纳入这个泛基因组图集,我们的“导航系统”将变得越来越精准。这将极大地推动全基因组关联分析 (GWAS) 的发展,让我们能够发现更多与复杂疾病(如糖尿病、心脏病、精神分裂症等)相关的遗传位点,最终开启一个真正意义上的精准医疗新时代。
参考文献
Logsdon GA, Ebert P, Audano PA, Loftus M, Porubsky D, Ebler J, Yilmaz F, Hallast P, Prodanov T, Yoo D, Paisie CA, Harvey WT, Zhao X, Martino GV, Henglin M, Munson KM, Rabbani K, Chin CS, Gu B, Ashraf H, Scholz S, Austine-Orimoloye O, Balachandran P, Bonder MJ, Cheng H, Chong Z, Crabtree J, Gerstein M, Guethlein LA, Hasenfeld P, Hickey G, Hoekzema K, Hunt SE, Jensen M, Jiang Y, Koren S, Kwon Y, Li C, Li H, Li J, Norman PJ, Oshima KK, Paten B, Phillippy AM, Pollock NR, Rausch T, Rautiainen M, Song Y, Söylev A, Sulovari A, Surapaneni L, Tsapalou V, Zhou W, Zhou Y, Zhu Q, Zody MC, Mills RE, Devine SE, Shi X, Talkowski ME, Chaisson MJP, Dilthey AT, Konkel MK, Korbel JO, Lee C, Beck CR, Eichler EE, Marschall T. Complex genetic variation in nearly complete human genomes. Nature. 2025 Jul 23. doi: 10.1038/s41586-025-09140-6. Epub ahead of print. PMID: 40702183.
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)