首页 > 医疗资讯/ 正文
导读
在过去的二十余年中,人类参考基因组序列已成为遗传学和生物医学研究和应用的基础。但目前并没有任何一个单一的参考序列可以代表全球种群的基因组多样性。随着长读长测序技术和计算方法的进步,从大量不同基因组中捕获缺失变异的泛基因组构建已经成为可能。
人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)最近基于全球47个种群样本构建了人类泛基因组参考草案,但其中东亚种群样本代表性仍然不足,特别是只有三个南方汉族样本被纳入HPRC参考,这显然无法代表中国这样一个人口14.4亿的地区的族群基因组多样性。
中国人群拥有丰富的遗传多样性,除汉族外,还有55个官方承认的少数民族和相当数量的未被承认的少数民族。目前仅有的两项关于中国泛基因组的研究也仅限于汉族样本的短读长测序数据。因此,迫切需要建立一个高质量的泛基因组参考,以更好地代表中国人群的巨大基因组多样性。
近日,复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授、复旦大学陆艳副研究员等联合研究团队在Nature发表文章“A pangenome reference of 36 Chinese populations ”,报道了中国人群泛基因组联盟(Chinese Pangenome Consortium,CPC)第一阶段的成果,涵盖了来自58个核心样本的116个高质量从头组装基因组数据,这些样本代表了中国36个不同民族的群体。这是首个中国人群专属的泛基因组参考图谱,与HPRC泛基因组图谱相比,在中国人群特有的复杂变异解析方面具有显著优势。CPC泛基因组图谱为GRCh38增加了1.89亿个碱基对的常染色体多态性序列和1367个蛋白质编码基因重复,确定了1590万个小变异和78072个结构变异(SV),其中约590万个小变异和34223个SV只在CPC数据中发现。

文章发表在Nature
主要研究内容
不同中国人群基因组的组装
整体而言,研究人员从代表36个中国少数民族和8个语言群体的CPC核心样本中组装了58个平均深度为30.65x的二倍体片段,并进一步结合了5个高覆盖率Oxford Nanopore Technologies长读长测序样本,5个已发表的中国人群基因组片段,以及2个来自中国中部的汉族样本。CPC核心样本显示了大量的遗传多样性,覆盖了中国大多数少数民族。
研究团队开发了一个分析流程,对新测序的PacBio HiFi样本进行基因组组装、质量控制和组装优化。结果显示,由于性染色体的大小差异,116个组合的平均基因组长度为3.01Gb,其中93.1%的组合基因组长度大于GRCh38。116个基因组片段的中位contig N50平均为35.63Mb,8.62%基因组片段的contig N50值大于GRCh38参考基因组。组装结果的比对分析发现,其覆盖了96.54%的GRCh38参考基因组和93.59%的T2T-CHM13参考基因组。通过对未被映射的区域进行注释,研究发现约84%的未映射序列是卫星重复序列。

图1. CPC项目58个核心样本的组装,来源:Nature
CPC泛基因组图谱的特征
接下来,研究人员注释了每个基因组中相对于GRCh38的拷贝数变化(CNV)。在全套基因组的分析中,至少有一个基因组的拷贝数增加了1367个蛋白质编码基因。在每个组装基因组中平均观察到53个拷贝数增加的基因,13.39% 的CNV基因在整个CPC泛基因组中出现频率超过5%,57.86% 的CNV基因仅出现在单个单倍型中。研究还发现在CPC泛基因组中有1079个重复基因,这些基因在HPRC基因组中没有被发现。
此外,在HPRC序列中也检测到来自CPC序列的288个重复基因,其中123个基因与4个HPRC东亚样本共享,278个基因与其余40个非东亚HPRC样本共享。在这些共享基因中,CPC泛基因组中有多个基因的频率高于HPRC基因组。

图2. CPC泛基因组中CNV的鉴定,来源:Nature
与HPRC泛基因组图谱的比较
在一个典型的泛基因组参考中,来自一个群体的基因组数据可以组织成一个基于边缘的序列变异图。因此,研究团队利用Minigraph-Cactus流程构建了CPC泛基因组的变异图,其中单倍型组合表示为由序列节点组成的不同路径,发现变异图中共添加了194.67Mb的非参考序列。
为了分析CPC泛基因组图谱中东亚种群贡献的先前未确定信息,研究人员构建了一个合并的Minigraph-Cactus图,包括CPC中所有116个组装和HPRC中的94个组装基因组。研究确定了仅在CPC序列中发现的5850863个小变异和34223个SV,其中每个样本包括170307个小变异,每个单倍型携带543个SV。
此外,研究人员估计了CPC特异性SV的位置分布。与HPRC特异性SV和其他SV类似,大多数CPC特异性SV位于染色体的着丝粒区和端粒区。通过对不同区域HPRC组装中存在的CPC特异性SV和其他SV数量进行了单侧Fisher精确检验,发现223个热点区域CPC特异性SV与其他SV相比显著富集,涉及807个蛋白质编码基因,富集了氧运输和血红蛋白结构等生物学功能。

图3. CPC泛基因组图和CPC特异性变异分析,来源:Nature
CPC泛基因组图中的复杂SV
长读长测序技术和基于泛基因组图谱的分析方法使人们能够探索以前难以在NGS数据中定位的大型复杂SV,从而为这些复杂位点与生理功能或疾病的关联研究提供遗传基础。研究发现,上述部分CPC特异性富集SV与部分东亚流行疾病密切相关。一个显著的例子是位于16号染色体短臂端粒附近的α-珠蛋白基因簇,包括5个功能基因和2个假基因。研究人员根据α-珠蛋白基因(HBA1或HBA2)和ζ-珠蛋白(HBZ或假基因HBZP1)的拷贝数变化确定了6个主要单倍型。
除了在CPC和HPRC中发现的涉及α-珠蛋白拷贝数变化的缺失(Z2A1)和重复(Z2A3)外,研究还发现了两个CPC特异性SV:一个涉及5个珠蛋白基因的20 kb缺失(Z2A0)和一个涉及ζ-珠蛋白基因的10kb重复(Z3A2和Z3A3)。两个α-珠蛋白都缺失的长缺失被广泛报道为东南亚缺失,主要分布在中国南部和东南亚。因此,在CPC泛基因组图中精确定位复合SV在α-珠蛋白基因簇上,可为未来贫血相关研究提供潜在参考。

图4. CPC泛基因组图中复杂SVs的可视化,来源:Nature
结语
这也是我国学者领导的人群基因组研究首次发表在《自然》主刊。研究团队使用PacBio HiFi长读长测序技术对58份CPC核心序列进行了平均深度为30.65×的测序。分析结果表明,CPC泛基因组在很大程度上匹配或超过了GRCh38的连续性和基本水平精度。CPC核心片段对GRCh38也有很好的覆盖,增加了1.89亿碱基对的常染色质多态性序列和1367个蛋白质编码基因重复。
因此,CPC第一阶段的数据可以作为中国人群的全面泛基因组参考,并有望更好地捕捉亚洲血统人群的基因组多样性。该研究的进一步分析还证实了高质量的群体特异性组装对于遗传和医学应用的必要性。与HPRC泛基因组相比,CPC泛基因组提高了东亚样本短读长测序序列的比对率。
参考资料:
1. Gao, Y., Yang, X., Chen, H. et al. A pangenome reference of 36 Chinese populations. Nature (2023).
https://www.nature.com/articles/s41586-023-06173-7.
2. Wang, T. et al. The Human Pangenome Project: a global resource to map genomic diversity. Nature 604, 437–446 (2022).
3. Nurk, S. et al. The complete sequence of a human genome. Science 376, 44–53 (2022).
猜你喜欢
- 中国医学专家率先揭秘肝癌复发、转移机制 探索肝癌治疗新策略
- Molecular Cancer:首个临床试验:唾液外泌体小RNA可作为食管癌检测和预后标志物
- 继小鼠实验后,华人领衔团队研发的寨卡疫苗又在恒河猴上奏效
- 多吃植物性食物有助改善心脏健康
- 子宫切除对女性有什么影响?
- 饮食减肥一周能瘦10斤吗?减肥水果减肥水果有哪些?
- BMC Musculoskelet Disord:经椎间孔入路腰椎内窥镜治疗腰椎间盘突出症的有限椎间盘切除术与积极椎间盘切除术对比研究
- 多种麻醉都可以选择的情况,最终由谁来决定?
- 奥尔良烤翅的做法-咸鲜味烤菜谱
- KAUST高欣/南科大胡宇慧《自然·通讯》:基于亚细胞分辨率空间转录组的单细胞分割方法
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)