首页 > 医疗资讯/ 正文

包含近50万个基因组!陈连民/郑琰/孔祥清/翟齐啸团队构建人类肠道微生物参考数据库,揭示中国人群特有菌群与健康关联

来源 2025-11-10 12:12:31 医疗资讯

人类肠道居住数以万亿计的微生物,其代谢活动与人体健康密切相关为精确解析肠道微生物生态系统的分类和功能多样性,构建全面的参考基因组与基因目录至关重要。近年来,统一人类胃肠道基因组(UHGG)联盟等项目整合了多项国际测序数据,成功构建了非冗余的人类肠道微生物参考基因组数据集,但现有参考数据库存在明显地理偏差,欧美人群数据占比超70%,以中国为代表的亚洲人群占比不足30%。

尽管已有研究尝试扩充中国人群微生物参考基因组库,但样本量不足以全面揭示中国肠道微生物群的复杂性既阻碍了中西方人群的稳健对比分析,更限制了对关键公共卫生领域功能的深入探索。

近日,南京医科大学陈连民、孔祥清团队与复旦大学郑琰、江南大学翟齐啸团队合作,通过整合478,588个高质量微生物基因组,构建了全面的人类肠道微生物组参考数据GMR该数据集涵盖6,664个物种,其中26.4%新分类物种,编码超2,000万种独特蛋白质,且47%的蛋白质功能未知研究团队揭示了中国与非中国人群在物种组成、功能基因及抗生素耐药基因(ARG)方面显著差异并将新物种标记基因整合至主流分类数据库,提升了物种检测灵敏度总之,GMR数据库显著拓展了全球肠道微生物组的组成与功能图谱,为解析种群特异性微生物-宿主互作机制及区域健康差异提供了重要资源。

图片

研究团队收集了来自中国30个省份的6,657个宏基因组样本,通过单样本组装策略成功获得了180,719个宏基因组组装基因组(MAG);然后将新组装的基因组与来自UHGG、hGMB、CGR2和IMGG等现有数据库中的基因组进行整合,严格的质量控制最终构建了包含478,588个高质量基因组的GMR数据库其中247,134个(51.6%)来自中国人群,231,454个(48.4%)来自非中国人群。

评估结果显示,GMR中的基因组质量普遍较高。中国人群来源基因组的中位完整性90.27%,中位污染率仅为0.88%;非中国来源基因组的中位完整性90.60%,污染率为0.85%。此外,中国来源基因组的平均大小和N50长度均略高于非中国人群来源基因组。

图片

1. GMR数据库

研究团队利用 GTDB数据库dRep工具GMR数据集微生物基因组进行分类注释结果显示,共鉴定出6,664个物种级簇包括6,624个细菌物种和40个古菌物种其中,1,762个潜在新物种,微小细菌门(Patescibacteria)的新物种占比最高43.48%)

基于GMR数据库的物种分布分析显示,中国人群肠道中检测到4,501个物种,非中国人群为4,308个,两者共享2,145个核心物种其中896个核心物种存在显著群体特异性富集。此外,中国人群有2,356个特有物种,主要隶属于芽单胞菌门、酸杆菌门、厚壁菌门D等7个细菌门而蛭弧菌门未在中国人群基因组中检出,这可能与环境、饮食结构等相关。

图片

2. GMR数据库的分类学分类

研究团队GMR数据库中所有基因组进行全面蛋白编码序列(CDS)预测,检测到10.28亿个推定基因,平均每个基因组含2,148个CDS通过多数据库联合注释,发现47%的基因能与现有数据库匹配,近半数基因功能未知热原体菌门的未知功能基因占比最高

接下来,研究团队分别50%、90%和100%氨基酸一致性为阈值进行基因聚类分析最终得到700万-2亿个蛋白质集群(GMRP50、GMRP90和GMRP100) GMRP90比较分析显示,中国与非中国人群存在共享及特有蛋白质集群其中共享649.1中国人群特有656非中国人群特有7,26.2个。COG功能分布显示,细胞壁/膜生物发生、转录和复制/重组/修复是核心功能类别

研究团队分析了抗生素耐药基因(ARG)的分布差异。51,995个微生物基因组中检测到1,050个ARG33.5%,涉及2,233个物种大肠杆菌、肺炎克雷伯菌、多雷拟普雷沃菌5个物种携带ARGs数量最多此外,非中国人群ARGs检出率略高于中国人群,且存在群体特异性富集和特有耐药基因195ARGs为中国人群特有,311ARGs为非中国人群特有四环素类Tet)耐药基因频率最高

图片

3. 人类肠道微生物群的功能分类

研究团队2,145个物种进行深入分析特别聚焦于304个具有充足基因组数据的物种通过泛基因组分析和t-SNE降维技术,发现225个物种(74%)存在显著人群特异性遗传结构差异差异毛螺菌科、拟杆菌科瘤胃菌科等尤为明显

以已知具有人群分化特征的普雷沃氏菌属 Copri亚种为参照,研究团队进一步确认了多种菌株(如直肠真杆菌、eligens_A乳球菌)存在类似的遗传分层现象。以eligens_A乳球菌为例,该物种包含4,818个基因组,其遗传结构在t-SNE图上清晰地分为中国和非中国来源两个簇;并通过关联分析发现4,044个驱动遗传分化的基因,功能涵盖糖脂代谢、抗生素耐药

图片

4. 种群之间优势物种的遗传分层

为提升新发现物种在群体研究中的检出能力,研究团队GMR数据集的基因组整合MetaPhIAn4分类数据库经筛选最终整合了579个非重叠物种96,156个标记基因构建定制数据库。中、德国、刚果三国独立队列验证显示该定制数据库展现出卓越的性能在中国队列,该数据库使样本平均序列比对率提升1%新增326个物种物种检出总数提升22.8%;在欧洲非洲队列中,该数据库分别贡献了8.79%和13.41%物种检出量,证明其具有全球适用性

利用该定制数据库,研究团队重新分析了包含3,234名中国参与者的CGMR中国肠道微生物参考队列,检测到5,310个物种,其中465个新增物种97.8%的个体检测到至少1个新增物种进一步分析发现,新增物种中54个与22种表型形成325个显著关联,排除混杂因素后,确定39个物种与16种表型的64个稳健关联,涉及城乡居住环境、年龄、生活方式及饮食习惯

图片

5. 定制GMR数据库

综上所述,研究团队构建了全球代表性强、人群分布均衡的肠道微生物基因组参考数据库GMR其揭示的种群特异性物种、遗传分层及功能特征,为解释区域健康差异提供了微生物视角通过整合该数据集现有MetaPhlAn4,显著提升了微生物组分析的准确性。GMR数据库将助力肠道微生物组与疾病机制的深入研究,推动个性化医疗与公共卫生干预的精准化发展。

参考文献:

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-025-01566-x

Tags: 包含近50万个基因组!陈连民/郑琰/孔祥清/翟齐啸团队构建人类肠道微生物参考数据库,揭示中国人群特有菌群与健康关联  

搜索
网站分类
标签列表