首页 > 医疗资讯/ 正文
目前,美国国家生物技术信息中心(NCBI)拥有超过150万个提交至GenBank、欧洲核苷酸档案馆(ENA)和日本DNA数据库(DDBJ)的基因组组装,这三大数据库是国际核酸序列共享联盟(INSDC)的合作组织,通常称为“GenBank”,总共包含超22 terabases的基因组序列数据。近年来,测序成本降低加速了基因组组装的产生及其向公共数据库的提交,GenBank中的序列碱基大约每18个月便会增加一倍。
作为基因组组装的一部分,所提交的全部序列都应来自申报的源生物,但少部分序列往往来自外源DNA(即基因组污染),污染可能发生在基因组组装计划的多个阶段。基因组污染会混淆生物学推断,并造成进化关系和横向基因转移等方面的错误结论,因此高质量的基因组对于跨生物学学科的数据分析至关重要。已有大量报道指出NCBI数据库中存在污染,包括模式生物基因组。尤其令人担忧的是,将受污染的序列和相关注释添加到数据库中可能会使错误永久化,从而导致恶性循环。
近日,来自NCBI的科研人员在Genome Biology杂志上发表了题为“Rapid and sensitive detection of genome contamination at scale with FCS-GX”的文章。研究团队开发了FCS-GX,其是NCBI外来污染筛查(FCS)工具套件的一部分,经过优化,可识别和去除新基因组中的污染物序列。FCS-GX可在0.1-10分钟内筛选大多数基因组,对不同污染物种类具有高灵敏度和特异性。研究团队利用FCS-GX对160万个GenBank组装进行了筛选,发现了36.8Gbp的污染,占碱基总数的0.16%,其中一半来自161个组装。此外,研究团队还更新了NCBI RefSeq中的组装,将可检测到的碱基污染减少至0.01%。
FCS-GX可在https://github.com/ncbi/fcs/或https://doi.org/10.5281/zenodo.10651084获得。

文章发表在Genome Biology
对已知污染基因组的特别分析表明,需要一个大型和多样化的筛选数据库来检测潜在污染物的多样性,并将其与正确的序列区分开来。为此,研究团队开发了FCS-GX,通过使用已修改的hashed k-mers(h-mers)来识别潜在的序列匹配,可在不影响特异性的情况下提高对污染物的敏感性。与标准的k-mer hashmap相比,FCS-GX数据库的构建包括删除密码子搬动位置,并使用1位核苷酸字母{[AG],[CT]}来增加编码区域的敏感性。
FCS-GX根据709 Gbp的多样参考数据库进行筛选(数据库构建日期为2023年1月24日),其中包括来自47,754个类群的程序集;该数据库经过优化,可适应512 GiB内存的服务器。FCS-GX分类系统使用了八个较大的分类“kingdoms”:动物(Metazoa)、植物(Viridiplantae)、真菌、原生生物(其他真核生物)、细菌、古菌、病毒和合成序列。根据NCBI Taxonomy分配的BLAST名称分组,每个kingdoms被进一步划分为1到21个分类学单元,从而能够检测到低于kingdoms水平的污染物。
考虑到速度和易用性,研究团队将FCS-GX作为一种公开可用的工具发布,用户可以在基因组组装流程的早期运行该工具,从而实现更好的组装,并更容易提交给NCBI GenBank。总体执行时间包括将数据库读入内存,根据源和硬件的不同,这可能需要4-30 + min;然后进行筛选,对于大多数物种,每个基因组需要0.1-10 min。FCS-GX要求用户提供FASTA格式的基因组,以及NCBI分类标识符(taxid),最后可生成一份包含被识别为污染的全序列和部分(嵌合)序列的详细信息报告。

图1.FCS-GX工作流程。
为检测FCS-GX的灵敏度和特异性,研究团队使用来自高度连续基因组的长、无间隙序列对其进行评估(图2)。由于污染物序列往往很短,研究团队将序列人工分割成1、10或100kbp的子序列,并通过两种方法对其进行检测;最终共检测了663个原核生物和370个真核生物基因组的序列,这些序列来自FCS-GX数据库中的代表物种,但具有不同组装。
结果显示,当污染物种在FCS-GX数据库中时,FCS-GX在来自6个检测kingdoms组(Metazoa、Viridiplantae、真菌、其他真核生物、细菌和古菌)的不同样本中表现出高灵敏度:76%原核生物和91%的真核生物数据集在使用1 kbp片段时实现了高于Sn = 95%的敏感性;在更大片段的情况下,大多数物种的灵敏度接近100%。
当模拟新的污染物物种时,FCS-GX的灵敏度降低,原核生物的中位灵敏度降至81–89%,真核生物在1 kbp片段的中位敏感性降至17–63%。与Metazoa、Viridiplantae和其他真核生物相比,FCS-GX数据库中原核生物和真菌的代表性更大,这有助于在模拟新物种时实现更高频率的稳健比对覆盖,并得到更好的Sn评分。此外,FCS-GX特异性测试表明其假阳性发生率较低。

图2. FCS-GX污染检测的灵敏度和特异性。
在将数据库加载到单个64 vCPU服务器的内存中后,研究团队在18天内完成了28,774个真核生物基因组的筛选,总计15.7 Tbp。在容量相似的服务器上,FCS-GX以1.94秒/基因组的速度完成了原核生物基因组的批量筛选。此外,与用于NCBI基因组提交的传统筛选相比,FCS-GX可实现高通量组装污染筛查。
在当前GenBank中(2023年4月15日),研究团队对1,545,312个原核生物和30,053个真核生物基因组组装的污染进行了表征,总计22.4 Tbp的序列数据(图3)。在23,405,843个序列中鉴定出36.8 Gbp的疑似污染,相当于总碱基的0.16%、检测序列的1.30%。每个基因组受污染序列的比例呈双峰分布,峰值接近0和100%的极值。随着时间的推移,受污染序列的总长度随着GenBank基因组的总长度而增加,这表明受污染序列百分比随时间的推移保持稳定。此外,污染物的分布并不均匀;污染物序列通常很小,81%的污染物 ≤ 1kbp,97%的污染物 ≤ 10 kbp。
接下来,研究团队评估了多个分类等级的污染模式。原核生物的污染率低于真核生物,真菌基因组相对于Metazoa、Viridiplantae和其他真核生物具有较低的污染率;细菌污染占总污染的26.2 Gbp(71%),包括在后生动物基因组中发现的15.2 Gbp。
基因组污染通常反映了生物体的潜在生物学特性,可能来源于共生体、感染、肠道和表面微生物以及饮食。当对宿主基因组或环境样本进行测序时,共生体和寄生虫是常见的污染物。在FCS-GX数据库中,研究团队发现了864.4Mbp的污染,其中顶端复合体(apicomplexan)Sarcocystis neurona污染最为严重,主要存在于哺乳动物和鸟类基因组中。在样本制备和/或基因组测序过程中还可能出现的交叉样本污染。此外,研究团队发现,当前NCBI数据库中近一半的总碱基对污染仅来自161个基因组,这些基因组高度片段化,疑似污染主要发生在小序列中;有1,040个基因组的污染序列比例极高(90%-100%)。

图3. FCS-GX在NCBI数据库中检测到大量污染。
在FCS-GX的开发过程中,研究团队利用了传统筛选的结果,在一组严重污染的基因组中识别了>98%的已知污染物序列,同时也发现了由于灵敏度增加而产生的新污染物。为估计灵敏度的增加,研究团队将FCS-GX结果与过去2.5年中发布的14,344个真核生物和194,995个原核生物基因组的原始提交筛选数据进行了比较,排除了198个分类信息不正确或次优的基因组。结果显示,FCS-GX检测到的长度污染为0.163%,与传统方法(legacy screen)检测到的0.038%相比,灵敏度提高了四倍;与2019年Conterminator的筛选结果相比,FCS-GX将GenBank中已识别的污染量扩大了六倍,并且更容易应用于未来生成或提交的单个基因组的筛选。
为向NCBI用户提供更干净的基因组子集,研究团队优先使用FCS-GX对NCBI的RefSeq基因组集进行污染清理;人工手动审查了FCS-GX的结果,并使用多种方法对污染最严重的基因组进行初步清理;在将新基因组提交至RefSeq数据集之前,使用FCS-GX作为筛选工具。最终,研究团队清理了124个真核生物基因组,移除了总计548 Mbp的79,593个污染序列,包括34,337个基因和30,356个在污染序列上注释的蛋白质;使用ANI从RefSeq数据集中识别并移除了5,694个可疑的原核生物基因组,又使用FCS-GX识别并移除了1,284个基因组。
目前的RefSeq数据集包含283,221个原核生物和1,616个真核生物基因组,在FCS-GX初步清理后仍有265.1 Mbp的疑似污染,污染序列相当于原核生物总序列的0.018%和真核生物总序列的0.003%,这进一步证实了FCS-GX的高特异性。总体而言,与2020年的峰值相比,研究团队已经将RefSeq数据集真核生物和原核生物基因组中的污染碱基分别减少了90%和53%,与GenBank基因组整体相比,分别减少了98%和81%。

图4. NCBI RefSeq数据库中的FCS-GX污染检测。
综上所述,该研究介绍了一种新的基因组跨物种比对工具FCS-GX,可利用h-mer匹配和编辑的参考数据库识别外来生物的基因组污染,运行快速、精度高和污染物的自动去除是其核心特征。经验证,FCS-GX有助于从真核生物和原核生物的组装基因组中快速识别和去除污染物序列,使组装提供者能够提高数据质量,避免影响下游分析的人为因素。
参考文献:
Astashyn A, Tvedte ES, Sweeney D, et al. Rapid and sensitive detection of genome contamination at scale with FCS-GX. Preprint. bioRxiv. 2023;2023.06.02.543519. Published 2023 Jun 6. doi:10.1101/2023.06.02.543519
猜你喜欢
- 国家卫健委:10月23日新增新冠肺炎本土确诊病例173例本土无症状感染者751例
- 芝士焗阿根廷红虾的做法-家常味烤菜谱
- BMJ子刊:脑内动脉瘤破裂微创治疗相关的不良事件分析
- 鲜虾蛤蜊炒鸡的做法-咸鲜味炒菜谱
- 张文宏重磅发声:给年轻人腾位置!我60岁就退下来,65岁专家门诊都不出,该退休就退休!大咖做出了榜样!老医生返聘为何总遭抱怨?
- 当心这种披上脑科学外套的伪科学
- 比熬夜更伤脑?Nature子刊(5.2):熟睡时,咖啡因仍持续改变大脑节律活动,改变大脑功能,年轻人脑电波首遭“劫持”!
- Radiology:双能量CT灌注,让影像学冲在非小细胞肺癌评估的最前线!
- 女性经期月经量少怎么治疗最有效 6妙招治月经量少效果最佳
- “上古医学”7天收费10万,宣称不吃药、凭手上几克力就治百病
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)