首页 > 医疗资讯/ 正文
单细胞测序技术革新了细胞多组学特征的研究,其技术发展加深了对生命科学和医学领域各个方面的理解,促进了疾病诊断和治疗的创新。特别是单细胞染色质可及性测序(scCAS)数据,能够以前所未有的分辨率表征表观组的异质性和调控模式。基于滴液的微流体技术(microfluidic technologies)被广泛应用于单细胞的高通量测序之中,大大降低了单细胞测序的成本,但其固有的内在缺陷往往会导致双联体细胞(doublet)的出现。
Doublet是指单细胞测序过程中使用滴液包裹细胞时,误将两个或多个细胞封装到同一个滴液中,从而产生的测序单元。根据包裹的细胞类型是否相同,doublet可以分为异质doublet和同质doublet。异质doublet由于混入的细胞类型不同,更可能成为噪音数据,为下游分析引入偏差,严重影响各类分析结果。目前已有大量研究旨在对单细胞转录组测序数据(scRNA-seq)中的doublet进行有效的去除。但scCAS数据因其更高维度、更高的稀疏度以及独有的二元属性,为doublet识别算法的设计研究带来了更大的挑战,并且由于scCAS数据集之间普遍具有较高的异质性,对算法的稳健性和泛化性也提出了更高的要求。
为此,厦门大学王颖、南开大学陈盛泉课题组联合开发了一个对不同单细胞染色质开放性测序数据,进行异质双联体细胞有效识别并去除的新工具。此工具能够自适应地对不同染色质开放性测序数据进行最优策略选择和doublet识别,在不同特征的数据集上展现出强大稳健的性能,并且在后续的生物分析上进一步证明了其实际应用能力。研究成果以“scIBD: a self-supervised iterative-optimizing model for boosting the detection of heterotypic doublets in single-cell chromatin accessibility data”为题发表于Genome Biology期刊上。
该工具实施一种基于自监督学习的迭代优化策略,通过模拟高置信度的pseudo-doublet,迭代地建立最近邻网络并寻找数据集中潜在的真实doublet。该工具充分考虑到真实测序环境下异质doublet的产生机制,不断实施带权重的模拟策略,以构建和真实异质doublet分布更接近的pseudo-doublet集合,从而进行更精准地网络构建和识别。该工具共设计了两种最近邻网络构建策略,可以根据数据集本身特性,自适应地匹配最优策略。在每一轮迭代中,该方法首先对数据集进行聚类,基于聚类结果进行带权重的pseudo-doublet模拟。研究团队通过最近邻网络,计算doublet分数并根据其分布确定合适的阈值,以识别每轮中最高置信度的doublet。每轮识别到的doublet不再参与后续轮次的聚类过程,以获得更优的聚类结果和模拟结果,并且寻找到的doublet能够通过参与最近邻网络的构建,提供更准确全面的doublet分数。最后scIBD基于所有迭代轮次的结果,集成地计算综合doublet分数,以确定数据集中的潜在doublet。(图1)

图1 scIBD算法工作流程图

图2 不同数据集的部分结果
研究团队在不同scCAS数据集上验证了scIBD的优越性能与稳定性。与其他方法相比,scIBD在识别doublet的准确性和后续的生物分析上具有卓越表现。在利用基因型变异信息作为参考进行doublet标注的真实数据集上,scIBD识别准确率显著优于其余方法,在真实数据集细胞个数的降采样实验中的结果也表明了scIBD对数据大小的鲁棒性(图2A)。在其他的模拟测试中,研究团队验证了scIBD对于拥有不同doublet比例的复杂数据集的鲁棒性(图2B)。在模拟数据集上的doublet的数据降采样测试中,scIBD也显示了其对测序深度的低敏感性(图2C)。在经过更严格数据筛选的模拟测试中,scIBD的准确性优势则更加显著(图2D)。在后续的生物验证分析(包括聚类、差异开放区域识别和KEGG分析)中,scIBD进一步展示了去除doublet对生物下游分析的实际修正能力(图2E)。
综上所述,该研究提出了一种基于自监督学习的迭代优化策略,以有效识别单细胞染色质可及性测序数据中的异质doublet,并在不同测序平台、不同细胞数量、不同特征维度、不同测序深度、不同细胞异质性强度和不同doublet比例的数据集上,都显示出了对其余方法的性能优越性。随着单细胞染色质可及性测序的不断发展和大规模数据集的不断产生,scIBD能够通过精准识别doublet有效提高数据质量,从而更深入了解单细胞表观基因组的异质性和调控模式,为构建人类细胞图谱提供前期助力。
目前,scIBD的全套代码及demo已经提供在https://github.com/Ying-Lab/scIBD上,其配套使用手册也同步至https://scibd.readthedocs.io。scIBD也可以通过PyPI直接进行下载安装,作为python包,其调用方式简单,可以和各类下游生物分析软件无缝集成。scIBD的计算性能也已进行了较高的优化,大大降低了对计算资源的依赖。
厦门大学自动化系博士生章文浩为该论文的第一作者,厦门大学自动化系的王颖教授和南开大学数学科学学院的陈盛泉副教授为该论文的通讯作者,清华大学江瑞教授也为本文做出了重要贡献。该课题得到了国家自然科学基金委、中央高校基本科研业务费专项资金等的资助。
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)