首页 > 医疗资讯/ 正文

Nat Commun:南开大学陈盛泉/刘健团队提出细胞画像数据三重效应校正框架cpDistiller

来源 2025-07-30 10:23:21 医疗资讯

高通量细胞成像技术为大规模刻画细胞形态特征提供了新途径,广泛应用于基因功能解析与药物筛选等研究。随着数据规模的不断扩大,由技术因素引入的系统性偏差成为细胞画像(Cell Painting)数据分析的主要挑战。细胞画像数据中普遍存在批次效应以及由板布局引起的受梯度影响的行效应与列效应,这里统称为三重效应。这些互相交织的技术效应会显著干扰真实生物信号,影响表型关联分析的准确性。然而,现有方法大多针对单一技术效应设计,难以同时应对多种复杂效应的叠加影响,且在保护细胞表型异质性方面存在不足;此外,现有细胞画像数据分析大多依赖标准特征提取流程,但这一流程主要基于传统视觉特征,难以全面反映复杂表型变化。

近日,南开大学数学科学学院陈盛泉教授团队与计算机学院刘健教授团队合作在Nature Communications上发表了题为“Triple-effect correction for Cell Painting data with contrastive and domain-adversarial learning”的文章。文章针对细胞画像数据提出了三重效应校正框架cpDistiller。cpDistiller结合了预训练分割模型与融合对比学习和对抗策略的半监督生成模型,首次实现细胞画像数据中三重效应的联合校正,显著缓解了批次与孔位位置偏差对表型分析的干扰,展现出在基因功能解析和药物发现等任务中的广泛应用潜力。

图片

cpDistiller是一个面向细胞画像数据的三重效应校正与表型表征学习框架,旨在校正批次效应与孔位位置效应的同时保留真实的生物表型信号。该方法包含特征提取、特征融合与技术效应校正三大模块(图1)。在特征提取阶段,cpDistiller结合了传统 CellProfiler 特征与基于预训练分割模型自动提取的图像特征,以提升对表型多样性的覆盖能力。在特征融合阶段,cpDistiller通过注意力机制优化深度特征编码,实现特征去噪与融合。在技术效应校正阶段,cpDistiller引入高斯混合变分自编码器,在半监督条件下推断孔位潜在分布模式,并结合对比学习与对抗策略,从邻近关系与数据分布两方面消除三重效应干扰。整体流程以端到端方式训练,能够生成用于下游任务的低维嵌入,有效提升表型建模的准确性与稳健性。 

图片

图1 cpDistiller模型框架

鉴于目前尚无专门针对细胞画像数据中三重效应(尤其是孔位效应)进行联合校正的方法,已有研究开始探索将单细胞数据分析中的批次校正方法迁移用于细胞画像数据的可能性。为评估cpDistiller在该任务中的有效性,研究团队利用目前已公开的规模最大的基因过表达数据集进行验证,该数据集涵盖了多种不同细胞类型、孔板布局及扰动类型。实验结果表明,cpDistiller在单批次孔位效应校正(行效应和列效应)及三重效应联合校正任务中显著优于主流单细胞批次校正方法,同时能够有效保留细胞表型异质性。cpDistiller具备丰富的图像信息提取能力、良好的增量学习性能及对特征选择策略的强鲁棒性,适用于多种表型建模场景。同时,cpDistiller不仅能准确捕捉细胞对遗传与化学扰动的系统水平表型响应,还能够与分子层面的转录组测序数据互补,揭示关键的基因功能与调控关系。在药物发现任务中,cpDistiller在提升基因与化合物匹配精度方面表现优异,表明了其在基因-化合物关联筛选与后续验证中的潜力,有望加速潜在靶点的识别,推动治疗靶点的挖掘与新药研发。

综上所述,该研究提出了一种专门针对Cell Painting数据三重效应校正的深度学习框架cpDistiller,旨在精准消除孔位效应等技术偏差,同时保持细胞表型异质性。通过利用涵盖多种细胞类型、孔板布局和扰动类型的公开的最大规模基因过表达数据集,cpDistiller在单批次孔位效应校正及三重效应综合校正任务中显著优于现有方法,表现出更高的校正精度和细胞异质性的保护能力。随着大规模细胞画像数据的不断积累,cpDistiller通过融合预训练分割模型、半监督高斯混合变分自编码器以及对比学习与对抗学习策略,实现对复杂技术效应的有效校正与生物信号的精准提取,为细胞表型数据的系统解析、基因功能预测及药物靶点挖掘提供了有力的技术支撑。

该研究得到了国家重点研发计划、国家自然科学基金、中国科协青年人才托举工程等项目的资助。南开大学硕士生闫乘玮、张宇和冯玖鑫为本文的共同第一作者,南开大学数学科学学院陈盛泉教授和计算机学院刘健教授为本文的共同通讯作者。

原文链接:

https://www.nature.com/articles/s41467-025-62193-z

Tags: Nat Commun:南开大学陈盛泉/刘健团队提出细胞画像数据三重效应校正框架cpDistiller  

搜索
网站分类
标签列表