首页 > 医疗资讯/ 正文
近年来,单细胞RNA测序的应用越来越广泛,公开的单细胞测序数据也在快速增长。目前的数据共享协议只要求提交原始测序数据,不需要处理过的表达矩阵,许多规模较小的已发布数据集经常缺乏可访问的单细胞级注释,这为数据集成造成了重大障碍,例如数据注释人工审查耗时耗力,构建大规模集成数据效率低等。因此目前分析大量未注释的公共单细胞数据集仍然具有挑战性。
自然语言处理和通用大型语言模型(LLM)的最新应用进展已经扩展到生物学领域,例如GPT-4。但将这些方法应用于单细胞数据的自动处理仍存在一些挑战。近日,北京大学汤富酬教授团队在Genome Biology发表文章“scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration”。该研究提出了一个利用LLM进行scRNA-seq数据预处理、注释和集成的自动化分析框架scExtract。

scExtract首次将LLM与单细胞分析深度融合,可以使用注释感知方法从已发表研究文章中全自动提取和集成单细胞RNA-seq数据,显著提升了单细胞数据集处理效率,并在基准测试中优于现有的参考传递方法。同时,研究人员开发了新的整合算法scanorama-prior和cellhint-prior,通过结合先验注释信息,在提高批处理校正效果的同时,保持了生物多样性的完整性。此外,研究通过整合14个数据集创建了一个包含44万个细胞的全面人体皮肤图谱,突出了scExtract框架在不同单细胞组学测序数据集中揭示新生物学见解方面的实用性和有效性。
scExtract只需要原始表达式矩阵和文章内容作为输入,根据文章中描述的原始方法自动执行预处理、聚类和注释操作。scExtract的自动化处理由两部分组成:基于LLM、结合文章背景信息的自动注释,以及以注释信息为指导的细胞类型整合与嵌入集成(图1B)。scExtract采用两轮注释:首轮根据文章背景和特征基因完成注释,然后对注释内容进行审查和调整。在数据集成中,研究人员改进了两个性能良好的软件包scanorama-prior和cellhint-prior,并将其集成到一个利用近似注释来增强数据集集成的框架中。该整合流程有效应对了异质性单细胞数据集中注释一致性与嵌入整合两方面的挑战,实现了从注释到整合的一体化自动化处理。

图1.scExtract的工作流程。
研究人员使用21个cellxgene手动注释数据集评估了scExtract注释的准确性,包括来自多种人体组织或器官样本的18个不同细胞类型,并将scExtract与三种已建立方法SingleR、scType和CellTypist进行比较。由于单细胞水平的噪声,SingleR和CellTypist在单细胞注释水平上运行,表现出明显的高估细胞类型数的倾向;利用标记基因进行细胞群注释的scType和scExtract显示出与筛选细胞类型数更好的相关性(图2B)。在注释准确性分析中,scExtract显示出明显的优势(图2D)。

图2.scExtract以高精度自动注释已发布的单细胞数据集。
在集成流程中,scanorama-prior需要额外的聚类信息以及细胞注释在嵌入空间上的相似性矩阵,同时加权细胞类型相似性矩阵,实现更精确的邻域构建。此外,scanorama-prior通过额外的位移向量,增强批次效应校正的效果,保留了细胞之间的生物学关系。由于scanorama-prior对注释错误较为敏感,研究人员在scExtract的整合流程中引入了cellhint-prior进行细胞类型协调,校正因LLM输出波动可能导致的命名不一致问题。研究人员利用胰腺单细胞RNA-seq数据集评估了scanorama-prior和cellhint-prior的性能(图3):scanorama-prior在保留细胞类型差异的同时,表现出优异的批次效应去除效果,并具有更好的嵌入性能;cellhint-prior增强了跨数据集注释的一致性,提高了对命名错误的容忍度。

图3.人类胰腺数据集中整合方法验证。
进一步,研究证实scExtract在全自动操作的同时保持了粒度和注释保真度。scExtract可以经济高效地处理新数据集,而不依赖于预先注释的参考数据集,在可伸缩性和可扩展性方面具有显著优势。值得注意的是,scExtract可以在20分钟内完成数据集的所有处理过程,成本不到1美元。随着语言模型的不断发展,预计scExtract的精确度和效率会进一步提高。此外,scExtract具有稳健的性能和即时灵敏度,并且在大规模图谱集成的综合评估证明了其可扩展优势。
研究人员利用scExtract自动整合了皮肤单细胞数据,获得了来自14篇文章的44万个细胞组成的综合数据集(图4),涵盖包括银屑病、特应性皮炎、痤疮和环状肉芽肿等多种病理状态,以及从新生儿到老年人群的不同发育阶段。分析确定了银屑病特有的CXCL14 +增殖的角质细胞亚群,其与抗炎功能相关。该研究强调了对角质细胞亚群进行更详细和标准化研究的必要性,为皮肤自身免疫性疾病的细胞动力学提供了有价值的见解。
该研究提出了使用LLM进行全自动单细胞RNA-seq数据注释和集成的全新综合框架scExtract。通过自动从研究文章中提取实验参数和生物学知识,scExtract解决了处理大量公共数据集的关键瓶颈。scExtract对于发现罕见细胞类型和可能被忽视的新生物学见解特别有价值。研究人员成功应用scExtract揭示了多种自身免疫性疾病的疾病特异性角质形成细胞亚群和炎症特征,证明了scExtract在揭示复杂疾病中先前未被充分研究的细胞动力学方面的能力。scExtract实现了大规模单细胞分析的自动化,加速了组织特异性图谱的构建,并有助于利用现有单细胞数据进行可重复研究,推进我们对健康和疾病中细胞异质性的理解。
论文原文:
Wu, Y., Tang, F. scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration. Genome Biol 26, 174 (2025). https://doi.org/10.1186/s13059-025-03639-x
- 搜索
-
- 1000℃Cell | 曾泽贤/潘登/冯驭团队开发SPAC-seq新技术,实现空间分辨率下高通量CRISPR筛选
- 1000℃福建师范大学ACS Nano:人工智能驱动的Janus敷料用于可视化伤口诊疗
- 1000℃中科院苏州纳米所ACS Nano综述:通过可穿戴AI接口学习人类-环境交互
- 1000℃Cancer Discov | 新型AI基础模型可根据基因型精准预测癌症治疗反应,涵盖10种实体瘤超3万个肿瘤基因组数据
- 1000℃新加坡国立大学/复旦大学《自然·通讯》:抗氧化脂质纳米颗粒增强mRNA稳定性用于再生治疗和基因编辑
- 1000℃489例疑似罕见遗传病患者进行全外显子测序WES:确诊率达53%,5.5%检出心血管或肿瘤相关基因变异
- 1000℃Nat Cancer | 基于组织病理学图像的AI模型可快速识别102种CNS肿瘤亚型,表现优于神经病理学家
- 1000℃国立清华大学《自然·通讯》:工程化人类PEG10纳米颗粒实现RNA自包装、递送与癌症治疗
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)