首页 > 医疗资讯/ 正文

Genome Biol:基于单细胞和批量转录组学扩展人类蛋白编码基因的全基因组表达图谱,涉及所有主要组织和器官

来源 2025-06-11 12:16:29 医疗资讯

单细胞技术能够揭示细胞异质性,绘制疾病或发育过程中的动态调控网络,解锁疾病机制,是一种强大的生物医学研究工具。近年来,单细胞测序的爆发式发展和普及使大规模研究项目能够绘制更多人体组织和器官的基因表达图谱,有助于探索更多细胞类型特异性基因表达。

近日,瑞典斯德哥尔摩皇家理工学院Cheng Zhang团队联合Mathias Uhlén团队在Genome Biology发表文章A resource for whole-body gene expression map of human tissues based on integration of single cell and bulk transcriptomics”。研究团队利用单细胞转录组测序和批量转录组测序,扩展了涉及所有主要人体组织和器官中蛋白质编码基因的全基因组资源。所有结果都可以在更新的开放获取人类蛋白质图谱(HPA)的单细胞类型部分获得,该部分新增了17种新组织和37种新细胞类型,拓宽了对细胞多样性和复杂转录组学的了解,为探索这些组织和细胞类型中所有蛋白质编码基因的单细胞类型数据提供了公开工具。

图片

虽然应用广泛,但单细胞测序仍存在一些挑战,包括特殊样本的细胞生成,基因覆盖率低等。批量RNA测序作为单细胞转录组学的补充,可以广泛覆盖人类基因组的所有蛋白质编码基因,也可以探索低丰度基因。但该方法提供的是样本所有细胞的平均基因表达,无法揭示同一组织内不同细胞类型之间基因表达变化。 

该研究中,为解决单细胞测序问题,研究团队采用了组织pooling”策略来增加单细胞分析的深度和覆盖度。研究分析了来自31个不同组织的单细胞转录组学数据,包括来自17个新器官和数据源的数据集、3个具有新数据源的现有器官以及11个具有原始数据源的现有器官。新增组织包括脂肪、骨髓、脑、乳腺、支气管等,数据集中被替换的组织是肝脏、前列腺和肺(图1)。该扩展组织数据集涵盖了多种器官系统和关键细胞类型,能够对689,601个细胞进行全面的单细胞分析。

图片

1.单细胞类型的转录分析。

研究团队考虑了研究器官的多个因素以保证数据集的质量,包括测序平台、样本数、reads数量等。此外,研究人员将合并的单细胞转录组与从HPA获得的相应bulk组织数据进行了比较。在pseudo-批量转录组表达与其相应的大量转录组谱之间观察到高度的Spearman相关性0.75-0.90。为了获得细胞类型特异性转录组谱,所有单细胞数据集都映射到相同的参考基因组以进行基因表达定量,并对每种细胞类型进行细胞类型鉴定、注释和pseudo-批量转录组分析。研究人员将每个组织中表达相似的单细胞分类为不同的细胞簇,最终鉴定了557个独特的细胞簇,并根据已建立的细胞类型标记基因的表达进行了手动注释

随后,研究团队计算了其中518个单细胞类型簇中每个基因的表达谱使用UMAP图可视化了所有细胞,总共 689,601个,突出了31个器官和15个细胞类型组中具有相似功能的细胞聚类。(图1)分析显示,无论其组织来源如何,具有相似功能的细胞都倾向于聚集在一起。此外,来自独特功能器官的细胞也表现出紧密的聚集,例如肝脏、大脑、眼睛和睾丸。在HPA开放获取单细胞类型部分,所有基因的表达谱显示在557个单细胞类型簇和81个共有单细胞类型中,可用于全基因组范围内探索蛋白质编码基因的单细胞谱。

通过计算31个组织中每个组织中的细胞比例,发现免疫细胞,尤其T细胞和平滑肌细胞在大多数组织中普遍存在。56种细胞类型被鉴定为组织特异性细胞,如滋养层细胞、色素细胞和几种特化细胞。(图1At-SNE分析表明,与独特组织功能(如肠道、肝脏、大脑和胎盘)相关的单细胞类型簇具有密切相关的特征。同样,来自具有相似功能不同组织的单细胞簇,如成纤维细胞、平滑肌细胞和免疫细胞,在基因表达谱上表现出高度相似性。(图1B使用分层聚类方法分析81种共有单细胞类型内的相似性,并生成15个独特的官能团图1C

研究团队根据转录组学特征对所有蛋白质编码基因进行了分类评估了所有20,082个人类蛋白质编码基因在81种已鉴定的单细胞类型的mRNA表达谱。(图2)分类显示,2109个基因(10%)被鉴定为细胞类型富集,表明在单个细胞类型中具有高度特异性2732个基因(14%)被归类为细胞类型组富集,在多达10种细胞类型组中显示出高度富集。此外,50%基因被归类为细胞类型增强,在至少一种细胞类型中表现出中度富集的表达3072个基因15%表现出低细胞类型特异性6%的基因未检测到(在所有细胞类型中表达低于检测限(nTPM<1)的基研究团队还探索了所有基因的全体单细胞类型特异性,其中睾丸生殖细胞肝细胞表现出高的富集基因数量

图片

图2.基于扩展单细胞类型的蛋白质编码基因分类揭示了新的细胞类型特异性基因。

与此前版本相比,该研究添加73种新的细胞类型。新细胞类型的引入促使基因特异性分类发生变化。该更新版本低特异性未检测到不可用基因的数量减少增强基因的类别有所增加,这可能反映了来自扩展数据集的更大基因库和包含更多的细胞类型。此外,在当前研究中引入更多组织后,在前研究中鉴定的细胞类型丰富基因中,超过一半的特异性降低。(图2F)该研究表明,随着纳入更多的细胞类型,曾经被认为对一种细胞类型独特的基因也在具有生物学意义的其他细胞类型中表达。此外研究还发现,多达一半的新分类细胞类型富集基因之前被定义为组富集、细胞类型增强或没有细胞类型特异性。

此外,研究团队比较了传统批量转录组和单细胞转录组学单细胞数据擅长检测独特基因,尤其是稀有细胞类型中表达的基因,揭示以前无法识别的表达模式。相比之下,批量测序提供了更广泛的基因覆盖,特别是对于低丰度基因两种方法在捕获全谱基因表达方面有着互补性。

图片

图3.批量和单细胞转录组测序比较。

总体而言,更新版本的HPA单细胞类型部分包含更多的细胞类型升高基因,强调单细胞类型数据集的扩展分析提供更全面的不同细胞类型的转录组学信息,在揭示更详细、以基因为中心的细胞类型特异性方面的效用该研究结果已添加到HPA单细胞类型部分下更新的开放获取资源中。研究人员可以在交互式UMAP图和条形图中探索每种细胞类型中基因表达,并链接到人体组织中相应的免疫组化。这些数据无需注册即可免费下载,帮助研究人员探索这些组织中所有蛋白质编码基因在单个单细胞类型的表达

HPA网址www.proteinatlas.org

论文原文:

Shi, M., Méar, L., Karlsson, M. et al. A resource for whole-body gene expression map of human tissues based on integration of single cell and bulk transcriptomics. Genome Biol 26, 152 (2025). https://doi.org/10.1186/s13059-025-03616-4

Tags: Genome Biol:基于单细胞和批量转录组学扩展人类蛋白编码基因的全基因组表达图谱,涉及所有主要组织和器官  

搜索
网站分类
标签列表