首页 > 医疗资讯/ 正文
单细胞生物学的快速发展,使我们能够在前所未有的分辨率下描绘细胞类型与状态。伴随而来的,是来自多种物种、疾病状态、组织和器官的海量单细胞数据。诸如CZI CELLxGENE、HuBMAP、Broad Institute Single Cell Portal以及DISCO等项目的开展,使研究人员能够获取大量经过整理的数据集,绘制了诸多单细胞图谱,为构建和扩展计算生物学生态系统创造了契机,有助于开发数据再利用及挖掘新生物学见解的必要工具。
近日,Genome Biology发表了综述文章“Insights, opportunities, and challenges provided by large cell atlases”,重点回顾了迄今为止单细胞图谱研究的主要成果、尚需进一步发展的领域,以及需要克服的具体挑战。小编对该文章的主要内容进行了编译。

在单细胞技术的环境下,“图谱”指的是指经过系统整理并通过网络平台开放共享的大型数据集合。截止到目前,已有数千个单细胞数据集可供使用。构建细胞图谱是一项资源密集型的工作,需要生物学家与数据科学家组成的大型团队共同完成。此外,这一过程还需要大量基础设施的支持,并且要想长期服务于科研社区,细胞图谱必须持续维护和更新。因此,细胞图谱通常由大型机构支持,或依托于大规模科研项目。
该综述分享了一个国际研究团队参与Chan Zuckerberg Initiative(CZI)的“数据洞见计划”总结的实践经验,分析了构建与使用细胞图谱过程中涉及的一些关键问题(图1),并进一步探讨了细胞图谱所带来的新机遇,以及科学界在未来发展中所面临的挑战。

图1
数据导入、访问与呈现
任何科学数据资源的核心目标之一,是确保其遵循FAIR原则,即保证数据可发现(Findable)、可获取(Accessible)、可互操作(Interoperable)以及可重复利用(Reusable)。作为集中式数据存储库,细胞图谱显著提升了数据的可检索性与可访问性。通过数据统一处理并遵循标准化格式,细胞图谱还能实现数据的互操作性与可重复利用性。虽然理论上这些原则看似简单明了,但细胞图谱的规模和复杂性使得实现这些目标充满挑战。
数据预处理
要使测序数据发挥作用,必须能够获取其底层的原始reads,这些数据通常以fastq格式存储。除了原始数据外,还必须导入不同层次的已处理数据以及相关元数据。构建细胞图谱的首要步骤是执行质量控制,以确保数据的完整性。因此,数据预处理是一个关键环节,但由于不同研究使用的软件版本不一致,其流程往往记录不充分,且难以复现。虽然预处理可以提高数据的内部一致性,但并不能避免同一图谱内部或不同图谱之间的不一致性。细胞图谱研究中一个特别值得关注的问题是批次效应,即因数据获取与处理方式差异而产生的技术性偏差。尽管可以在一定程度上减轻批次效应,但它无法被完全消除。幸运的是,只要能够获取详细的处理信息,就可以在事后检测并校正批次效应。由于任何数据库都无法涵盖所有条件、人群、生物体、细胞类型和检测模式,因此保持这种可追溯性是支持元分析的关键前提。
数据可访问性、互操作性与可重复利用性
细胞图谱通过提供可供用户搜索数据的门户,大大提升了数据集的查找效率。根据具体应用场景,用户可能需要不同处理层次的数据,仅提供原始数据通常是不够的。然而,用于数据索引、元数据标准化及跨队列查询的工具仍处于起步阶段,这限制了研究人员筛选合适数据集的能力。虽然用户可以通过网页浏览器查找并访问单个数据集,但如果要分析大量数据集,则需要具备编程技能和充足的计算资源。这对许多研究人员构成了使用障碍,因此,开发能简化访问大型细胞图谱的计算工具成为一个重要的研究方向。另一个关键方面是为开发者提供用于访问细胞图谱的API(应用程序接口)。这不仅要求遵循标准化文件格式,还需兼容多种编程语言。截至文章撰写时,R和Python是使用最广泛的两种语言,因此细胞图谱必须同时支持它们,才能真正发挥作用。与细胞图谱的其他方面一样,这些资源也必须随着计算生态系统与应用场景的演变而持续更新。
元数据与本体
元数据对于希望重新分析现有数据集的研究人员而言至关重要。完整且经过精心整理的元数据可以将细胞图谱从一个静态的参考资源转变为动态的假设生成工具,从而支持多层次分析。例如,记录感染后时间点的元数据可以帮助重建疾病的发生与发展轨迹。另一方面,缺失或不完整的元数据可能会误导数据解读。这一问题早已被学界广泛认识到,过去也有如 MIAME等社区组织推动制定统一的元数据标准。
对于单细胞RNA测序(scRNA-seq),元数据通常可分为三类:样本级、基因级和细胞级。样本元数据包括供体信息、采集时间、样本储存、实验处理及计算处理等内容。基因元数据相对简单,至少对于模式生物而言,其注释体系已相当成熟和稳定。细胞元数据中最重要的部分是注释,这需要将数据映射到细胞类型本体(Cell Type Ontology)上。单细胞分析中一个典型的元数据方案是矩阵与元数据标准(MAMS)。虽然报告和遵循技术标准至关重要,但更为关键的是建立一种科研文化,即数据生产者意识到自己有责任提供完整的元数据信息。
本体论能够实现形式化和结构化的操作,在提供数据上下文及促进生物学解释方面至关重要。尤其是,本体论使自动化数据处理以及机器学习/人工智能(ML/AI)方法的应用成为可能。细胞本体论为细胞类型和状态提供了标准化的术语体系,这对于保证数据集之间的互操作性至关重要。细胞类型注释是生物学解释中的核心步骤,但它依然是分析过程中最耗时的任务之一。传统方法通常先为每个聚类识别标志基因,然后结合文献资料判断对应的细胞类型或状态。目前已有若干计算工具试图通过与先前注释好的数据集进行对比来辅助这一过程,而这也被认为是细胞图谱最重要的应用场景之一。但在整合多个数据集时,常常会出现注释不一致的问题,因此如何为不同数据集分配一致的细胞标签仍是一大挑战。目前尚不存在普遍公认的细胞类型定义;然而,随着我们对细胞生物学与细胞身份认知的不断加深,本体论体系必须保持灵活性,以适应细胞类型、状态及条件的多样性。在这方面,我们认为用于统一和标准化注释的工具(例如各种细胞注释比对工具),以及HuBMAP通用坐标框架(CCF)等项目,将在提升数据一致性与增强细胞图谱跨领域适用性方面发挥关键作用。
跨物种比较尤其具有挑战性,不仅因为命名体系存在差异,还因为生物学功能也可能不同。这类分析可通过保留基因或特征层面的元数据,并利用同源性信息来加以辅助。将疾病相关数据整合入细胞图谱同样面临一系列困难,因为疾病相关细胞可能具有独特的细胞状态,需要在元数据层面进行更为扩展的注释。此外,当使用疾病特异性数据查询“正常”细胞图谱时,研究人员必须考虑潜在的细胞类型缺失或错配问题。例如,癌细胞常常重新激活发育过程中的基因表达程序,这意味着它们可能被映射到正常的发育阶段,而非典型的“病理性”细胞类型。
充分挖掘细胞图谱的价值
细胞图谱的直接用途是为特定的组织、疾病、生物体或生理状态提供细胞类型与细胞状态的整体概览。对这些“生物学构件”的系统梳理具有重要的科学价值,一旦建立,就能成为探索更多生物学问题的基础与起点。科研界面临的挑战在于,访问细胞图谱的需求非常多样。对于某些研究人员而言,仅通过网络平台浏览基因表达模式和细胞聚类结果可能已足够;而对于需要定制化分析的研究人员,则可能需要将整个细胞图谱数据下载到本地计算机或服务器上进行处理。
数据表示与子采样
在使用细胞图谱时,典型的工作流程通常要求用户首先识别并下载相关数据集。由于这些数据集的规模极大,在采用标准数据结构时通常已超过1TB,这对网络带宽提出了很高要求,也使得许多缺乏高内存计算资源的实验室难以处理。对大多数用户而言,处理此类数据需要使用外存计算、高性能计算平台,并投入大量精力进行数据整理与预处理。因此,迫切需要开发既能处理流式数据又具备无损压缩算法的单细胞数据解决方案,以显著降低内存占用且不影响计算性能。目前,针对R、C++或Python等环境开发的新数据结构,与标准稀疏矩阵相比,可在计算性能几乎不受影响的情况下将内存占用减少至原来的十分之一,且计算成本极低。这一成果得益于在内存限制管理方面的技术突破,以及通过采用基于磁盘或金字塔式的数据格式来实现对大规模数据集的高效处理。典型的例子包括Zarr、Parquet和TileDB等数据格式。
应对大规模数据集的一种算法策略是进行子采样(subsampling)。子采样可以降低多样数据集的计算负担,并有助于减少高频信号带来的偏倚,但同时也可能削弱大规模数据所提供的独特建模能力。子采样还涉及样本中的种族与性别偏倚、特定细胞类型的过度代表性以及稀有样本的机会性收集等问题;最佳的采样策略应依据研究的科学目标而定。简单的随机子采样无法保证信号的充分代表性,并可能遗漏稀有细胞亚群;理想的做法是在准确反映真实细胞类型比例与完整呈现稀有细胞类型之间找到平衡点。随着细胞图谱在不同组织和受体来源上的多样性日益增加,子采样方法的应用潜力也将愈发显著。然而,这种汇总化处理可能削弱我们捕捉那些依赖于大样本统计能力才能揭示的微弱且重要的生物学信号的能力。此外,我们认为基于潜在空间的表示方法在提供紧凑数据表达方面大有可为,但仍需进一步研究以明确其准确性与局限性。当前备受关注的“biosketching(生物速描)”方法,能够在保持结构特征的同时高效地对大规模单细胞数据进行摘要化表达。另一种互补策略是构建“metacell(元细胞)”,这一方法在一系列研究中得到发展,以在降低数据稀疏性和噪声的同时,保留关键的转录结构信息。尽管这些方法可能会牺牲单细胞层面的分辨率,但在结果的可解释性、稳健性以及计算可行性方面具有潜在优势。
数据整合与荟萃分析
为了将不同的细胞图谱彼此关联,或与其他单细胞数据集相结合,科研界依赖于各种数据整合工具。这些工具的目标是从所有输入数据中识别共同的低维表征,以便进一步的下游分析,例如联合聚类、细胞类型分类以及差异丰度分析等。在现代单细胞分析中,数据整合通常是协调不同数据集的关键步骤,同时也是进行单细胞数据荟萃分析的起点。恰当的荟萃分析不仅需要考虑校正后的细胞类型标签,还必须处理其他复杂且难以控制的统计因素带来的挑战。其中涉及的问题包括混杂因素、生物样本内单细胞数据的嵌套结构(即重复测量),以及对潜在变异来源的识别与理解等。
理想情况下,细胞应附带样本层级的信息,如供体身份、性别、年龄、组织来源、生物种类、发育阶段、检测技术及疾病状态等。其中一部分混杂因素属于技术层面,通过在整合时加以校正,可以有效去除噪声并增强生物学信号的显著性。另一些混杂因素源于生物学差异,因此数据整合能够帮助研究者在不同组织、疾病及物种间比较相似的细胞状态。一个实用的数据整合算法应当考虑所有这些信息来源,并允许用户根据研究目的选择保留或去除特定的变异因素。例如,在比较不同组织来源的T细胞时,若研究目的是解析组织特异性差异,则应避免跨组织的整合;若目的是在多种疾病间识别共有的效应表型(例如用于篮式临床试验),则应进行跨组织的数据整合。这些应用场景表明,数据整合并非一种在分析前固定执行的静态工具,而应具备灵活性,以适应具体的研究问题。
然而,这也带来了新的计算挑战——目前的整合算法通常被设计为在每次分析中只运行一次,因此尚未针对动态在线查询的应用场景进行优化。成功的数据整合算法必须应对这些新出现的复杂性,并满足以下要求:(1) 能够扩展至包含数万个混杂因素层级(对应于供体数量);(2) 能系统地考虑所有技术与生物学变异来源,同时允许用户选择需要校正的部分;(3) 在各种不同的细胞图谱查询场景下保持一致的表现;(4) 具有足够的速度与灵活性,以支持实时整合多样化的查询;(5) 能以用户易于理解的方式展示整合对数据失真与信号衰减的影响。近年来,已有大量用于批次整合的方法被提出,并在多项独立基准测试中显示出显著的性能提升。但仍然存在诸多挑战,现有方法在处理更复杂的场景时(例如跨物种数据、不平衡数据集或超大规模细胞数量)往往表现欠佳。由于批次整合的定量评价指标无法全面反映其效果,对上述五项标准的评估还应结合生物学解释进行审慎考量。
在特定场景中构建细胞图谱
细胞图谱除了用于定义细胞类型及其对应标志物外,其另一项重要用途是探索特定疾病或功能衰退(例如疾病状态、功能下降)、生理/生物学因素(如年龄、性别、种族/遗传背景)或治疗干预(如药物反应)对细胞及转录组景观的影响。实际上,通过在特定生物学场景下分析细胞图谱,可以获得重要的见解,例如比较不同生物学因素如何导致 (i) 细胞组成的变化以及 (ii) 细胞类型特异性基因表达的差异。需要强调的是,即使是单细胞图谱,其生物学重复也应来自独立的生物来源或个体,而不仅仅是同一样本中分离出的不同细胞。因此,场景化细胞图谱的一个关键特征是:在不同条件下应包含足够数量的独立生物样本,以反映个体间差异。这就需要与批量分析实验类似的、足够数量的真实生物学重复。在解读场景依赖型细胞图谱时,必须采用能有效降低单细胞差异分析中高假阳性率的方法。例如,可以针对每种已识别的细胞类型/状态采用伪批量化方法,以避免低估真实的生物学变异。
基准测试与新方法开发
目前,单细胞研究领域的计算工具生态系统正蓬勃发展,对于大多数分析问题,往往存在多种可选方法。为了帮助研究人员选择合适的工具,基准测试研究至关重要,目前每月都有多篇相关论文发表。然而,当前单细胞领域的基准测试仍面临多重挑战,亟需制定最佳实践指南。首先,应明确评估指标的定义;尽管具体细节取决于研究主题,但整体趋势应保持一致。在比较不同方法时,主要的困难之一是:对于大多数问题,我们并没有一个独立且可靠的“真实参考标准(ground truth)”。因此,性能评估在一定程度上不可避免地带有主观性。应对这一问题的一种方法是通过模拟生成合成数据。然而,大多数合成数据集无法完全反映真实数据的复杂性,因此仍需在最新进展的基础上进一步改进。使用真实数据进行比较需要对数据进行精细整理,这一过程既耗时又需要丰富的领域知识。此外,数据整理过程本身可能会无意间强化某些算法的优势(例如聚类算法)。因此,能够通过独立验证手段确立为“金标准”的数据集具有极高的科研价值。经过严格整理的细胞图谱可以在此发挥重要作用,成为特定分析任务的常用基准数据集。
目前,大多数分析工具和策略的设计仍基于有限数量的数据集或细胞总数设计。许多常用方法在处理上千万个细胞或上千种条件时无法良好扩展,因此迫切需要提升计算与算法效率。这通常需要引入近似算法或有损压缩策略,以实现预期的加速效果并减少内存占用。例如,采用小批量(mini-batch)训练策略可以在不显著影响结果质量的前提下,加速k-means聚类的估计过程。
除了改进现有分析策略外,还需要对这些方法进行更广泛的重构,以应对涵盖不同组织、物种及生命阶段的新生物学问题,从而充分利用多样化的数据集。一个典型的例子是RNA速度(RNA velocity)分析,这一成熟方法需要新的分析框架才能适用于新类型的数据。与通用算法不同,我们可以设计一种符合多维约束并具有生物学特征的速度模型,以在病例-对照分析中进行统计比较。采用这种模块化方法,可以利用疾病或扰动样本研究RNA速度的细微偏移是否反映了特定扰动的生物学效应。
近年来,人工智能(AI)领域取得了巨大进展,尤其是在自然语言处理、蛋白质结构预测与图像分析方面。这些方法的共同特点是依赖大规模训练数据集,因此细胞图谱的发展将进一步推动其应用。目前,多个研究团队已基于细胞图谱计划收集的大规模数据开发出基础模型,如Geneformer、scGPT、scFoundation、scBERT、CellFM、UCE及atlas approximations等。这些基础模型能够从基因表达谱中学习细胞类型与状态的泛化表征,可用于新数据集的注释、映射至共享潜在空间、推断缺失模态,以及模拟基因或药物干预的响应。虽然取得了显著进展,这些模型的广泛实际应用仍然有限。当前的主要挑战包括:将模型应用于用户友好界面的技术障碍、内存与计算资源需求高、模型预测与表征的可解释性不足,以及缺乏在噪声高、罕见或疾病特异性单细胞数据集上的广泛压力测试,从而影响其可信度。尽管如此,该领域仍在快速发展,部分模型已成功应用于生物学意义重大的任务中,如跨物种比较和空间病理学整合。随着这些工具的可及性与可靠性不断提升,我们预计AI将日益成为连接细胞图谱与转化医学洞见的重要桥梁。
利用细胞图谱开展生物医学研究
或许,构建细胞图谱的最重要应用在于有望加速生物医学研究,从而帮助人类更好地防治疾病。接下来,文章将讨论细胞图谱将在其中提供关键资源的若干研究领域。
通过大规模全基因组关联研究(GWAS),科学家已鉴定出数千个与疾病风险或人类性状相关的遗传位点。虽然这些研究为复杂和常见疾病提供了重要且出人意料的见解,但同时也揭示出巨大的知识鸿沟。例如,在冠状动脉粥样硬化性心脏病(CAD)的风险位点中,尚有约50%不清楚其涉及的具体基因、细胞类型,及相应的分子和细胞通路。通过研究与CAD相关的遗传位点,我们发现基因调控效应具有场景依赖性,其影响的方向、效应强度以及是否显著均可随条件变化而改变。换言之,生物性别、环境因素(如吸烟)以及疾病状态都会影响基因型效应,并改变细胞的基因表达与反应。将遗传信息与细胞分子特征相结合的细胞图谱,将成为解析此类复杂调控效应的关键资源。
细胞图谱还可促进治疗靶点的发现,例如,通过分析从健康到疾病状态的细胞转变轨迹,识别相关的基因特征,从而预测与疾病相关的细胞状态。目前已有自动化分析流程(如scDrug、Drug2Cell),可将蛋白编码基因的细胞-基因矩阵作为输入,并整合药物-基因相互作用数据库(如DGIdb)、细胞扰动实验(如LINCS L1000)、FDA批准的小分子与生物制剂(如DrugBank)及活性配体资源(如ChEMBL),以优先筛选潜在的药物靶基因。更重要的是,细胞图谱还可通过在公共数据库(如 SIDER)中查询已知靶点,预测药物反应或潜在不良反应(例如通过scDR模型)。这种将细胞图谱与治疗性数据库相结合的方法,可以将遗传流行病学(尤其是通过孟德尔随机化实现的因果推断)与单细胞生物学联系起来,从而有效识别可药物化靶点或替代标志物。
细胞图谱所包含的大规模数据集需要合适的工具和框架来实现高效探索。只有通过这样的手段,细胞图谱才能充分发挥潜力,帮助更广泛领域的研究者提出创新性假设、准确呈现研究成果并促进科研交流。过去十年间,为简化这类数据集分析而开发的平台和界面层出不穷,例如CELLxGENE工具、Bioconductor iSEE软件包、Vitessce,以及Broad单细胞门户和Single Cell Expression Atlas所提供的浏览器。这类工具支持广泛的分析操作,使研究者能够深入探索数据,整合不同视图与表达方式,并链接至其他现有数据库或相关资源。有关整合细胞图谱交互的系统性最佳实践指南,可参考相关研究工作。
超越解离单细胞转录组图谱
scRNA-seq是首个可对单细胞进行高通量、多维度特征分析的方法,已成为目前应用最广泛的技术手段。当前仍有大量其他单细胞技术正在积极开发中,预计未来几年,细胞图谱领域将迎来多种技术模式的出现。这些新型技术包括TCR和BCR测序、ATAC-seq以及长读长测序等。尽管这些进展无疑将极大地造福科研人员,但同时也带来了诸多挑战。首先,构建细胞图谱的各类组织机构需要制定相应的标准与流程,以规范其它数据模态的处理和整合。确保不同数据模态能够实现联合分析是关键目标,但这也面临重大挑战,例如:开发统一的预处理流程、建立本体体系,以及确定应纳入的元数据类型。
目前已有多种检测技术被开发用于分析单细胞的其他生物学特征,如DNA甲基化、可及染色质(ATAC-seq)以及转录因子结合(scCUT&Tag)。当前的研究热点之一,是将这些检测方法整合应用于同一细胞中,以实现单细胞多组学联合分析。这种策略将带来了诸多新机遇,例如,通过整合ATAC-seq与RNA-seq数据,我们能够更好地推断基因调控网络。然而,在细胞图谱层面跨组织、跨供体、跨平台整合此类多组学数据,仍面临巨大的技术与计算挑战。随着多组学数据愈发复杂和异质化,未来的整合框架必须能够处理缺失模态、差异化噪声特征以及数据规模等问题。近期有综述指出,基于共享潜在空间(shared latent space)及图谱整合(graph-based integration)的方法在图谱级应用中表现出巨大潜力。与此同时,最新的基准测试研究也验证了这些方法处理大规模(图谱级)数据集的性能与可扩展性。
未来最重要的新技术方向是空间组学方法,主要包括空间转录组学和空间蛋白质组学,其他模态也很可能随后跟进。空间数据既蕴含着巨大的潜在价值,也伴随着多重技术与分析挑战。其中一个关键挑战是数据可视化:理想的分析环境应允许用户在基因表达空间(通常以UMAP表示)与物理空间之间实现无缝切换。这种可视化在单一数据集上相对容易实现,目前已在如CxG等细胞图谱平台中得到应用;但当涉及多样本整合时,情况将变得更加复杂。对于多样本数据而言,将细胞或spot映射到一个统一的坐标系统(可基于相对标志信息,或通过跨样本整合实现)可能更具实用性。
此外,还亟需进一步开发适用于空间数据挖掘的算法、工具及社区标准。空间数据挖掘通常包括:识别与疾病类型、组织类型或临床结果相关的亚细胞空间模式;以及从组织病理图像数据中提取可在历史组织学切片中应用的空间分布特征,而无需依赖配套的组学数据。随着空间组学技术不断发展,当逐步实现对大尺寸组织切片的亚细胞分辨率分析时,如何构建跨越分子、细胞与组织层次的整合分析方法将成为关键挑战。鉴于机器学习在图像分析中的成功应用,空间组学研究有望通过与计算机视觉及人工智能技术的融合,获得显著提升。
细胞图谱的推广
目前,细胞图谱主要是由研究者为科学研究所构建。然而,鉴于细胞图谱对更广泛社会可能产生的重要影响,及其所耗费的大量资源(其中相当一部分来自公共资金),确保细胞图谱能够服务于更广泛的受众群体也显得尤为重要。除了学术界的生物医学研究人员这一核心群体外,潜在的使用者还包括临床医生、生物技术和制药行业的研究人员。但我们认为,构建细胞图谱的目标应当更为宏大,即至少应使这一资源对普通公众具有一定的可及性,包括患者、教师以及各个年龄阶段的学生。面向公众展示细胞图谱资源时,应当突出那些与大众健康密切相关、直观易懂的内容。例如,以简化的方式展示细胞在不同器官中的功能,或它们在常见疾病中的变化过程,都可以成为促进公众参与的有力工具。与课程配套的交互式可视化工具、教师专用教学资源,以及将细胞生物学与现实世界医学突破(如心血管疾病、癌症、感染或衰老)相联系的叙事方式,对广大受众而言尤其具有价值。这些举措有助于向公众普及生物医学研究的最新进展与成果,促进公民的科学参与,并激励下一代科研工作者,确保未来的研究能够在此基础上继续发展。为了最大化这些举措的可及性与影响力,与科学传播专业人士的合作至关重要,可以确保传播内容的准确性、包容性以及对非专业受众的吸引力。
结论与展望
该文章系统梳理了细胞图谱带来的若干挑战与机遇。我们预见,在未来几年中,现有的细胞图谱将持续扩展,并且会出现更多针对特定研究方向的专业化图谱。多细胞图谱并存的模式将为该领域带来多重优势,因为它们在数据整理、呈现方式、交互功能和应用场景等方面各具特色。这与基因注释领域的情况类似,例如Ensembl、RefSeq和Gencode等资源至今仍被并行使用。根据具体研究需求,这些相互重叠又互为补充的资源中,总有一个将成为最合适的选择。与此同时,预计计算方法也将取得重大进展,能够高效处理细胞图谱级数据集,从而挖掘更多新的生物学见解。
细胞图谱的诞生得益于技术的进步,持续的技术创新将决定细胞图谱未来的发展方向。随着成本的下降,预计细胞图谱的覆盖范围将进一步扩大。若要充分发挥细胞图谱在生物医学研究及其他生物学领域的潜力,我们需要在不同年龄阶段及多种疾病状态下实现对人群的更全面覆盖。此外,还需要将更多物种纳入图谱构建。在未来几年内,蛋白质组学和代谢组学领域的进展将使研究者能够对大量单细胞进行分析,从而实现对代谢过程、信号传导及细胞间通讯的更精准建模。
除了在生物医学中的应用外,细胞图谱也已被证明是发育生物学、比较基因组学和进化生物学等基础研究中极其宝贵的资源。发育阶段的细胞图谱(如人类胎儿、大脑、斑马鱼、果蝇及小鼠的图谱)为解析细胞命运决定及谱系分化提供了丰富的数据资源,这些发现既适用于人类研究,也在进化发育生物学(“evo-devo”)的框架下具有重要意义。跨物种的比较细胞图谱——包括非模式哺乳动物、鸟类、爬行动物以及植物的图谱——有助于揭示保守与差异的细胞程序。诸如SPEED和疟疾细胞图谱(Malaria Cell Atlas)等资源,进一步将细胞图谱的应用拓展到了生态学与寄生虫生物学领域。这些资源表明,细胞图谱不仅是生物医学发现的重要工具,同时也是探索细胞与发育生物学、进化及生物多样性等基础科学问题的关键手段。
海量数据资源的开放可促进科学研究的普惠化。事实上,我们已进入一个许多研究项目仅使用公共数据即可开展的阶段。单细胞数据的信息密度极高,而生成这些数据的实验室往往难以独立挖掘出所有潜在发现,尤其是那些需要与其他数据集整合后才能揭示的新发现。通过促进复杂、多源数据集的高效利用与再利用,科研界可以显著加快科学发现的步伐。
总而言之,该文章阐述了细胞图谱的构建与应用——这类图谱通过整合海量单细胞数据,构建出涵盖各类细胞类型及其状态的完整图谱体系。文章详细讨论了在构建、维护及应用细胞图谱过程中所面临的挑战与机遇(图2),强调了数据标准化、开放共享及计算工具在挖掘有意义的生物学见解方面的重要性,最终目标是促进单细胞生物学领域实现跨组织、跨疾病状态及跨物种的研究突破。

图2
原文链接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03771-8
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)