首页 > 医疗资讯/ 正文

Nat Commun:吴息凤/吴逵团队开展迄今最大规模中国人群肺癌全基因组关联研究,揭示非编码遗传调控新机制

来源 2025-08-13 12:09:55 医疗资讯

肺癌是中国乃至全球范围内确诊率、死亡率最高的癌症,严重威胁着人群健康。通过大规模全基因组关联研究(GWAS),科研人员已发现了40多个与肺癌相关的基因位点,但仍存在两大关键挑战。一方面,多数已发现的关联位点位于非编码区域,其背后的分子机制尚不清楚;基因型-组织表达(GTEx)等项目为欧洲和非洲人群提供了丰富的多组学数据,但亚洲人群却缺乏类似规模的参考数据。

另一方面,已知的常见变异仅能解释一小部分肺癌遗传力,已有研究表明罕见变异可能在复杂性状中发挥着重要作用,但通过芯片和全外显子组测序(WES)发现的单核苷酸变异(SNVs)数量有限。全基因组测序(WGS)可以捕获整个变异谱,现有研究主要聚焦于编码区的假定功能丧失(pLoF)变异,约占基因组97%以上的非编码区罕见变异几乎未被充分探索,特别是在中国人群中。

为应对上述挑战,浙江大学医学院附属第二医院吴息凤团队与华大基因吴逵团队等合作,对13,722名中国个体进行全基因组测序(WGS)重点解析了与肺癌相关非编码调控元件通过对现有东亚人群研究进行荟萃分析,验证了常见变异位点整合297正常肺组织样本的基因组-转录组数据,识别出TP63、DCBLD1等关联基因此外,利用STAAR框架分析非编码罕见变异,发现了PARPBP、PLA2G4C、RITA1等新肺癌易感基因并采用深度学习方法揭示了肺癌相关基因的潜在上游调控因子。总之,该研究提供了肺癌非编码调控的关键见解潜在干预靶点。

图片

研究团队采用"发现-验证"两阶段设计:首先11,058名中国受试者进行WGS,并对肺癌相关遗传元件进行了全次要等位基因频率(MAF)谱扫描随后,对另外3,055名中国受试者进行了测序,以验证研究结果并对 297份肺癌患者正常肺组织样本进行基因表达分析构建多组学参考panel

对于常见变异,基于广义线性混合效应模型识别肺癌相关位点,联合东亚人群GWAS进行荟萃分析验证通过条件分析与联合分析筛选独立效应变异采用转录组关联研究定位致病基因对于罕见变异,遵循STAAR流程筛选候选基因,利用STAAR-O整合分析方法进行验证同时借助转录因子足迹、ChIP-seq等数据进行精细定位,结合单细胞RNA测序scRNA-seq)数据开展富集分析,最终整合多组学证据探究肺癌相关分子元件的结构。

图片

1. 研究概要

研究团队对发现集中1,104例非小细胞肺癌(NSCLC)患者和9,635名健康对照进行平均深度21.23×WGS采用GATK流程处理测序数据经严格质量控制(如去除污染、低覆盖度样本,基因型优化等),最终获得90,399,472个常染色体双等位变异其中,2,802万个SNP和286万个INDEL首次报道

功能注释结果显示,57.0%和25.8%的变异分别位于内含子和基因间区编码区变异错义变异和同义变异为主,分别占60.7%和34.7%主成分分析表明研究样本遗传背景与东亚人群一致,无明显人群分层。上述结果证实了变异处理和质量控制的有效性,为后续关联分析奠定了坚实基础。

图片

图2. WGS变异检出、质量控制和主成分分析

研究团队对常见变异MAF≥0.01采用广义线性混合效应模型分析发现19个NSCLC相关显著变异,涉及TERT(5p15)和TP63(3q28)两个基因位点其中13个变异在验证集中得到验证。结合Biobank Japan肺癌GWAS进行meta分析,进一步验证了4个位点(6q22.110q25.212q13.1319q13.2条件与联合分析(COJO)确定了14个独立的性状相关变异。

基于297例肺组织表达数据研究团队通过转录组全关联分析(TWAS)鉴定出8个与肺癌显著相关的基因其中TP63和CLDN18表达水平与肺癌风险呈负相关FOXP4为潜在癌基因此外,在东亚人群免疫细胞中研究团队鉴定出26个基因-细胞类型对与肺癌风险显著关联(含13个独特基因)DCBLD1在多种免疫细胞类型中被识别

图片

图3. 常见变异的全基因组和全转录组关联分析

针对罕见变异MAF<0.01,研究团队采用STAAR流程将变异分为编码区和非编码区,并进行聚合关联分析。在发现集中,识别出147个基因与肺癌风险相关,9个基因(如ENO1、PLA2G4C、EFHD2等)验证集成功验证,其中7个位于非编码区。此外,固定和动态窗口分析识别出4个与肺癌显著相关的基因组片段,位于CMIP、PRKG1等基因的内含子或上下游区域,且在肺和免疫相关细胞系中具有高富集信号

研究团队还对吸烟者和非吸烟者进行了分层分析,发现MYO5B和AUTS2表现出边缘显著关联成功验证了之前研究中基于pLoF变异的4NSCLC 相关基因(NBNWRNFANCAGEN1

图片

4. 罕见变异分析

接下来,研究团队利用深度学习框架DeepSEA/Sei发现大量非编码遗传元件进行精细定位,探究因果变异及其相关调控因子结果显示,EFHD2(增强子区)变异ENO1(启动子区)变异可能影响TP53、ZEB1、MYC、NFKB1FOXA1/A2TF结合模式PLA2G4C和RITA1观察到类似情况。这些结果为肺癌相关基因的潜在上游调控因子提供了重要证据。

基于scRNA-seq数据开展富集分析,研究团队确定了与肺癌相关基因关联特定细胞类型结果显示,增殖性T细胞中,PARPBP和ENO1基因显著富集其中PARPBP在该细胞群具高表达特异性C11orf21、EFHD2基因在NK细胞中存在显著富集,这在非编码调控框架下为肺癌相关基因明确了特定的关联细胞类型。

图片

5. 基于深度学习识别潜在调控因子

综上所述,研究通过迄今规模最大中国人群肺癌WGS研究,覆盖全频谱遗传变异构建了首个大型中国人群肺组织基因组-转录组参考panel为基因调控解析提供宝贵数据应用STAAR流程系统整合非编码区罕见变异,填补了肺癌遗传学研究中关于罕见变异的关键认知空白

参考文献:

Zhou, D., Wu, M., Tan, Q. et al. Non-coding genetic elements of lung cancer identified using whole genome sequencing in 13,722 Chinese. Nat Commun 16, 7365 (2025). https://doi.org/10.1038/s41467-025-62459-6

Tags: Nat Commun:吴息凤/吴逵团队开展迄今最大规模中国人群肺癌全基因组关联研究,揭示非编码遗传调控新机制  

搜索
网站分类
标签列表