首页 > 医疗资讯/ 正文
肺癌是中国乃至全球范围内确诊率、死亡率最高的癌症,严重威胁着人群健康。通过大规模全基因组关联研究(GWAS),科研人员已发现了40多个与肺癌相关的基因位点,但仍存在两大关键挑战。一方面,多数已发现的关联位点位于非编码区域,其背后的分子机制尚不清楚;基因型-组织表达(GTEx)等项目为欧洲和非洲人群提供了丰富的多组学数据,但亚洲人群却缺乏类似规模的参考数据。
另一方面,已知的常见变异仅能解释一小部分肺癌遗传力,已有研究表明罕见变异可能在复杂性状中发挥着重要作用,但通过芯片和全外显子组测序(WES)发现的单核苷酸变异(SNVs)数量有限。全基因组测序(WGS)可以捕获整个变异谱,现有研究主要聚焦于编码区的假定功能丧失(pLoF)变异,约占基因组97%以上的非编码区罕见变异几乎未被充分探索,特别是在中国人群中。
为应对上述挑战,浙江大学医学院附属第二医院吴息凤团队与华大基因吴逵团队等合作,对13,722名中国个体进行全基因组测序(WGS),重点解析了与肺癌相关的非编码调控元件。通过对现有东亚人群研究进行荟萃分析,验证了常见变异位点;整合297份正常肺组织样本的基因组-转录组数据,识别出TP63、DCBLD1等关联基因。此外,利用STAAR框架分析非编码罕见变异,发现了PARPBP、PLA2G4C、RITA1等新肺癌易感基因;并采用深度学习方法揭示了肺癌相关基因的潜在上游调控因子。总之,该研究提供了肺癌非编码调控的关键见解及潜在干预靶点。
研究团队采用"发现-验证"两阶段设计:首先对11,058名中国受试者进行WGS,并对肺癌相关遗传元件进行了全次要等位基因频率(MAF)谱扫描;随后,对另外3,055名中国受试者进行了测序,以验证研究结果;并对 297份肺癌患者正常肺组织样本进行基因表达分析构建多组学参考panel。
对于常见变异,基于广义线性混合效应模型识别肺癌相关位点,联合东亚人群GWAS进行荟萃分析验证,通过条件分析与联合分析筛选独立效应变异,采用转录组关联研究定位致病基因。对于罕见变异,遵循STAAR流程筛选候选基因,利用STAAR-O整合分析方法进行验证,同时借助转录因子足迹、ChIP-seq等数据进行精细定位,结合单细胞RNA测序(scRNA-seq)数据开展富集分析,最终整合多组学证据探究肺癌相关分子元件的结构。
图1. 研究概要
研究团队对发现集中1,104例非小细胞肺癌(NSCLC)患者和9,635名健康对照进行平均深度21.23×的WGS,采用GATK流程处理测序数据,经严格质量控制(如去除污染、低覆盖度样本,基因型优化等),最终获得90,399,472个常染色体双等位变异。其中,有2,802万个SNP和286万个INDEL为首次报道。
功能注释结果显示,57.0%和25.8%的变异分别位于内含子和基因间区,编码区变异以错义变异和同义变异为主,分别占60.7%和34.7%。主成分分析表明,该研究样本遗传背景与东亚人群一致,无明显人群分层。上述结果证实了变异处理和质量控制的有效性,为后续关联分析奠定了坚实基础。
图2. WGS变异检出、质量控制和主成分分析
研究团队对常见变异(MAF≥0.01)采用广义线性混合效应模型分析,共发现19个与NSCLC相关的显著变异,涉及TERT(5p15)和TP63(3q28)两个基因位点,其中13个变异在验证集中得到验证。结合Biobank Japan肺癌GWAS进行meta分析,进一步验证了4个位点(6q22.1、10q25.2、12q13.13和19q13.2);条件与联合分析(COJO)确定了14个独立的性状相关变异。
基于297例肺组织表达数据,研究团队通过转录组全关联分析(TWAS)鉴定出8个与肺癌显著相关的基因,其中TP63和CLDN18表达水平与肺癌风险呈负相关,FOXP4为潜在癌基因。此外,在东亚人群免疫细胞中,研究团队鉴定出26个基因-细胞类型对与肺癌风险显著关联(含13个独特基因),DCBLD1在多种免疫细胞类型中被识别。
图3. 常见变异的全基因组和全转录组关联分析
针对罕见变异(MAF<0.01),研究团队采用STAAR流程将变异分为编码区和非编码区,并进行聚合关联分析。在发现集中,识别出147个基因与肺癌风险相关,9个基因(如ENO1、PLA2G4C、EFHD2等)在验证集成功验证,其中7个位于非编码区。此外,固定和动态窗口分析识别出4个与肺癌显著相关的基因组片段,位于CMIP、PRKG1等基因的内含子或上下游区域,且在肺和免疫相关细胞系中具有高富集信号。
研究团队还对吸烟者和非吸烟者进行了分层分析,发现MYO5B和AUTS2表现出边缘显著关联;并成功验证了之前研究中基于pLoF变异的4个NSCLC 相关基因(NBN、WRN、FANCA、GEN1)。
图4. 罕见变异分析
接下来,研究团队利用深度学习框架DeepSEA/Sei对发现的大量非编码遗传元件进行精细定位,以探究因果变异及其相关调控因子。结果显示,EFHD2(增强子区)变异、ENO1(启动子区)变异可能影响TP53、ZEB1、MYC、NFKB1、FOXA1/A2等TF结合模式,PLA2G4C和RITA1中也观察到类似情况。这些结果为肺癌相关基因的潜在上游调控因子提供了重要证据。
基于scRNA-seq数据开展富集分析,研究团队确定了与肺癌相关基因关联的特定细胞类型。结果显示,增殖性T细胞中,PARPBP和ENO1基因显著富集,其中PARPBP在该细胞群具高表达特异性;C11orf21、EFHD2基因在NK细胞中存在显著富集,这在非编码调控框架下为肺癌相关基因明确了特定的关联细胞类型。
图5. 基于深度学习识别潜在调控因子
综上所述,该研究通过迄今规模最大中国人群肺癌WGS研究,覆盖全频谱遗传变异;构建了首个大型中国人群肺组织基因组-转录组参考panel,为基因调控解析提供宝贵数据;应用STAAR流程系统整合非编码区罕见变异,填补了肺癌遗传学研究中关于罕见变异的关键认知空白。
参考文献:
Zhou, D., Wu, M., Tan, Q. et al. Non-coding genetic elements of lung cancer identified using whole genome sequencing in 13,722 Chinese. Nat Commun 16, 7365 (2025). https://doi.org/10.1038/s41467-025-62459-6
猜你喜欢
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)