首页 > 医疗资讯/ 正文

Nature | 基于超46万人构建汉族人群特异性多基因风险评分模型,填补精准医疗研究空白

来源 2025-10-23 12:12:55 医疗资讯

基于个体基因组图谱预测复杂疾病风险是人类遗传学的前沿方向,多基因风险评分(PRS)作为精准医疗的核心工具,在疾病预防与个性化诊疗中极具潜力。然而,当前PRS模型多基于欧洲人群全基因组关联研究(GWAS)数据构建,导致其对非欧洲人群的风险预测准确性显著降低,进而造成全球精准医疗发展不均衡。

东亚血统人群(EAS)占全球人口近四分之一,但在既往GWAS研究中,其参与者仅占3.95%。此外,现有东亚队列样本量有限且表型数据不足,这严重阻碍了独特遗传效应的发现,以及稳健具有临床价值的风险模型的开发。

为填补这一研究空白,中国台湾中央研究院与16家主要医疗中心合作发起台湾精准医疗计划 (TPMI招募超50万超过50万台湾居民,其中绝大多数为汉族血统通过整合基因组数据与电子病历(EMRs),研究团队系统开展了全表型组基因组关联分析识别出群体特异性的遗传风险变异,为多种复杂性状提供了新发现并构建了汉族人群PRS模型该模型对多种复杂疾病(如心血管代谢疾病、自身免疫性疾病、癌症及传染病等具有优异预测性能且在独立数据集及其他EAS人群中得到验证总之,该研究开展大规模汉族人群特异性遗传研究提供了独特契机,也为其他多样化人群研究提供了重要范式。

图片

研究团队选取TPMI项目463,447名个体为研究对象,其遗传特征汉族参考人群相似,开展了包括GWAS、遗传力估计、PRS模型构建与评估在内的全面基因组分析,涵盖695二分类疾病表型和24数量性状(如血压、BMI、血脂等)涉及肿瘤、代谢紊乱、循环系统疾病、自身免疫性疾病等多个疾病类别分析发现,TPMI队列病例比例与台湾全民健康保险研究数据库(NHIRD)的5年患病率呈中等显著相关证实了其表型数据的代表性

图片

1TPMI数据集中编码病例比例散点图和数量性状样本量条形图

研究团队463,447名汉族血统个体进行了GWAS分析,在265种疾病表型24种数量性状中至少识别出一个显著关联位点。分析证实TPMI数据具有高度稳健性,其对东亚人群已知疾病位点复制率高达78.17%,尤其是内分泌和代谢/造血疾病

研究团队采用单效应总和模型进行精细映射,识别独立的变异-性状关联,共鉴定2,656个独立关联信号,包括95个全新关联与217个已知区域的新位点。值得注意的是,95个新关联中有30个在其他血统人群中属于罕见变异与甲状腺癌相关的rs17089782PIBF1基因)、BMI相关的 rs761018157(PHOX2B基因)凸显了人群特异性遗传结构的重要性。

此外,鉴于台湾地区乙肝携带率高,TPMI识别出26个乙肝相关独立位点,其中19个为新位点,多数与肝功能或疾病相关。

图片

2:表型组范围的独立变异-性状关联

连锁不平衡得分回归分析(LDSC)显示,酗酒、开角型青光等疾病,以及身高、BMI和高密度脂蛋白胆固醇等数量性状具有较高SNP遗传力通过基因水平分析研究团队发现329个显著影响表型变异的基因,其中45个基因影响多个疾病或数量性状,包括APOEAPOC1TOMM40等关键基因。进一步共定位发现,391个基因可能通过调控表达水平影响表型其中75个基因仅在多血统或日本人群eQTL数据中被识别,凸显了跨人群数据的重要性

通过遗传相关性与聚类分析研究团队识别出三类主要表型集群:心血管代谢性状(如2型糖尿病、高血压BMI)、自身免疫性与感染性疾病(乙肝、银屑病)以及肾脏相关性状(痛风、慢性肾病)。这揭示不同疾病间共享遗传结构,为开发PRS 模型提供了新思路。

图片

3:基因水平遗传力和与基因表达的共定位。

基于上述研究结果,研究团队开发并验证了针对多种疾病的PRS模型在比较5PRS构建工具后,发现LDpred2在大多数性状中表现最优。对于265种疾病表型105个PRS模型的AUC值超过0.55且具有统计学显著性对于24数量性状,PRS解释的方差从0.028到0.227不等

预测性最强的PRS模型包括强直性脊柱炎、银屑病、心房颤动、前列腺癌、系统性红斑狼疮乙肝等模型值得注意的是,36个性状的PRS捕获了超过50%的SNP遗传力,表明PRS对高遗传力性状可实现接近最优的预测精度

研究团队进一步利用性状间的遗传相关性开发了多性状PRS模型。结果显示,心血管代谢疾病集群的预测性能提升最为显著,AUC从0.608增至0.648自身免疫性疾病和肾脏相关疾病集群的预测准确性也分别获得显著提升。这种通过整合共享遗传结构来优化风险预测的方法,为复杂疾病的精准预防提供了新的思路。

接下来研究团队在台湾生物样本库TWB、英国生物样本库UKBAll of Us项目中对所构建PRS模型进行了外部验证。结果显示,TPMI衍PRS模型在东亚人群中表现稳定,且普遍优于基于欧洲人群的模型,特别是在乙型肝炎、2型糖尿病、高血压、痛风等疾病中优势显著。

图片

4:三个已识别性状簇的PRS性能

最后,研究团队进一步分析PRS对整体健康指标(如就诊次数与住院时长)的影响。结果显示,131个高性能PRS模型(AUC0.55)与健康指标显著相关,其可解释8.47%的就诊频率变异和10.29%的住院时长变异。其中,心血管代谢疾病集群贡献最大。这表明整合多疾病遗传风险有助于从系统层面评估个体健康负担。

综上所述,研究基于大规模汉族人群构建了基因组-表型数据库,系统揭示了东亚人群特有的遗传结构,并开发出具有高预测效能的人群特异性PRS模型显著提升了东亚人群复杂疾病风险预测的准确性,尤其为乙肝等人群特异性疾病提供了全新遗传见解。研究不仅填补了东亚人群在精准医疗领域的资源空白,也为推动全球多族群遗传研究的公平性与代表性提供了重要范例。

参考文献:

Chen, HH., Chen, CH., Hou, MC. et al. Population-specific polygenic risk scores for people of Han Chinese ancestry. Nature (2025). https://doi.org/10.1038/s41586-025-09350-y

Tags: Nature | 基于超46万人构建汉族人群特异性多基因风险评分模型,填补精准医疗研究空白  

搜索
网站分类
标签列表