首页 > 医疗资讯/ 正文
摘 要
目的 基于以动力系统理论为核心的多模态数据算法框架,构建面向口腔微生物组学的肺结节“病证结合”数学表征模型,同时开展多种算法框架下的预测模型比较,验证最优模型用于预测是否存在肺结节的效能。方法 前瞻性纳入2022年7月—2023年3月成都中医药大学附属医院、四川省肿瘤医院及成都市中西医结合医院的213例受试者,其中肺结节患者173例,健康受试者40例。提出一种新的以动力系统理论为核心的多模态数据算法框架—VAEGANTF(Variational Auto Encoder-Generative Adversarial Network-Transformer),后基于“临床特征-证素-微生物”多维整合数据集,将所有受试者按比例7∶3划为训练集和测试集,分别用于构建模型和模型效能测试。分别以是否存在肺结节为因变量,联合临床特征、病位、病性和微生物菌属等候选标志物,在识别并处理多重共线性的基础上,根据变量重要性排序对自变量进行筛选,再对缺失值进行填充、数据进行标准化,随后分别采用随机森林、最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归、支持向量机、多层感知机、极端梯度提升(eXtreme Gradient Boosting,XGBoost)、VAE-ViT (Vision Transformer)、GAN-ViT和VAEGANTF共8种机器学习算法构建肺结节风险预测模型,使用k折交叉验证法进行模型参数调节与优化。使用混淆矩阵和受试者工作特征曲线评估8种预测模型效能,筛选出最优模型。最后,通过拟合优度检验和决策曲线分析对最优模型进行评价。结果 健康受试者和肺结节患者在年龄、性别等人口学特征方面差异均无统计学意义。将213名受试者按7∶3随机划分为训练集和测试集,分别使用8种机器学习算法构建预测模型,在排除多重共线性等潜在问题后,共纳入301个临床特征信息、证素和微生物菌属标志物用于构建模型。其中,随机森林、LASSO回归、支持向量机、多层感知机和VAE-ViT模型的曲线下面积(area under the curve,AUC)值未达到0.85,效能较差。XGBoost、GAN-ViT和VAEGANTF模型的AUC值均为0.85以上,其中AUC值最高的是VAEGANTF模型(AUC=0.923)。拟合优度检验结果表明VAEGANTF模型的校准能力较好,决策曲线分析结果显示临床获益度较高。列线图结果显示,年龄、性别、心、肺、气虚、瘀、湿、卟啉单胞菌属(Porphyromonas)、短链小球菌属(Granulicatella)、奈瑟菌属(Neisseria)、嗜血杆菌属(Haemophilus)、放线杆菌属(Actinobacillus)可作为预测变量。结论 基于以动力系统理论为核心的VAEGANTF算法框架构建“临床特征-证素-微生物”多维数据特征的肺结节“病证结合”风险预测模型相比于其他机器学习算法具有更好的性能,对肺结节早期无创诊断具有一定的参考价值。
正 文
近年来,肺结节在我国的检出率为20%~80%[1],存在检出人数激增和癌变等多重风险,如何识别肺结节疾病状态是实现早期肺癌预警面临的重要挑战[2-4]。伴随大数据和人工智能的驱动效应,预测模型已成为辅助肺结节临床诊断的重要工具。目前较为公认的肺结节临床预测模型包括Mayo Clinic模型、Brock模型、美国退伍军人管理局(veterans administration,VA)模型、肺部影像报告和数据系统(Lung Imaging Reporting and Data System,Lung-RADS)、基于数据驱动的中国肺结节报告和数据系统(Chinese Lung Nodules Reporting and Data System,C-Lung-RADS)等,尽管上述模型不同程度实现了肺结节恶性风险分级和个性化管理,但也面临需要更多的外部验证、筛查效能较低、相关研究结论存在争议等问题[5-7]。更重要的是,现有预测模型的临床定位均聚焦于肺结节良恶性鉴别,尚无针对是否存在肺结节的预测模型。因此,解决肺结节患者的过度诊疗问题、开发新型肺结节诊断模型仍是当下的研究热点。
从健康状态到肺结节的发生,无论是起点、终点事件还是其过程性演进,都存在着潜在的宏微观映射关系[8-9]。研究[10-11]表明,口腔微生态作为塑造肺部微生物群的核心生态位,在肺癌发生发展中扮演了关键角色。课题组前期基于16S rRNA 测序技术亦证实了唾液微生物具有作为肺结节诊断生物标志物的潜力[12-13];同时,通过“微生物-证素-肺结节”的多级关联分析,发现了肺结节患者唾液菌群与证素的多重相关性[9]。证素高度概括疾病外在表征,微生物反映机体内在变化,两者是疾病发展演变同一状态下不同层面的宏微观具象[8-9]。但在探索实践过程中,我们也逐渐认识到,肺结节病程不仅伴随着与临床基线特征、证素等直接相关的定性特征,也蕴藏了微生物序列等高维组学定量信息。上述多模态数据不仅存在复杂、多层次和信息互补的特点,其中的微生物组学数据更是具有高噪声、多元高维和多源异质等特性[14]。因此,如何利用数学语言有效串联肺结节的“临床特征-证素-微生物”多维整合数据特征,是从“病证结合”角度实现肺结节早期诊断和超早期预警的关键策略。
在本研究中,我们在前期建立的面向口腔微生物组学的肺结节“病证结合”多维特征数据库基础上,对基于动力系统理论的多模态数据算法框架—VAEGANTF进行可视化[15],构建肺结节“病证结合”数学表征模型,同时开展多种算法框架下的预测模型比较,并验证最优模型作为肺结节疾病预测工具的效能,以期为早期肺癌预警的临床实践提供潜在工具,并为VAEGANTF模型的临床应用提供数据支撑。
1 资料与方法
1.1 临床资料
研究对象为2022年7月—2023年3月就诊于成都中医药大学附属医院、四川省肿瘤医院及成都市中西医结合医院的213例受试者,其中肺结节患者173例,健康受试者40例。
1.2 诊断标准
参照中华医学会呼吸病学分会公布的《肺结节诊治中国专家共识(2024年版)》[16]与中国中西医结合学会肿瘤专业委员会公布的《肺结节中西医结合全程管理专家共识》[17]。
1.3 筛选标准
纳入标准:(1)肺结节患者:影像学表现为直径≤3 cm的局灶性、类圆形、密度增高的实性或亚实性肺部阴影,可为孤立性或多发性,不伴肺不张、肺门淋巴结肿大和胸腔积液[16-17];(2)健康人群:胸部CT影像学无肺结节及其他肺部异常现象;(3)无其他肿瘤病史;(4)无呼吸系统相关手术史;(5)年龄为18~80岁,性别不限。
排除标准:(1)有未经治疗的传染性疾病病史;(2)有自身免疫性疾病病史;(3)患有呼吸道感染疾病、口腔疾病等合并疾病。
1.4 中医证素信息采集与判定
参照朱文锋教授的《证素辨证学》[18],根据收集的中医四诊信息,将同一证素对应的所有症状-证素权重相加,从而得到证素权重积分;然后通过权重积分与阈值关系确定证素。在本研究中,我们将经典证素辨证医理模型数学化表达为:y=WX+b,其中向量W表示所有症状-证素权值,b表示(负)阈值,向量X表示所有输入症状,向量y表示证素判定状态(其中y≥0表示证素存在,y<0表示证素不存在);见图1。以70作为阈值,即各症状对各证素贡献度之和≥70时,提取相应病位、病性证素[9, 18-20]。
图1 经典证素辨证医理模型数学化示意图
1.5 唾液样本采集与16S rRNA测序
受试者身体前倾,头微低,微张口,由采样者将无菌EP管置于受试者下唇部,使唾液自然流入管中,采集非刺激性唾液2~3 mL,予干冰保存,4 h内转运至实验室−80℃冰箱等待后续实验。按照制造商的说明书(Omega Bio-tek,Norcr.oss,GA,美国)进行微生物群落总基因组DNA提取,并使用NanoDrop 2000(Thermo Scientific公司,美国)对DNA浓度、纯度进行质检。随后以提取出的DNA为模板进行PCR扩增。使用NEXTFLEX® Rapid DNA-Seq Kit对纯化后的PCR产物进行建库。测序通过Illumina NovaSeq PE250平台进行。
1.6 多维数据特征集构建
用于构建肺结节风险预测模型的多维数据特征包括3个维度:人口学特征、中医证素和16S rRNA唾液微生物组学数据。其中,人口学特征包括性别、年龄、吸烟史、个人肿瘤史。
1.7 样本量估算
本研究的样本量计算参照经验方法—EPV(events per variable)[21],根据十分之一法则,每纳入1个自变量至少应有10个样本(发生事件组),即EPV=10,这样可以最大程度确保结果的稳健性。本研究预计纳入10个预测变量,故数据集中肺结节患者应≥100例。
1.8 统计学分析
临床资料的统计分析使用SPSS 26.0软件进行。连续变量若呈正态分布,则以均数±标准差(x±s)描述,并使用独立样本Student’s t检验进行组间比较;若为非正态分布,则以中位数和上下四分位数[M(P25,P75)]描述,并使用Mann-Whitney U检验进行组间比较。分类变量以例数和百分比(%)描述,Wilcoxon符号秩和检验用于等级分类变量的组间检验;当分类变量之间没有等级关联时,使用χ2检验或Fisher确切概率法。所有统计分析均采用双侧检验,P≤0.05为差异有统计学意义。
1.9 VAEGANTF多模态数据算法框架及模型构建与评价
VAEGANTF多模态数据算法框架包括以下4个模块:数据预处理、生成模型与特征提取、组学特征的带权重判别模型和端到端生成-判别模型架构;见图2。
图2 VAEGANTF多模态数据算法框架图
首先,对不同分组患者的一般资料、中医证素信息、微生物组学信息数据进行数据预处理:(1)对序列特征的预处理,将通过生成对抗网络(generative adversarial network,GAN)进行缺失数据补全(附件表1);(2)对样本集合的独立特征信息进行白化(零-均值归一化,zero-means,Z-score)处理,经过处理的样本集合的均值为0,标准差为1,符合机器学习数据要求。随后,利用变分自编码器(variational auto encoder,VAE)的方法对数据进行学习,生成类似数据以扩大样本容量,并在生成模型中提取有效的变量,用于数据降维和后续的模型判别。通过对VAE的Encoder隐藏特征提取,可以分析不同类别数据之间的独立有效特征以及关联有效特征。VAE的Decoder的生成数据可用于后续判别模型的训练。接下来,为了更好地利用不同分组数据之间的时序或者空间关联信息,本研究拟在不同类别数据的判别器模型建立时,加入带有自注意(self-attention)结构的Vision Transformer(ViT),对不同类型的特征进行权重叠加,使得判别器能够对不同类别的真假数据进行更加精确的判断。整个ViT主要由3个部分组成:输入模块、Transformer Encoder模块和主要网络为多层感知机(multilayer perceptron,MLP)的输出模块。最后,基于VAE、ViT和conditional GAN(cGAN)的VAEGANTF整合算法框架,建立端到端的肺结节“病证结合”生成-判别预测模型。该模型可将不同类别的数据共同放入cGAN中进行训练,则cGAN的生成器能根据输入标签生成包含真实数据特征的数据,实现数据样本容量扩大,cGAN的判别器则能进一步根据输入标签和数据判别数据是否属于对应类别,从而实现不同类别数据分类。
模型的内外部验证,按照7∶3的比例将原始数据划分为训练集和测试集,对比分析随机森林、最小绝对收缩和选择算子(least absolute shrinkage and selection operator,LASSO)回归、支持向量机、多层感知机、极端梯度提升(eXtreme Gradient Boosting,XGBoost)、VAE-ViT、GAN-ViT和VAEGANTF 8种主要的机器学习模型的预测效能。模型评价指标采用区分度、校准度及决策曲线分析。通过计算准确率(accuracy)、特异性(specificity)、灵敏度(sensitivity)、曲线下面积(area under the curve,AUC)以及制作受试者工作特征(receiver operating characteristic,ROC)曲线来评估模型的区分度。通过拟合优度检验和决策曲线分析评估模型的校准度和在临床决策中的效用性。
1.10 伦理审查与试验注册
本研究遵循《赫尔辛基宣言》,获成都中医药大学附属医院伦理委员会审查批准(伦理批件号:2022KL-051),并在中国临床试验注册中心进行登记注册(注册号:ChiCTR2200062140)。所有受试者均已签署书面知情同意书。
2 结果
2.1 基线特征
除吸烟史外,两组在年龄、性别等基线特征方面差异均无统计学意义(P>0.05);见表1。
2.2 中医证素
肺结节患者和健康人群的病位证素在肝、心、肺、肾、表的分布差异具有统计学意义(P<0.05),在脾、大肠的分布差异均无统计学意义(P>0.05);见表2。两组病性证素在热、气虚、血虚、阴虚、痰、瘀、湿、气滞的分布差异有统计学意义(P<0.05),在寒、阳虚、燥、饮的分布差异均无统计学意义(P>0.05);见表3。
2.3 变量筛选结果
根据自变量相关性分析结果,共504个属性(自变量)进入多重共线性识别,其中有10个属性,每个样本的值均为0,予以剔除。自变量之间相关系数R2绝对值≥0.8,这种结果表明两个自变量之间存在明显的共线性,为了防止过拟合,去除193个R2≥0.8的属性,同时根据相关系数(0.5<R2<0.8)结合临床经验删除其他具有潜在共线性的变量,最终共有301个变量进行模型的训练和验证;见图3。
图3 自变量相关性分析
a:Spearman相关性分析Heatmap图;b:自变量的多重共线性检验:红色代表相关系数>0.8;蓝色代表相关系数<–0.8。
2.4 基于8种机器学习算法的肺结节“病证结合”风险预测模型构建
基于8种机器学习算法分别构建了肺结节“病证结合”风险预测模型。(1)XGBoost模型中,模型在训练集和测试集中预测效能AUC值分别为1.000和0.864,模型在测试集中的灵敏度88.4%,特异性41.6%;(2)对于随机森林模型,在测试集中,其模型效能AUC值为0.731,灵敏度和特异性分别为96.1%、50.0%;(3)LASSO回归中最重要的变量是口腔棒杆菌属(Stomatobaculum),模型在测试集的预测效能AUC值仅为0.726,灵敏度84.6%,特异性仅50.0%;(4)多层感知机模型中,燥为最重要的变量,其模型效能AUC值为0.803,灵敏度和特异性分别为86.5%、66.6%;(5)支持向量机模型在测试集中的预测效能最差,AUC值仅为0.542,灵敏度100%,特异性8.3%;(6)Vit-part模型即VAE-ViT模型中最重要的变量是放线杆菌属(Actinobacillus),模型效能AUC值为0.766,灵敏度和特异性分别为86.5%、41.6%;(7)GAN-ViT模型中最重要的变量是放线杆菌属(Actinobacillus),模型效能AUC值为0.886,灵敏度和特异性分别为86.5%、83.3%;(8)VAEGANTF模型中最重要的变量亦是放线杆菌属(Actinobacillus),模型效能AUC值为0.923,灵敏度和特异性分别为94.2%、66.6%(附件图1)。
2.5 机器学习算法模型的预测效能比对
8种肺结节“病证结合”风险预测模型效能的对比结果见表4。随机森林、LASSO回归、支持向量机、多层感知机和VAE-ViT模型的AUC值未达到0.85,效能较差,而XGBoost、GAN-ViT和VAEGANTF模型的AUC值均为0.85以上,其中AUC值最高的是VAEGANTF模型(AUC=0.923),GAN-ViT次之(AUC=0.886),XGBoost的AUC值为0.864。但XGBoost存在灵敏度较高而特异性不足的问题;见附件图2,可能会导致出现很多被误诊为肺结节的患者,这样会浪费医疗资源、造成患者无端的恐慌和焦虑,故XGBoost模型可能无法满足临床需求,而GAN-ViT和VAEGANTF的灵敏度、特异性及准确度均较高,相比之下VAEGANTF的效能更佳,因此,研究认为VAEGANTF模型为最优模型。
2.6 VAEGANTF模型应用评价
图4显示,拟合优度检验的VAEGANTF模型校准度曲线结果显示预测曲线与实际观测曲线接近,表明VAEGANTF模型的校准能力较好。决策曲线分析结果显示,离开点约为0.1,融入点为0.95,接近于1,因此在>0.1(10%)时模型表现出更好的净获益,也就是说在此阈值下,平均每100个人,有10人会获得净获益(净获益=获益人数−受损失人数),故获益总人数为55人,临床获益度较高。列线图结果显示,年龄、性别、心、肺、气虚、瘀、湿、卟啉单胞菌属(Porphyromonas)、短链小球菌属(Granulicatella)、奈瑟菌属(Neisseria)、嗜血杆菌属(Haemophilus)、放线杆菌属(Actinobacillus)作为模型变量。
图4 VAEGANTF模型应用评价
a:VAEGANTF模型校准度曲线;b:VAEGANTF模型决策曲线;c:VAEGANTF预测模型列线图。
3 讨论
本研究通过对临床特征信息、中医证素数据和微生物组学数据的整合,利用XGBoost、随机森林、LASSO回归、多层感知机、支持向量机、VAE-ViT、GAN-ViT、VAEGANTF 8种算法分别构建了肺结节“病证结合”风险预测模型,并采用k折交叉验证保证模型的稳健性。
基于多组学海量数据的整合分析为了解跨细胞组织多层面的因果关系提供了新途径,通过对多组学数据及特异性生物网络信息的有效整合,能够从分子水平视角去更加全局和系统地认识肺结节发生、发展的不同阶段,在肺结节的诊断、治疗、预后等方面占据重要位置[22-23]。值得一提的是,通过整合影像、基因、转录和蛋白等多组学信息构建风险预测模型,在预测肺结节的良恶性和肺腺癌预后方面已被证明具有更佳的效能,可为肺癌的精准治疗提供支持。例如,Zhang等[24]基于癌症基因组学图谱(TCGA)表达谱评估肺腺癌肿瘤微环境浸润情况,通过分析多组学数据将免疫状态与表观遗传特征相关联,从差异性表达中建立预测模型,显著提高肺癌预测模型的精确度。与传统的肺结节预测模型和临床医生的专家判断相比,使用深度学习算法在辨别方面具有明显优势[25]。Chen等[26]开展前瞻性队列研究,通过三维重建来描绘与磨玻璃结节相关的分子和免疫特征,采用靶向基因组学测序、RNA测序、TCR(T细胞受体)测序、循环肿瘤DNA检测等技术进行多组学评估。近年来,大数据挖掘技术迅速发展,已有众多研究[27-30]证实,相较于传统的利用环境危险因素或临床检测指标建立的疾病发病或预后风险预测模型,加入多组学数据的模型预测准确度显著提高。
尽管组学技术的兴起促进了肺癌早期诊断从单维到多模、影像到组学联合的跨越式发展,然而,现有证据始终停留在肺结节的良、恶性鉴别层面,而对于肺结节发生的预判及其背后所涉及的非线性表征机制和复杂调控网络尚未被系统揭示。本研究首次聚焦于肺结节的超早期诊断,面向口腔微生物这一无创的新型诊断标志物,构建了性能良好的肺结节诊断预测模型,本研究提出的VAEGANTF算法框架是以白化处理后的多模态数据作为模型输入,基于对抗博弈的min-max play思想,通过基于动力系统理论的GAN模型从数据层增加临床样本量的丰富度,改善小样本数据单一的问题[31-32];以VAE模型在高维空间适当添加扰动来合理化增强样本在特征层的差异性,减弱多模态数据不确定性引发的模型过拟合现象[33];基于Vision Transformer构建判别模型,将数据词条化后从宏微观数据内部挖掘利于机器诊断的有效语境信息,全景揭示从健康状态到肺结节病程中多维、复杂的映射关系。通过与多种传统模型算法进行比对,最终实现肺结节跨尺度、多模态“病证结合”风险预测最优模型构建。VAEGANTF模型校准度曲线结果表明VAEGANTF模型的校准能力较好。决策曲线分析结果显示临床获益度较高,具有潜在应用前景。
然而,该研究也存在局限性。首先,由于患者为前瞻性纳入,且属于真实世界研究,总样本量仅为213例,一定程度上影响模型的可靠性,尽管我们采用了GAN算法、k折交叉验证等策略来保证模型稳健,并最大限度降低组间比例不均衡性对模型鲁棒性的影响,但仍需要大样本的真实数据进行外部验证。其次,尽管该模型共纳入2个临床特征信息、5个证素特征以及5个微生物菌属标志物,且3种类型信息指标的纳入并未造成模型过拟合,也并未掩盖微生物组学标志物的作用,但在一定程度上存在总体样本量和健康人群样本量较少的问题。再者,本研究的临床特征主要包括了性别、年龄、吸烟史、个人肿瘤史,尽管从预测模型构建角度来看,与包括Mayo Clinic模型等在内的肺结节鉴别诊断模型相一致,也符合建模过程中对临床特征基线的基本要求,但仍无法全面覆盖临床基线特征。因此,未来,我们将会持续扩大样本量,并纳入更全面的特征数据,进一步探索不同临床特征背后的差异性。
综上,基于以动力系统理论为核心的VAEGANTF算法框架构建“临床特征-证素-微生物”多维数据特征的肺结节“病证结合”风险预测模型相比于其他机器学习算法具有更好的性能。病位心、肺,病性气虚、瘀、湿和年龄、性别与卟啉单胞菌属、短链小球菌属、奈瑟菌属、嗜血杆菌属、放线杆菌属可作为肺结节早期诊断的潜在风险因素和标志物。
利益冲突:无。
作者贡献:任益锋、谭施言负责数据分析、论文设计和初稿撰写及修改;马琼、王倩负责数据采集、统计分析;郑川负责论文设计和审阅,对编辑部的意见进行核修;由丽婷、石薇负责数据整理和分析;由凤鸣、何佳玮负责研究方案制定及指导、文章的知识性内容审阅与修改,对编辑部的意见进行核修。
致谢 感谢四川省肿瘤医院、成都市中西医结合医院对本研究受试者招募的支持!
本文附件图表见本刊网站电子版。
- 搜索
-
- 1000℃李寰:先心病肺动脉高压能根治吗?
- 1000℃除了吃药,骨质疏松还能如何治疗?
- 1000℃抱孩子谁不会呢?保护脊柱的抱孩子姿势了解一下
- 1000℃妇科检查有哪些项目?
- 1000℃妇科检查前应做哪些准备?
- 1000℃女性莫名烦躁—不好惹的黄体期
- 1000℃会影响患者智力的癫痫病
- 1000℃治女性盆腔炎的费用是多少?
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)