首页 > 新药推广/ 正文

基于Boosting集成学习算法预测乳腺癌5年生存状态与影响因素

来源 2022-01-10 17:08:39 新药推广

摘要:为对乳腺癌5年生存状态进行预测并分析其影响因素,首先,选取SEER数据库中2004—2010年乳腺癌相关数据,对选取的特征进行数据预处理;其次,在数据层面上,对数据进行SMOTE上采样以解决数据类别不平衡问题;在算法层面上,比较LightGBM、CatBoost和GBDT这3个模型在预测乳腺癌5年生存状态上的优劣;最后,根据重要性对乳腺癌5年生存状态的影响因素进行排序,并通过SHAP值对影响因素进行解释分析。本文构建的乳腺癌5年生存状态预测模型比单一模型具有更好的性能,其准确率、AUC、召回率、精确度和F1值分别为0.906 0、0.844 3、0.983 7、0.916 0和0.948 7;发现乳腺癌5年生存状态与肿瘤大小、检出的淋巴结总数、淋巴结转移数、雌激素受体、孕激素受体、年龄等因素有较大关系。本预测模型选择出的重要性特征与目前的临床结果保持一致,能为临床预后预测提供一定的技术支持。


引言


乳腺癌是女性中最常见的肿瘤之一,也是人类第二大致死癌症[1]。据2018年国际癌症研究机构调查的数据显示,全球女性乳腺癌的发病率为24.2%,位居女性恶性肿瘤首位,严重威胁着女性的身心健康[2]。


对癌症患者生存数据的分析一直备受国内外学者的广泛关注。目前多数研究都是通过单因素和多因素分析筛选出癌症的预后因素,再将预后因素放到Cox比例风险模型中进行预后分析。然而,Cox比例风险模型通常假设预测因子与生存结果呈线性相关,基于这样的假设,乳腺癌的预后模型有可能将复杂关系过度简化[3],且Cox比例风险模型多用于评价群体,不适合评价个体,在预后判断上起到的作用有限[4]。


近年来,机器学习算法广泛应用于人脸识别[5]、工业预测[6]等方面,越来越多的学者也开始将机器学习应用于医学领域。继Delen等[7]首次采用数据挖掘的方法建立乳腺癌患者5年生存预测模型后,其他学者[8-11]也相继采用不同的机器学习模型来研究乳腺癌患者的生存情况,但都存在一些弊端。与单一机器学习相比,集成学习有更好的性能和泛化能力[12]。有研究表明[4,13],相较于单一机器学习算法,采用集成模型预测不同癌症患者的存活率时,集成模型都展示出更好的效果。


Boosting方法是训练一系列弱分类器集成来得到一个强分类器的一种集成学习方法[14],既有集成学习的优势,又能灵活处理连续型和离散型数据[15]。鉴于集成学习在其他癌症预后上的优良表现,本文利用SEER数据库中乳腺癌患者相关数据,通过Boosting集成学习方法来预测乳腺癌患者5年生存状况并分析其影响因素,为临床预后预测提供支持。


1、方法


1.1 SMOTE算法


類别不平衡问题是指目标变量的类别分布不均,数据集中于某一类的样本量远高于其他类的现象[16]。本文采用SMOTE算法[17]来进行上采样,其基本思想是:对少数类样本进行分析后,人工合成新的少数类样本。具体算法流程为:


Step 1计算少数类中每一个样本[a]到其他少数类样本的欧式距离,得到其[k]近邻;


Step 2从少数类样本[a]的[k]近邻中随机选择若干个样本,假设选择的近邻为<b>;

Step 3对于每一个随机选出的近邻<b>,分别与原样本按照式(1)构建新的样本[c]。


[c=a+rand(0,1)×|a-b|].(1)


1.2 Boosting算法


Boosting算法是一种通过训练产生多个简单分类器集成从而提升弱分类器为强分类器的过程[18],如图1所示。其具体实现步骤是[19]:

Step 1给定一组训练样本[S],[S={(x1,y1)],[(x2,y2)][,…][,(xn,yn)}],初始化每一个样本的权重系数[ω(1)i=1/n,i=1,2,…,n];


Step 2在每一次循环[t=1,2,…,r],重复以下步骤:


1)使用弱分类器训练有权重的样本[{S,ω(t)}],得到分类器[ht]和权重训练误差[εt],依靠权重训练误差检查得到一个终止准则;


2)选择弱分类器权重[αt],更新权重系数[ωt];


Step 3输出强分类器[H(x)=argmaxy∈{-1,1}t,ht(x)=yαt]。


图1中:[X]对应训练样本[S];[St(t=1,2,…,r)]为[r]次迭代的样本分配;[Ct(t=1,2,…,r)]为在一定权重条件下训练数据得到的分类法,可以根据[Ct]的错误率调整权重,每一个[Ct]对应每一个弱分类器[ht(x)];[ω(t)]为第[t]次循环初始化样本权重[ω(t)i(i=1,2,…,n)]的集合;[ωt(t=1,2,…,r)]为样本更新权重;[αt(t=1,2,…,r)]为每一个基分类器权重。


为了预测乳腺癌患者5年生存状态,本文选取的单一模型为逻辑回归(Logistic Regression)、决策树(Decision Tree)和K近邻(Knn);集成模型则选择Boosting集成模型的代表性算法:Light Gradient Boosting Machine(LightBGM)、Categorical Boosting(CatBoost)和Gradient Boosting Decision Tree(GBDT)。


1.3 SHAP方法


SHAP[20]是shapley additive explanation的缩写,是一种可以对复杂机器学习模型进行解释的方法。SHAP方法的核心是shapley值,即贡献值。如图2所示,假设集合中有3个特征[z1]、[z2]、[z3],[f(x)]表示某一样本的最终预测值。对于整个数据,可以用原始模型[f]预测后的预测值来计算平均值[E[f(z)]],记作[ϕ0]。[ϕ1]、[ϕ2]、[ϕ3]分别表示考虑特征[z1]、[z2]、[z3]的贡献值。贡献值可正可负,如图2中实线[ϕ1]、[ϕ2]表示正影响,虚线[ϕ3]表示负影响。


1.4模型评价指标


通过5个二元分类性能指标来评价各模型的性能:准确率(Accuracy)、AUC、召回率(Recall)、精确度(Precision)以及F1值。5个指标的区间都是[[0,1]],值越接近1表示分类效果越好。


2、数据来源和处理


2.1数据来源


本研究数据来源于监测、流行病学及预后数据库(surveillance,epidemiology and end results,SEER)[21],通过SEER*Stat 8.3.9软件提取更新于2021年4月15日的数据。依据第7版AJCC临床指南、NCCN临床指南以及临床医师的指导,从原始数据中,筛选出性别、诊断年份、种族、年龄段、原发灶、组织学形态、偏侧性、肿瘤等级、肿瘤分期、雌激素状态、孕激素状态、肿瘤大小、化疗与否、肿瘤患者发病部位、婚姻状态、检出淋巴结数目、淋巴结转移数目、死亡原因、存活月数、T分期、N分期、M分期和生存状态一共23个字段作为原始数据。


2.2队列选择


2.2.1 5年特异性生存


本研究以乳腺癌患者5年生存情况为预测目标,用存活月数构建分类变量。存活月数&gt;60,记为1,认为该患者在首次确诊为乳腺癌后的5年后仍存活;存活月数≤60,记为0,认为该患者在首次确诊为乳腺癌后的5年内因为乳腺癌而死亡。


2.2.2队列筛选


从2004—2016年共784 151条数据中按要求筛选,最终得到数据227 767条。具体要求如下:


1)初次诊断年份为2004—2010年。入选病例随访截止时间为2016年12月31日,为保证患者随访时间在5年以上,仅选择初次诊断年份为2004—2010年的患者。


2)性别为女性。


3)肿瘤患者发病部位为乳腺。


4)若患者死亡,则死亡原因为乳腺癌。


5)患者信息须准确。SEER数据库中存在缺失值,被记录为不知道(unknown)和空白(black())。除此之外,还存在信息表述不清的情况,例如肿瘤大小这一变量除被记录为不知道(unknown)和空白(black())数据之外,还存在两类数值:第一类是当数值在0~989时,其值对应具体肿瘤大小,该数值以mm为单位;第二类是991~995之间的具有特殊意义的数值,该类与第一类中采用精确数值来表示肿瘤大小不同,采用区间来表示肿瘤大小,如995表示肿瘤大小[&lt;]5 cm。考虑到无法为其进行精确量化,同时原始样本量大,该类信息表述不清的样本占比较小,故直接将这些记录删除。筛选过程如图3所示。

进一步分析,检查删除这些记录对于其他变量的影响。结果表明,删除这些记录对其他变量分布的影响不显著,认为删除这部分数据合理。如图4所示,删除数据前后,年齡这一变量的分布变化不显著。同时,将年龄段组值计算加权平均数代替平均值,计算标准差进行比较,发现差异较小。

2.2.3特征选择


除直接从SEER数据库中获得变量外,淋巴结转移数目这一变量的值,大部分为0~90之间的整数,除此之外,还存在一个特殊的数值为98,表示该患者未检查淋巴结。考虑到在临床中不对淋巴结进行检查,可能的原因是该患者的临床症状不明显或病情较轻而无需对淋巴结进行检查,所以将该特殊数值98修改为0,并创建一个新的类别变量——examined or not,用来表示患者是否对淋巴结进行了检查。若淋巴结转移数目为0~90,表示检查了淋巴结,用Yes表示;淋巴结转移数目为98,则用No表示。


最终纳入模型的18个特征分为人口学特征(表1)和临床病理特征(表2)。

2.3数据预处理


将数据按照7∶3的比例划分训练和测试数据,并进行以下预处理:


1)标准化


对数据进行zscore标准化来避免数据变量量纲不同、自身变异或者数值相差较大等问题造成的预测误差。


2)yeo-johnson变换


日常生活中的数据普遍满足高斯分布,因此,对原始数据做转型操作,转换方法设置为“yeo-johnson”变换[22]。


3、模型建立与结果


3.1模型的建立


227 767条数据中,患者在被确诊为乳腺癌5年后仍存活的数据200 954条,死亡数据26 813条,其比例约7.45∶1,认为存在类别不平衡问题。因此,用SMOTE算法对训练数据进行处理。

各模型在进行十折交叉验证训练后的准确率如表3所示。单一模型中决策树模型的训练准确率最高,达到0.990 0,但是验证集的准确率仅为0.840 0,相差较大,说明模型在训练集上出现了过拟合现象;集成模型中LightGBM和GBDT的训练精确度和验证精确度相同,数值分别为0.907 8和0.904 0;SMOTE方法与集成模型的组合中,LightGBM的准确率在测试集和验证集上均最高,分别为0.907 5和0.905 2。


各模型在测试集上的表现如表4所示。SMOTE方法与LightGBM结合得到了最高的准确度、AUC、精确度和F1值,召回率仅比CatBoost模型低0.002 1,是所有模型中最优的。

从整体上来看,单一模型的效果没有集成模型好,SMOTE方法与集成学习的组合比仅使用集成模型在测试集上效果好。可见,SMOTE算法解决了数据类别不平衡的问题,使各个集成模型的分类能力得到了一定程度的提升。


3.2特征重要性排序及解释


3.2.1特征重要性排序


如表4所示,SMOTE与集成模型组合的预测效果较优,分别将LightGBM、CatBoost和GBDT共3个模型在做乳腺癌5年生存状态预测时的特征按重要性进行排序,发现最重要的10个特征中有7个特征是3个模型所共有的。如图5所示,共同特征为肿瘤大小、检出淋巴结数目、淋巴结转移数、孕激素受体、雌激素受体、组织学等级、年龄。同时发现,这些特征在3个模型上的重要性排序基本保持一致,最重要的特征是肿瘤大小,其次是检出淋巴结数目和淋巴结转移数。

3.2.2 SHAP特征解释


如图6所示,肿瘤大小增加,患者5年内死亡的风险也会升高。淋巴结转移数越多,患者5年内死亡的风险越高。随着检出淋巴结数目的增加,患者五年内死亡的风险降低。由此可见肿瘤大小和淋巴结转移对乳腺癌5年生存状态影响很大,转移淋巴结的切除能够降低死亡风险。同时发现组织学分级越高,患者在5年内死亡的风险也会越高。孕激素和雌激素受体成阴性时,患者5年内死亡的风险升高。年龄越大,患者5年内死亡的风险也越大。


4、讨论


在“数字医学”背景下,利用大数据辅助医生进行医学决策越来越受到重视。基于大量历史数据,依据数据特征采用合适的算法来预测特定人群、疾病的未来趋势是医疗大数据的特点之一。本研究利用SEER数据库中2004—2010年乳腺癌相关数据,通过Boosting集成学习算法的3种经典模型来预测乳腺癌5年生存状态并分析其影响因素,可为个性化医疗制定合理的治疗计划提供参考。


本研究的数据是连续变量和分类变量的混合体,其中大部分是多分类变量,这一类型的变量在建立模型时易出现维度灾难等问题。Boosting集成模型是一种基于树的模型,可基于类别变量的划分规则去创建树,能够有效解决维度灾难问题[19]。此外,该类模型可根据变量在树结构中的位置深度对变量的重要性进行排序,使模型具有较好的可解释性[13]。本文通过特征重要性排序发现,肿瘤大小、检出的淋巴结总数、淋巴结转移数、雌激素受体、孕激素受体、组织学等级等均是乳腺癌患者5年生存情况的重要影响因素。同时发现淋巴结转移数越多、肿瘤越大,患者5年内死亡的风险越高;随着检出的淋巴结总数的增加,预后越好;组织学等级越高,雌激素受体和孕激素受体为阴性时预后越差。这些结果均与已有研究[23-27]结论相吻合。


为了解决乳腺癌数据因较高特异性生存率而产生的类别不平衡问题,本研究采用SMOTE上采样方法来处理训练集,结果发现平衡后的数据建模效果更优。与此同时,冉霞[28]采用下采样的方法平衡数据后进行乳腺癌预后预测也取得较好结果。可见,面对类别不平衡问题,通过重采样技术能够在一定程度上提升模型的性能。但是,本研究中Boosting集成模型在采用SMOTE處理后,各个模型在测试集上的表现提升较小,可能的原因有:Boosting集成模型在处理数据时,主要通过拟合残差的方式逐步减小误差来找出树的最佳节点和分枝方法[3],该过程与数据类别是否平衡无关,因此,受类别不平衡因素的影响较小。未进行SMOTE上采样时,Boosting集成模型的AUC已较优,在平衡数据后仅有较小提升。


利用单一机器学习模型进行乳腺癌生存情况预测存在一定不足,虽然最优模型可获得较高AUC,但准确度较低[9-11]。相比之下,集成学习模型具有更好的性能。一方面,集成学习模型中最优模型的AUC与单一机器学习模型相当,但准确度和召回率等指标均达到0.9以上;另一方面,集成学习模型能更加灵活地处理乳腺癌生存率等复杂性数据。SEER数据库中的变量主要来自于先前的临床知识,大多与生存结果线性相关[3]。Logistic模型作为一种广义上的线性模型,能够较好地处理变量之间的线性关系,这也进一步说明本研究采用Logistic模型测试数据集时,其性能较好,仅略低于集成模型。然而,实际情况是:影响乳腺癌生存率的特征不仅存在线性相关关系,还可能存在非线性关系[29]。相较于Logistic模型,集成模型没有线性关系的限定,可能不会受到变量间非线性关系的影响,因而在本研究中展现出更好的性能,这也侧面反映了本研究结果存在一定的科学性与准确性。


5、结论


本文从SEER数据库提取乳腺癌相关数据,使用集成学习模型构建乳腺癌5年生存状态的预测模型。研究结果表明,肿瘤大小、检出淋巴结数目、淋巴结转移数、孕激素受体、雌激素受体等特征是乳腺癌5年生存状态最重要的特征;同时,从各模型的表现来看,LightGBM模型各项指标均较优,可作为一个工具辅助临床医生为乳腺癌患者做出更好的治疗决策。但本研究也存在未进行外部验证,缺少自身心理状况数据[30]等不足,因此,需进一步寻找外部数据进行更深入的研究。


参考文献:略


来源:广西科技大学学报张继婕 覃庆洪 刘雪萍 王康权 魏薇

注:文章内的所有配图皆为网络转载图片,侵权即删!

Tags: 基于Boosting集成学习算法预测乳腺癌5年生存状态与影响因素  

搜索
网站分类
标签列表