弥漫大B细胞淋巴瘤是一种常见的侵袭性B细胞淋巴瘤,发病率占非霍奇金淋巴瘤的30%~50%,具有高度异质性,预后差异大。近年来,机器学习发展迅速,其在生存分析中的应用也逐渐表现出一定的优势,利用机器学习模型探究各变量对DLBCL患者生存时间的影响,为临床医生调整治疗策略提供支撑,对缩短DLBCL患者治疗周期、改善预后至关重要。因此,本研究的主要目的是基于机器学习构建弥漫大B细胞淋巴瘤预后模型,比较各模型预测性能,期望获得更加精准的DLBCL预后模型并量化生存差异。本研究通过SEER*Stat8.4.1在SEER数据库中选取2010-2019年被诊断为弥漫大B细胞淋巴瘤的患者,排除标准为:(1)人口统计学信息、随访信息不完整;(2)DLBCL非原发恶性肿瘤;(3)淋巴瘤原发部位为中枢神经系统、纵隔或不明原因;(4)生存时间<1个月,基于此共纳入26217个样本。对样本资料进行描述性分析,并绘制Kaplan-Meier生存曲线比较患者生存差异。采用单因素Cox回归和LASSO回归选择影响DLBCL患者预后的独立预后因素,建立多因素Cox比例风险模型,同时绘制列线图,预测DLBCL患者3年OS率和5年OS率。构建随机生存森林预后模型、XGBoost生存嵌入模型(XGBSE)和以深度神经网络为基础的生存预后模型(Deepsurv)。采用一致性指数、ROC曲线和曲线下面积AUC值作为评估预后模型预测精度的指标。人口统计学资料和临床特征的描述性分析发现,样本患者男性略多于女性,中位发病年龄段是65-74岁,Ann Arbor此网站分期为Ⅲ期和Ⅳ期的患者较多,88.2%的患者执行了化疗治疗。死亡患者中,年龄≥65岁的患者占所有死亡患者的65.2%,未行手术、放疗或化疗的患者死亡率均高于执行该治疗方案的患者。依据DLBCL患者中位发病年龄选ankle biomechanics择65岁为截断值将样本分为低龄组(<65岁)和老龄组(≥65岁)分别构建预后模型,在训练集上训练模型,并用测试集验证模型泛化能力。低龄组Cox回归模型显示该组DLBCL患者预后更易受Ann Arbor分期影响,Ⅳ期患者发生结局事件的风险是Ⅰ期患者的4.796倍(95%CI:4.138-5.558),Cox一致性指数为0.705,3年及5年OS率AUC值分别为0.725、0.722;RSF模型影响预后的变量中重要性排名前三的是肿瘤累及、Ann Arbor分期和年龄,一致性指数为0.825,3年及5年OS率AUC值分别为0.851、0.829;XGBSE模型和Deepsurv模型的一致性指数分别为0.943和0.724,3年及5年OS率AUC值分别为0.969、0.975和0.770、0.765。老龄组(≥65岁)Cox回归模型显示该组DLBCL患者实施化疗治疗(HR:0.382,95%CI:0.358-0.408)发生结局事件的风险较低龄组(HR=0.536,95%CI:0.469-0.612)下降更多,Cox模型一致性指数为0.711,3年及5年OS率AUC值分别为0.721、0.714;RSF模型影响预后的变量中重要性排名前三的是是否化疗、年龄和肿瘤累及,一致性指数为0.819,3年及5年OS率AUC值分别为0.842、0.821;XGBSE模型和Deepsurv模型www.selleck.cn/products/MK-1775的一致性指数分别为0.863和0.703,3年及5年OS率AUC值分别为0.903、0.914和0.728、0.723。对比未进行年龄分层的所有患者组,Cox模型、RSF模型、XGBSE模型和Deepsurv模型一致性指数分别为0.683、0.833、0.907和0.678。测试集验证结果显示RSF和XGBSE两个机器学习模型具有良好的预测性能。区分年龄段构建预后模型,更精准的识别了影响不同年龄段患者预后的危险因素,并且低龄组模型区分度得到提升,老龄组可以考虑纳入生物标志物进一步提升模型区分度。人口统计学信息中年龄、种族、婚姻状况和家庭收入中位数均是影响DLBCL患者预后的因素,年龄≥85岁的患者发生结局事件的风险较高,种族为黑人、婚姻状况为单身、家庭收入中位数<$59999是高风险因子水平;性别为男性是影响低龄DLBCL患者预后的危险因素;临床特征中B症状、原发部位、肿瘤累及和Ann Arbor分期是影响DLBCL患者预后的因素,其中肿瘤累及是影响低龄患者预后的关键因素;治疗方案中手术、放疗和化疗均是DLBCL预后的保护因素,化疗是使老龄患者发生结局事件的风险降低的关键因素。用Cox、RSF、XGBSE和Deepsurv四个模型分别构建DLBCL预后模型,预测性能从高到低依次是:XGBSE>RSF>Deepsurv>Cox。XGBSE预后模型在各组均表现出更好的预测性能,以此模型作为DLBCL患者预后预测模型,3年及5年OS率校准曲线与45度直线大致重合,XGBSE预后模型具有良好的区分能力,对临床研究具有一定的价值。