基于数据挖掘技术的肺癌危险度预测模型的构建

目的 借助数据挖掘技术,联合流行病学特征和临床症状资料构建肺癌危险度预测模型,评价各模型用于肺癌危险度预测的性能,并筛选出最优模型。方法 选取460例肺癌患peripheral immune cells者和560例肺良性疾病患者为研究对象,收集其流行病学特征和临床症状共16个自变量。将研究对象按照3∶1的比例随机分为训练集与测试集,应用支持向量机(support vector machine, SVM)、决策树C5.0和Emricasan价格人工神经网络(artificial neural network, ANN)分别建立肺癌危险度预测模型,并比较不同模型的预测性能。结果 经特征提取,痰中带血、发热出汗和吸烟史等9个变量被筛选为有效变量,用来构建肺癌危险度预测模型。测试集中SVM、决策树C5.0和ANN模型的灵敏度分别为74.1%、62.5%和92.9%;特异度分别为76.2%、80.4%和64.3%;阳性预测值分别为70.9%、71.4%和67.1%;阴性预测值分别为79.0%、73.2%和92.0%;准确度分别为75.3%、72.5%和76.9%;曲线下面积分别MS-275说明书为0.752(95%CI:0.694~0.803)、0.715(95%CI:0.655~0.769)和0.786(95%CI:0.730~0.835)。结论 ANN预测模型的整体性能优于SVM模型和决策树C5.0模型,在肺癌高危人群的筛查中具有潜在的应用价值。