目的:系统性红斑狼疮(Systemic Lupus Erythematosus;SLE)是一种涉及多脏器损害和慢性炎症的自身免疫性疾病。研究显示肠道菌群与SLE的发生密切相关,深入研究肠道菌群失调与SLE之间的关系,对于SLE的预防和治疗具有重要的科学意义和临床意义。本研究旨在:(1)通过与阴性对照(Negative Control,NC)比较,基于机器学习特征筛选思路寻找SLE患者的肠道重要菌群;(2)基于机器学习算法结合肠道重要菌群实现SLE患者的早期识别;(3)结合机器学习与可解释性技术可视化预测因子作用机制,为未来SLE的科学治疗提供参考。方法:本研究采用横断面研究设计,收集2018年12月至2019年8月山西省某三甲医院70例原发性SLE患者作为研究对象。所有患者均符合1997年修订的美国风湿学会SLE分类标准。同时,我们选取与SLE组在年龄和性别上相当的71例健康人作为NC组。收集以上研究对象的基本信息、粪便样本。同时,收集SLE患者的外周静脉血,并使用流式细胞技术检测其细胞因子和T细胞亚群等指标。采用16S rRNA测序技术对粪便样本进行测序。在获得下机数据后,通过质控、聚类、物种注释等步骤获得种分类水平的菌群数据。然后,分析SLE组和NC组的菌群Alpha多样性和Beta多样性。我们再通过弹性网络(Elastic Net,EN)和Boruta对种水平的肠道菌群进行特征选择,并对特征选择后的结果取交集,即为SLE的肠道差异菌群。在此基础上,对SLE的肠道差异菌群与细胞因子和免疫细胞进行Spearman相关性分析。此外,采用logistic回归(logistic Regression,LR)、套索算法(Least absolute shrinkage and selection operator;LASSO)、分类回归树(Classification and Regression Tree,CART)、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,Ada Boost)和极限梯度提升(eXtreme Gradient Boosting,XGBoost)六种机器学习算法对SLE的肠道差异菌群进行建模,以探讨差异菌群能否用于识别SLE高危人群,并采用准确率、灵敏度、特异度、阳性预测值、阴性预测值和临床决策曲线分析(Decision Curve Analysis,DCA)评价上述模型性能。最后,联合性能最佳的算法和SHAP可解释性框架探讨SLE的肠道差异菌群如何影响SLE患病风险。结果:(1)SLE组的Alpha多样性指数显著低于NC组,包括:Chao1指数、Richness指数、Sobs指数和Shannon指数(P<0.05),且主成分分析和非度量多维尺度分析均显示两组的Beta多样性存在显著差异(P<0.05)。(2)经特征选择后,EN和Boruta中分别剩余Death microbiome35个和28个菌群,其中存在15个交集菌群,即SLE的肠道重要菌群,分别为:Faecalibacterium_prausnitzii,Ruminococcus_bromii,Dialister_succitiphilus,Clostridium_aldenense,Escherichia_fergusonii,Phascolarctobacterium_succitutens,Bacteroides_fragilis,Eubacterium_eligens,Gemmiger_formicilis,Alistipes_shahii,Eubacterium_hallii,Clostridium_asparagiforme,Roseburia_inulinivorans,Roseburia_intestilis,Blautia_wexlerae。(3)Spearman相关分析显示:Bacteroides_fragilis与IFN-α呈正相关(P<0.05);Blautia_wexlerae与NK细胞呈正相关(P<0.05);Clostridium_aldenense与Th2/Treg呈负相关(P<0.05);Dialister_succitiphilus与IL-17呈负相关(P<0.05);Escherichia_fergusonii与TBNK细胞、Th细胞呈正相关(P<0.05),与IFN-α、IL-6呈负相关(P<0.05);Eubacterium_eligens与Treg、Th2、Th1呈负相关(P<0.05);Eubacterium_hallii与Th17呈正相关,与Th1/Treg呈负相关(P<0.05);Phascolarctobacterium_succitutens与IL-2呈正相关(P<0.05)。(4)六种机器学习算法结合SLE的肠道重要菌群能有效识别SLE患者,尤其为XGBoost算法,其准确率、灵敏度、特异度、阳性预测值、AUC数值分别多达0.905、0.857、0.952、0.947、0.9Q-VD-Oph IC5005。RF的上述指标数值达0.88selleck激酶抑制剂1、0.810、0.952、0.944、0.881。LASSO回归、LR、Ada Boost模型性能适中,而CART算法的性能稍落后于其他算法,达0.786、0.810、0.762、0.773、0.800和0.786。此外,DCA显示:XGBoost模型能给患者带来的临床收益最大,其次为RF。(5)XGBoost算法联合SHAP可解释性框架显示:SLE的肠道重要菌群相对丰度表达量与SLE患病风险之间存在复杂的非线性关系。其中,Roseburia_intestilis的SHAP值最大,即随着该菌相对表达量的增加,SLE的患病风险降低。结论:(1)SLE组和NC组的肠道菌群存在显著差异,Faecalibacterium_prausnitzii、Eubacterium_eligens、Roseburia_intestilis在NC组的丰度表达量远高于SLE组,而SLE组Escherichia_fergusonii、Bacteroides_fragilis丰度表达量高于NC组,提示SLE患者的肠道菌群存在紊乱。(2)机器学习分类器结合SLE患者的肠道重要菌群能有效早期识别SLE患者,能为临床决策提供参考价值,尤其是XGBoost算法和RF算法。(3)SHAP可解释性框架有助于解释SLE识别过程中肠道重要菌群的作用大小和方向,能为未来完善SLE的科学治疗提供参考。