Page 60 - 2023年第54卷第10期
P. 60

仅具有较快的运算速度和较强的泛化能力,还能够对输入特征的重要度进行排序,具有一定的可解释
              性  [7] 。目前,XGBoost算法在国内外各领域应用较为广泛。在国内,张福浩等                              [8] 基于 XGBoost算法构
              建了滑坡隐患点识别模型,并通过特征重要性分析获得了影响滑坡发生的重要因子;张钧博等                                                [9] 将
              XGBoost算法应用于岩爆烈度分级预测研究中,并对岩石单轴抗压强度、单轴抗拉强度、洞室围岩最
              大切应力、岩石弹性变形指数和岩体完整性系数等指标进行了重要性分析;徐韧等                                        [10] 采用基于贝叶斯
              优化算法的 XGBoost算法对大坝变形数据进行了预测,并通过特征重要性分析得出温度分量对大坝变
              形的贡献较大,而水压和时效分量的贡献较小;张书颖等                            [11] 建立了基于 XGBoost算法的纤维增强复合
              材料加固钢筋混凝土梁抗弯承载力预测模型,并对模型进行了特征重要性分析,确定了影响加固梁承
              载力的关键因素;丁阳阳等             [12] 将 XGBoost算法引入煤体结构识别中,并结合特征重要性分析方法输出
              了模型构建中的敏感参数。在国外,Li等                   [13] 采用 XGBoost算法预测了企业研发投资的创新绩效,并通
              过特征重要性排序发现了影响企业创新绩效的关键因素;Su等                              [14] 利用 XGBoost算法建立了地表沉降
              的非线性智能预测模型,并通过 XGBoost算法的特征重要性评估发现了决定地表沉降的最主要因素;
              Liu等  [15] 建立了基于 XGBoost算法的纤维增强复合材料残余抗拉强度和模量预测模型,并通过特征重
              要性分析定量评价了各属性参数对预测结果的影响;Yan等                           [16] 提出了基于 XGBoost算法的装配式混凝
              土建筑投资估算模型,并通过特征指标重要性排序得出了影响投资估算结果的重要指标。
                  尽管传统的 XGBoost算法可以通过特征重要性分析,挖掘影响预测结果的关键特征,但是这只能
              得出特征的重要程度,难以解释各特征对预测结果的影响                            [17] ,模型可解释性有待增强。Shapley加性
              解释(SHapleyAdditiveexPlanation,SHAP)是由 Lundberg等       [18] 提出的一种用于增强机器学习模型可解
              释性的统一框架,可以对每一个样本的每一个特征变量计算出线性可加的贡献值,从而达到解释的效
              果  [19] 。与 XGBoost算法的特征重要性分析相比,SHAP可以综合全局和局部两方面进行模型可解释性
              分析。首先,从全局出发,SHAP不仅可以对样本特征的重要性进行排序,挖掘影响预测结果的关键
              特征,还可以定性分析样本特征与预测结果的正负相关性;其次,从局部上看,SHAP可以显示出单
              个样本中各个特征对此样本的预测结果是如何起作用的,显著提高预测结果的可信度                                         [20] 。因此,本研
              究将 XGBoost算法与可解释机器学习框架 SHAP相结合,以建立具有较强可解释性的大坝渗流性态分
              析模型。
                  此外,XGBoost集成学习算法的模型超参数较多,超参数的设置对模型预测性能具有较大影响。
              现有研究大多根据人工经验或网格搜索方法搜寻 XGBoost算法的最佳参数,难以获得最优参数组合。
              采用智能优化算法对超参数进行调整不仅能够获得最优参数组合,还可以减少时间,提升效率                                             [21] 。天
              鹰优化器(AquilaOptimizer,AO)是 Abualigah等        [22] 于 2021年提出的一种新型智能优化算法,具有较
              强的全局搜索能力和较快的收敛速度。然而,AO算法采用简单的随机方式对种群初始化,难以保证
              初始化种群分布的均匀性和多样性,并且在开发阶段容易陷入局部最优。通过混沌映射产生的混沌序
              列具备规律性、遍历性、随机性等特点,可以增加初始种群整体的均匀性和多样性                                        [23] ;天鹰飞行速率
              是 AO算法开发阶段的重要参数,对其非线性化对于增强算法的局部搜索能力具有重要作用。因此,
              本研究提出基于混沌理论和非线性飞行速率更新策略改进的天鹰优化(ImprovedAquilaOptimization,
              IAO)算法,对 XGBoost集成学习算法的超参数进行自适应调优,以提高 XGBoost算法的预测精度。
                  综上所述,本研究在可解释机器学习框架 SHAP下,提出一种基于 IAO - XGBoost集成学习模型的
              土石坝渗流性态分析方法,有效解决现有大坝渗流数值模拟方法计算效率较低、难以实时分析大坝渗
              流性态,而基于机器学习方法的代理模型可解释性较差等不足,从而为大坝运行管理人员提供准确和
              可靠的大坝渗流性态分析结果。


              2 研究框架


                  所提模型的研究框架如图 1所示,主要包括数据集生成、基于 IAO - XGBoost集成学习的预测模型
              建立、基于 SHAP理论的预测结果解释和案例研究四部分。

                     9
                —  1 1 6 —
   55   56   57   58   59   60   61   62   63   64   65