Page 123 - 2023年第54卷第4期
P. 123

变量关系     [25] ,RF是基于重抽样技术和决策树算法的集成学习方法                       [26] ,而 SVM是基于 VC维理论和结
              构风险最小化准则的算法            [27] ;(2)在形式方面,MLR结构形式简单、可解释性强,而 RF及 SVM原理
              更为复杂,可解释性差,且算法表现受参数选取影响较大;( 3)在适用场景方面,MLR适用于自变量
              间不存在多重共线性的简单线性场景                   [15] ,而 RF与 SVM 擅长解释变量间的非线性关 系                 [16 - 17] ,其中
              SVM适用于处理小样本高维特征数据,而 RF的随机性受到样本数量限制,更适合处理大样本数据。
                  元学习器应选择泛化能力较强的算法,从而降低基学习器预测误差对最终结果的影响。高斯过程
              回归(GPR)    [31] 是基于贝叶斯框架与高斯过程性质的非参数回归算法。它可以通过适当的高斯过程组
              合进行建模,并结合先验知识实现预测,泛化能力强,且在处理高维度、小样本等回归问题上有很强
              的自适应能力。
                  综合考虑,在 Stacking集成学习框架下选择 MLR、RF及 SVM算法作为第一层的基学习器,选择
              GPR算法作为第二层的元学习器。


              3 基于多因子融合和 Stacking集成学习的大坝变形组合预测模型


              3.1 大坝变形解释因子 实际工程应用中,大坝变形主要由水压、温度和时效三个分量来解释和建
              模,变形与主要影响分量的关系如下:
                                                            + +
                                                       δ = δ H δ T δ                                    (1)
                                                                 θ
                                                     为温度分量;δ为时效分量。
              式中:δ 为大坝变形量;δ H         为水压分量;δ T                   θ
                  HST、HTT及 HTT因子模型数学表达式如下:
                                  A
                                               n      2        2 π jt    2 π jt
                                                    i
                                                  i ∑
                                            0 ∑
                                  HST:δ = a+     aH+     [ bsin   + bcos    ] + c θ + cln θ             (2)
                                                                     2j
                                                           1j
                                                                                    2
                                                                                1
                                              i =1    j =1     365       365
                                                        n      m 1
                                                     0 ∑
                                                           i ∑
                                                             i
                                           HTT:δ = a+     aH+     bT+ c θ + cln θ                       (3)
                                                                       1
                                                                   j j
                                                                           2
                                                       i =1    j =1
                                                     n           m 2
                                                                      T
                                                          i
                                                               T
                                                             1 0 ∑
                                                  0 ∑
                                       HTT:δ = a+      aH+ bA+      bA + c θ + cln θ                    (4)
                                                        i
                                                                              2
                                                                           1
                                          A
                                                                     j p - q
                                                    i =1         j =2
              式中:a为常数项;a、b、b、b、b、c及 c为回归系数;H为上游水头;n为多项式阶数,拱坝
                                  i
                      0
                                                     1
                                          2j
                                     1j
                                                         2
                                                  j
                                              1
              取 n = 4 ;t为当前监测日距初始监测日累计天数;T为第 j个温度计数据;m 为温度计数量;HT T模
                                                             j                      1                 A
                                                                                                T
                                                                  T
              型采用监测日前期若干天气温的平均值作为温度因子,A为当前监测日的日平均气温;A 为当前监
                                                                  0
                                                                                                p - q
              测日前 p - q天的平均气温;m 为 HTT模型温度因子个数;θ = t?100。
                                         2
                                               A
              3.2 k折交叉验证 在进行大坝变形预测时,如果基学习器与元学习器采用同样的训练数据,会导致
              严重的过拟合,因此需要对训练数据进行 k折交叉验证。主要方式为:将训练集 D随机划分为 k个同
              样大小的子集 D = D∪D∪…∪D,D∩D= (i ≠j),第 l次执行交叉验证时选择子集 D 作为验证数
                                1   2       k    i   j                                          l
              据,余下子集的并集 珚 D = D\D 作为训练数据。这样保证了基学习器和元学习器的训练样本不发生重
                                   l     l
              叠,有效地减小了过拟合的风险。
              3.3 大坝变形组合预测模型流程 基于 Stacking集成学习方法建立预测模型,通过多因子融合优化输
              入变量,并利用 k折交叉验证减小其过拟合风险,构建了基于多因子融合和 Stacking集成学习的大坝
              变形组合预测模型,其架构如图 2所示,主要步骤如下:
                  ( 1)根据原型观测资料,建立 HST、HTT与 HTT三种大坝变形解释因子模型,得到原始数据集,
                                                             A
              并将原始数据集划分为训练集 D和测试集 S。
                  (2)对训练集 D进行 5折交叉验证:将训练集 D五等分,取 4折为训练数据,另外 1折为验证数
              据。在第 l折中,使用训练数据 珚 D 对基学习器 h进行训练,得到其在验证数据 D 上的预测值 p以及
                                             l            t                              l            lt
              在测试集 S上的预测值 q。
                                     lt
                  (3)5折交叉验证结束后得到验证数据的预测值 p= (p,p,p,p,p),设对应的变形实测
                                                                                 4t
                                                               t
                                                                                     5t
                                                                             3t
                                                                        2t
                                                                    1t
              值为 y,则基学习器 h输入元学习器的训练数据 D′ = (p,y)。
                    t              t                         t   t   t
                                                                                                —  4 9 9 —
   118   119   120   121   122   123   124   125   126   127   128