Page 67 - 2024年第55卷第5期
P. 67

时刻,并解决长期依赖和训练时梯度消失或爆炸等问题。LSTM单元的不同阶段由式(3)—(8)表示。
                  遗忘阶段:
                                                 F = σ (XW + H W + b)                                   (3)
                                                                      f
                                                                   hf
                                                               t - 1
                                                  t
                                                         t
                                                           xf
                  更新阶段:
                                                 I = σ (XW + H W + b)                                   (4)
                                                  t     t  xi  t - 1  hi  i
                                                槇
                                                C = tanh (XW + H W + b)                                 (5)
                                                                    hc
                                                                        c
                                                            xc
                                                                t - 1
                                                          t
                                                 t
                                                                   槇
                                                    C = F⊙C + I ⊙C   t                                  (6)
                                                                 t
                                                         t
                                                             t - 1
                                                     t
                  输出阶段:
                                                 O = σ (XW + H W + b)                                   (7)
                                                  t     t  xo  t - 1  ho  o
                                                     H = O⊙tanh(C)                                      (8)
                                                      t
                                                                   t
                                                          t
                                                                               槇
              式中:H 与 H 分别为历史隐层记忆与当前更新后的隐层记忆;C 、C 与 C 分别为历史细胞状态、
                      t - 1
                            t
                                                                                      t
                                                                           t - 1
                                                                                 t
              当前待更新状态与当前更新后的细胞状态;F、I与 O 分别为遗忘门系数、更新门系数与输出门系
                                                        t  t     t
              数;W 与 b分别为各门权重与偏置。通过堆叠 LSTM单元可挖掘更深层次的时序信息。
              3.2 概率预测 变形监测仪器常埋设于堆石坝内部,复杂工作环境导致采集的数据存在一定噪声。为
              降低数据噪声对模型训练的影响,本文假设噪声存在时序差异,预测变量的均值与方差信息均隐藏在
              历史数据中,服从高斯分布(图 1(c)):
                                                   y   ~N( μ s,n,t ,σ s,n,t )                           (9)
                                                    s,n,t
              式中下标 s、n和 t分别为样本编号、测点编号和时间步。
                  对于 LSTM单元得到的隐层记忆 H                 ,采用式(10)(11)计算得到概率 预测 中 的 高斯 分布参数
                                                  s,n,t
                         ,在高斯分布中计算训练样本回归概率以及实现推断采样。
              μ s,n,t 与 σ s,n,t
                                                         = W H   + b                                   (10)
                                                     μ s,n,t  μ  s,n,t  μ
                                                     = softplus(W H  + b)                              (11)
                                                σ s,n,t        σ  s,n,t  σ
              式中 W 、b、W 、b为可训练参数,为保证输出标准差为正数,采用 Softplus激活函数。
                     μ   μ    σ   σ
              3.3 全过程训练与推断 传统端到端模型仅关注输出结果的准确性,而忽视了 LSTM单元对输入特征
              与输出效应量内在关系的学习。因此,本文引入全过程训练方式                               [27] ,提高模型对影响因子与逐步累积
              的变形效应量间内在关系的学习能力,以解决漂移数据的长期预测难题。
                  将采用全过程训练 的 模 型 在 推 断 时 的 任 务 描 述 如 下:给 定 多 测 点 变 形 滞 后 序 列 { y,y,…,
                                                                                                 1   2
              y ,y }与环境因子序列{x,x,…,x ,x                    T0 + 1 ,…,x T0 + T1 },预测未来多测点变形量序列{y ,
                                                                                                       T0 + 1
                                                     T0
                                         1
                     T0
               T0 - 1
                                             2
              y ,…,y         },其中 T为历史滞后长度,T为预测长度。简化输入形式,将环境因子与效应量合
               T0 + 2    T0 + T1      0                  1
              并为矩阵形式 X = concat(y ,x),作为空间融合模块的初始输入特征 X                          t (0) 。
                             t
                                            t
                                      t -1
                  在训练阶段,效应量的滞后序列和 预 测序列 均为 已知 值,因 此 各时 间 步 的输 入 {X,…,X ,
                                                                                                2
                                                                                                         T0
              X   ,…,X       }是已知矩阵。由于编解码器为参数共享的堆叠 LSTM 单元,可将全过程输出与标签
                T0 + 1    T0 + T1
              序列{ y,…,y ,y ,…,y                }共同用于计算损失函数。
                     2
                             T0
                                 T0 + 1
                                           T0 + T1
                  在全过程训练中,基于最大似然估计与高斯分布假设的概率预测损失函数可写为:
                                       S  N T0 + T1
                                    (
                                                        2
                                                                                  2
                                                                                       2
                          Θ =argmin - ∑∑∑       ln((2 πσ s,n,t ) - 0.5 exp( -(y  -μ s,n,t )?(2 σ s,n,t ))) )  (12)
                                                                       s,n,t
                                Θ      s =1 n =1 t =2
              式中 S为训练样本总数。
                  在推断阶段,输入{ X,…,X ,X                  }为已知,代入模型获得 T+ 1 时刻高斯分布参数,从中采
                                      2       T0   T0 + 1                     0
                         ,迭代入 T+ 2时刻的输入特征矩阵 X                   。同理,经 过 T- 1次 迭代 最终 获得 推 断序列
              样得到 ^y + 1           0                         T0 + 2            0
                      T0
                                    }。在长期滚动预测时,将前一次推断结果加入变形序列中,将尾部 T长度的
                      T0
              { ^y + 1 , ^y + 2 ,…, ^y + T1                                                         0
                                T0
                T0
              数据视为已知值参与下一次推断,最终获得长期预测序列。
                                                                                                —  5 6 7 —
   62   63   64   65   66   67   68   69   70   71   72