Page 67 - 2024年第55卷第5期
P. 67
时刻,并解决长期依赖和训练时梯度消失或爆炸等问题。LSTM单元的不同阶段由式(3)—(8)表示。
遗忘阶段:
F = σ (XW + H W + b) (3)
f
hf
t - 1
t
t
xf
更新阶段:
I = σ (XW + H W + b) (4)
t t xi t - 1 hi i
槇
C = tanh (XW + H W + b) (5)
hc
c
xc
t - 1
t
t
槇
C = F⊙C + I ⊙C t (6)
t
t
t - 1
t
输出阶段:
O = σ (XW + H W + b) (7)
t t xo t - 1 ho o
H = O⊙tanh(C) (8)
t
t
t
槇
式中:H 与 H 分别为历史隐层记忆与当前更新后的隐层记忆;C 、C 与 C 分别为历史细胞状态、
t - 1
t
t
t - 1
t
当前待更新状态与当前更新后的细胞状态;F、I与 O 分别为遗忘门系数、更新门系数与输出门系
t t t
数;W 与 b分别为各门权重与偏置。通过堆叠 LSTM单元可挖掘更深层次的时序信息。
3.2 概率预测 变形监测仪器常埋设于堆石坝内部,复杂工作环境导致采集的数据存在一定噪声。为
降低数据噪声对模型训练的影响,本文假设噪声存在时序差异,预测变量的均值与方差信息均隐藏在
历史数据中,服从高斯分布(图 1(c)):
y ~N( μ s,n,t ,σ s,n,t ) (9)
s,n,t
式中下标 s、n和 t分别为样本编号、测点编号和时间步。
对于 LSTM单元得到的隐层记忆 H ,采用式(10)(11)计算得到概率 预测 中 的 高斯 分布参数
s,n,t
,在高斯分布中计算训练样本回归概率以及实现推断采样。
μ s,n,t 与 σ s,n,t
= W H + b (10)
μ s,n,t μ s,n,t μ
= softplus(W H + b) (11)
σ s,n,t σ s,n,t σ
式中 W 、b、W 、b为可训练参数,为保证输出标准差为正数,采用 Softplus激活函数。
μ μ σ σ
3.3 全过程训练与推断 传统端到端模型仅关注输出结果的准确性,而忽视了 LSTM单元对输入特征
与输出效应量内在关系的学习。因此,本文引入全过程训练方式 [27] ,提高模型对影响因子与逐步累积
的变形效应量间内在关系的学习能力,以解决漂移数据的长期预测难题。
将采用全过程训练 的 模 型 在 推 断 时 的 任 务 描 述 如 下:给 定 多 测 点 变 形 滞 后 序 列 { y,y,…,
1 2
y ,y }与环境因子序列{x,x,…,x ,x T0 + 1 ,…,x T0 + T1 },预测未来多测点变形量序列{y ,
T0 + 1
T0
1
T0
T0 - 1
2
y ,…,y },其中 T为历史滞后长度,T为预测长度。简化输入形式,将环境因子与效应量合
T0 + 2 T0 + T1 0 1
并为矩阵形式 X = concat(y ,x),作为空间融合模块的初始输入特征 X t (0) 。
t
t
t -1
在训练阶段,效应量的滞后序列和 预 测序列 均为 已知 值,因 此 各时 间 步 的输 入 {X,…,X ,
2
T0
X ,…,X }是已知矩阵。由于编解码器为参数共享的堆叠 LSTM 单元,可将全过程输出与标签
T0 + 1 T0 + T1
序列{ y,…,y ,y ,…,y }共同用于计算损失函数。
2
T0
T0 + 1
T0 + T1
在全过程训练中,基于最大似然估计与高斯分布假设的概率预测损失函数可写为:
S N T0 + T1
(
2
2
2
Θ =argmin - ∑∑∑ ln((2 πσ s,n,t ) - 0.5 exp( -(y -μ s,n,t )?(2 σ s,n,t ))) ) (12)
s,n,t
Θ s =1 n =1 t =2
式中 S为训练样本总数。
在推断阶段,输入{ X,…,X ,X }为已知,代入模型获得 T+ 1 时刻高斯分布参数,从中采
2 T0 T0 + 1 0
,迭代入 T+ 2时刻的输入特征矩阵 X 。同理,经 过 T- 1次 迭代 最终 获得 推 断序列
样得到 ^y + 1 0 T0 + 2 0
T0
}。在长期滚动预测时,将前一次推断结果加入变形序列中,将尾部 T长度的
T0
{ ^y + 1 , ^y + 2 ,…, ^y + T1 0
T0
T0
数据视为已知值参与下一次推断,最终获得长期预测序列。
— 5 6 7 —