Page 123 - 2023年第54卷第4期
P. 123
变量关系 [25] ,RF是基于重抽样技术和决策树算法的集成学习方法 [26] ,而 SVM是基于 VC维理论和结
构风险最小化准则的算法 [27] ;(2)在形式方面,MLR结构形式简单、可解释性强,而 RF及 SVM原理
更为复杂,可解释性差,且算法表现受参数选取影响较大;( 3)在适用场景方面,MLR适用于自变量
间不存在多重共线性的简单线性场景 [15] ,而 RF与 SVM 擅长解释变量间的非线性关 系 [16 - 17] ,其中
SVM适用于处理小样本高维特征数据,而 RF的随机性受到样本数量限制,更适合处理大样本数据。
元学习器应选择泛化能力较强的算法,从而降低基学习器预测误差对最终结果的影响。高斯过程
回归(GPR) [31] 是基于贝叶斯框架与高斯过程性质的非参数回归算法。它可以通过适当的高斯过程组
合进行建模,并结合先验知识实现预测,泛化能力强,且在处理高维度、小样本等回归问题上有很强
的自适应能力。
综合考虑,在 Stacking集成学习框架下选择 MLR、RF及 SVM算法作为第一层的基学习器,选择
GPR算法作为第二层的元学习器。
3 基于多因子融合和 Stacking集成学习的大坝变形组合预测模型
3.1 大坝变形解释因子 实际工程应用中,大坝变形主要由水压、温度和时效三个分量来解释和建
模,变形与主要影响分量的关系如下:
+ +
δ = δ H δ T δ (1)
θ
为温度分量;δ为时效分量。
式中:δ 为大坝变形量;δ H 为水压分量;δ T θ
HST、HTT及 HTT因子模型数学表达式如下:
A
n 2 2 π jt 2 π jt
i
i ∑
0 ∑
HST:δ = a+ aH+ [ bsin + bcos ] + c θ + cln θ (2)
2j
1j
2
1
i =1 j =1 365 365
n m 1
0 ∑
i ∑
i
HTT:δ = a+ aH+ bT+ c θ + cln θ (3)
1
j j
2
i =1 j =1
n m 2
T
i
T
1 0 ∑
0 ∑
HTT:δ = a+ aH+ bA+ bA + c θ + cln θ (4)
i
2
1
A
j p - q
i =1 j =2
式中:a为常数项;a、b、b、b、b、c及 c为回归系数;H为上游水头;n为多项式阶数,拱坝
i
0
1
2j
1j
2
j
1
取 n = 4 ;t为当前监测日距初始监测日累计天数;T为第 j个温度计数据;m 为温度计数量;HT T模
j 1 A
T
T
型采用监测日前期若干天气温的平均值作为温度因子,A为当前监测日的日平均气温;A 为当前监
0
p - q
测日前 p - q天的平均气温;m 为 HTT模型温度因子个数;θ = t?100。
2
A
3.2 k折交叉验证 在进行大坝变形预测时,如果基学习器与元学习器采用同样的训练数据,会导致
严重的过拟合,因此需要对训练数据进行 k折交叉验证。主要方式为:将训练集 D随机划分为 k个同
样大小的子集 D = D∪D∪…∪D,D∩D= (i ≠j),第 l次执行交叉验证时选择子集 D 作为验证数
1 2 k i j l
据,余下子集的并集 珚 D = D\D 作为训练数据。这样保证了基学习器和元学习器的训练样本不发生重
l l
叠,有效地减小了过拟合的风险。
3.3 大坝变形组合预测模型流程 基于 Stacking集成学习方法建立预测模型,通过多因子融合优化输
入变量,并利用 k折交叉验证减小其过拟合风险,构建了基于多因子融合和 Stacking集成学习的大坝
变形组合预测模型,其架构如图 2所示,主要步骤如下:
( 1)根据原型观测资料,建立 HST、HTT与 HTT三种大坝变形解释因子模型,得到原始数据集,
A
并将原始数据集划分为训练集 D和测试集 S。
(2)对训练集 D进行 5折交叉验证:将训练集 D五等分,取 4折为训练数据,另外 1折为验证数
据。在第 l折中,使用训练数据 珚 D 对基学习器 h进行训练,得到其在验证数据 D 上的预测值 p以及
l t l lt
在测试集 S上的预测值 q。
lt
(3)5折交叉验证结束后得到验证数据的预测值 p= (p,p,p,p,p),设对应的变形实测
4t
t
5t
3t
2t
1t
值为 y,则基学习器 h输入元学习器的训练数据 D′ = (p,y)。
t t t t t
— 4 9 9 —