Page 62 - 水利学报2021年第52卷第6期
P. 62
多个类型边缘分布上的优势,建立了多个预见时刻入库径流预报误差的 GMM-Copula 随机模型,可实
现对入库径流预报误差序列的随机模拟。在该项研究中,GMM-Copula 模型是以单一预见时刻径流预
报误差分布的拟合结果为基础建立的多维径流预报误差联合分布,在应用过程中仍存在两个关键问
题:(1)高斯分布混合个数的确定,这是一个权衡的过程,个数过少会影响拟合的精度,相反则会导
致模型过于复杂不利于分析;(2)参数初始值的确定,由于采用的是 EM(Expectation-Maximization al⁃
gorithm,EM)法 [14] 求解模型拟合需要的参数,它是一类通过迭代进行极大似然估计的优化算法,需
要对高斯混合模型的权重等参数进行初始化,不同的初始参数值会对迭代的结果造成较大的影响,
从而决定最终的拟合精度。由于原 GMM-Copula 模型对于拟合过程的两个关键问题都未做细致的研
究,各个预见时刻的径流预报误差的高斯分布混合个数以及初始参数值的确定存在较大的主观性,
难以保证拟合结果的精度,从而得到的模拟误差序列也存在进一步优化的空间。
本文基于 AIC(Akaike Information Criterion,AIC)与 BIC(Bayesian Information Criterion,BIC)准则 [15]
选取最优高斯分布混合个数,同时引入数据挖掘中的 K-means++算法确定高斯混合模型的初始参数
值,对 GMM-Copula 模型中的 GMM 部分进行改进,以此建立基于 IGMM-Copula(Improved Gaussian
Mixture Model Copula)的入库径流过程预报误差随机模拟模型。以雅砻江流域锦屏一级水库短期入库
径流过程预报误差分析为例,基于 IGMM-Copula 模型,首先对预见时刻为 6 h、12 h、18 h 和 24 h 的
入库径流预报误差分布进行拟合分析;其次,将拟合结果作为边缘分布从而建立四维入库径流预报
误差的联合分布,据此对误差序列进行随机模拟与统计分析,并与 GMM-Copula 模型得到的结果进行
了对比,验证模型的可行性与合理性。
2 GMM-Copula 中高斯混合模型描述及其存在的问题
现假设预报误差为 e ,表示当预报起始时刻为 x ( ) i 时,对未来 t ( ) j 时刻进行径流预报所产
x ( ) i t ( ) j
)
生 的 预 报 误 差 , 其 中 i 表 示 历 史 预 报 的 次 数 , i ∈(1,2,,n ; j 表 示 预 报 的 时 刻 数 ,
)
j ∈(1,2,,m 。可定义为:
S - H
e = x ( ) i t ( ) j x ( ) i t ( ) j × 100% (1)
x ( ) i t ( ) j H
x ( ) i t ( ) j
式中: S 、 H 分别为预报流量值和实测流量值。
x ( ) i t ( ) j x ( ) i t ( ) j
当进行 n 次预报后,可得到由 n 个预报误差序列组成的误差数据矩阵 E:
é e e e ù
m
ê e x ( ) 1 t ( ) 1 e x ( ) 1 t ( ) 2 e x ( ) 1 t ( ) ú
E = ê ê x ( ) 2 t ( ) 1 x ( ) 2 t ( ) 2 x ( ) 2 t (m ú ú ) (2)
ê ê ú ú
ê e e e ú
x
ë ( ) n t ( ) 1 x ( ) n t ( ) 2 x ( ) n t (m û )
针对时刻 t ( ) j 的预报误差 e ,可利用高斯混合模型求其分布,设模型中待估计的参数为
x ( ) i t ( ) j
θ ,则高斯混合模型的概率密度函数可表示为:
K
) å
p e ;θ = α N e | u ,σ k 2 ) (3)
k
( x ( ) i t ( ) j
k ( x ( ) i t ( ) j
k = 1
)
式中: p e ;θ 为高斯混合分布的概率密度函数; α 、 u 、 σ 分别为第 k 个高斯分布的参
2
k
k
k
( x ( ) i t ( ) j
K
数,分别代表权重、均值和方差,且 å α = 1 ,K 表示高斯混合模型中的高斯混合个数。
k
k = 1
从式(3)中可知,若要求解单一预见时刻误差分布拟合的表达式,则需要对参数 α 、 u 、 σ k 2
k
k
进行估计,而直接对原式进行最大似然估计则会产生对数的和,求解十分困难,因此采用 EM 法 [14] 对
参数进行推求。具体的求解步骤如下。
— 690 —