Page 63 - 水利学报2021年第52卷第6期
P. 63
(1)进行 EM 算法中的 E 步(求期望值),提出一个隐变量 γ , γ ∈{0,1} ,表示第 i 个样本是否来
ik
ik
自于第 k 个高斯分布, k = 1K 。将 γ 引入式(3),得到单个样本完全数据的对数似然函数,如
ik
式(4)。对参数 θ 进行初始化,其中 a = 1/K , u 设为随机数, σ 取 1,根据利用贝叶斯定理求解
2
k
k
k
)
γ 的后验概率 P γ = 1| e x(i )t( j ) ,θ ,见式(5)。
( ik
ik
K γ γ
) Õ
P e ,γ |θ = α ik N ( e x(i )t( j )| u ,σ 2 ) ik (4)
( x ( ) i t ( ) j ik k k k
k = 1
α N e |u ,σ k 2 )
|
k
k ( x ( ) i t ( ) j
æ
P çγ = 1 e ,θ ö ÷ = (5)
|
è ik | x ( ) i t ( ) j ø K
å α N e |u ,σ k 2 )
k ( x ( ) i t ( ) j
k
k = 1
(2)进行 EM 算法中的 M 步(求最大值),由式(4)得到全部样本完全数据的对数似然函数,见式
2
(6)。依据式(6)分别对 α 、 u 、 σ 求偏导,令似然函数值为 0,求出更新后的参数分别如式(7)所
k
k
k
示。
n K γ γ ik
) ÕÕ
P e ,γ |θ = α ik N e | u ,σ 2 ) (6)
( x ( ) i t ( ) j ik k ( x ( ) i t ( ) j k k
i = 1 k = 1
ì n k
ï α k new =
ï n
ï
K
ï å γ e
ï
ï ik x ( ) i t ( ) j
íu k new = k = 1 (7)
ï n
ï K 2
ï
e
ï å γ ik( x ( ) i t ( ) j - u new )
ï
k
ïσ 2new = k = 1
î k n
2
(3)不断迭代步骤(1)和(2),重复更新 α 、 u 、 σ ,直到前后两次迭代结果的变化幅度小于
k
k
k
一个设定值 ε ,则终止迭代,即 |θ - θ new | ≤ ε , θ new 代表更新后的参数值, ε 通常取 10 。
-4
GMM-Copula 模型在对单一预见时刻误差分布进行估计的过程中,由于涉及到高斯混合个数 K 的
选取,而通过人为确定的常规方法主观性太强,尤其在于相邻时段的预报误差分布可能具有不同的
特征,若高斯混合个数选取不当,势必会对最终拟合的精度造成影响;同时,模型采用随机抽取确
定初始参数值的方式同样不严谨,初始值的不同会影响最终迭代得到的参数,从而影响最终分布拟
合的结果。本文基于 AIC 与 BIC 准则选取最优的高斯混合个数,同时采用 K-means++算法确定高斯混
合模型参数的初始取值,建立基于 IGMM-Copula 的入库径流过程预报误差随机模拟模型。模型在优
化单一预见时刻径流预报误差分布拟合方法的基础上,考虑了各个预见时刻之间的相关关系,并结
合随机抽样理论,可实现对多个预见时刻入库径流过程误差的随机模拟。
3 基于 IGMM-Copula 的入库径流过程预报误差随机模拟模型
模 型 主 要 从 两 个 方 面 叙 述 , 提 出 GMM-Copula 模 型 改 进 的 两 个 方 面 ; 2.3 节 描 述 了 如 何 利 用
IGMM-Copula 模型建立多个预见时刻的径流预报误差联合分布以及误差序列随机模拟的步骤。
3.1 基于 AIC 与 BIC 准则的最优高斯分布混合数选取 AIC 与 BIC 都作为衡量统计模型拟合优良性的
标准,与 AIC 不同的是,BIC 引入了与模型参数个数相关的惩罚项,考虑了样本数量,更适合样本数
量较多时的情况。对应的计算公式如下:
AIC = 2K - 2ln( ) (8)
L
BIC = K ln( ) n - 2 ln( ) (9)
L
式中:K 为模型的参数个数,在本文中表示为高斯混合模型中的高斯混合个数;n 为预报误差样本个
数;L 为模型参数求解中所对应的似然函数。
— 691 —