Page 64 - 水利学报2021年第52卷第6期
P. 64

当模型的参数变动时,AIC 及 BIC 的值越小则表示模型的拟合效果越好。由于高斯混合模型中
               K ≥ 2 ,因此选择以 K = 2 作为起点,通过逐一列举的方式计算模型拟合预报误差分布的 AIC 及 BIC
               的值,并选取对应 AIC 及 BIC 值最小的 K 值作为当前预见时刻误差分布最优的高斯分布混合个数。
               3.2 基于 K-means++的参数初始值确定               K-means++算法是一种确定聚类迭代初始起点的算法                      [16] ,
               一般用于初始化 K-means++聚类算法的聚类中心。高斯混合模型本质上作为一种聚类模型,其原理
               是通过计算每个数据所属的高斯类从而实现聚类的效果,因此同样可以利用 K-means++算法进行预
               分类,并根据预分类的结果计算高斯混合模型的初始参数值,其具体步骤如下:
                  (1)从单一预见时刻误差数据集中随机选定与最优高斯分布混合数 K 相同数目的初始聚类中心;

                  (2)计算每个误差数据 e              与之最近一个聚类中心的马氏距离 D e                      )  ;
                                        x ( ) i t ( ) j                        ( x ( ) i t ( ) j
                                                                      D e      )
                                                                        ( x ( ) i t ( ) j
                  (3)计算每个误差数据被选为下一个聚类中心的概率                                        2  ,按照轮盘法选出下一个
                                                                         D e     )
                                                                   å i ∈ n ( x ( ) i t ( ) j
               聚类中心;
                  (4)重复(2)(3),直至每一个聚类中心不再变化为止;
                                                                                           ′
                                                                                        σ
                                                                                          2
                  (5)依据得到的聚类中心将误差数据聚类,并计算每个类的均值 u′ 与方差 ( ) 作为迭代的初始
                                                                                         k
                                                                               k
               值,其中权值的初始值 α ′ =          K 1  。
                                      k
                                                                                       2
                   当初始参数值确定后,利用 EM 算法迭代计算则可得到最终的 α 、 u 、 σ ,带入式(3)即可得
                                                                                  k
                                                                                       k
                                                                             k
               到单一预见时刻的误差分布表达式。
               3.3 多个预见时刻径流预报误差联合分布建立及应用                          meta-elliptic Copula 函数族中的高维 meta-stu⁃
                         [17]                        [18]
               dent t Copula  、高维 meta-Gaussian Copula  是水文中常用的两类分布,由于在预报模型在预报过程
               中受到的干扰因素难以量化,可能会在某一时间点产生与均值偏离较大的预报误差,而高维 me⁃
               ta-Gaussian Copula 不具有尾部相关性,因此本文在推求各个预见时刻误差分布的前提下,选用高维
               meta-student t Copula 建立多个预见时刻径流预报误差间的联合分布,可表示为:
                                      C (φ ,φ ,,φ     ) = t [ t ( ),t ( ),,t ( )     ]              (10)
                                                                φ
                                                                       φ
                                                                                    φ
                                                              -1
                                                                                 -1
                                                                     -1
                                          1   2       m   Σν  ν  1   ν   2       ν   m
                   将其展开可得:
                                                t ( ) t ( )  Γ æ ν + m  ö             ν + m
                                                      φ
                                                  φ
                                                    -1
                                                 -1
                                                       m
                                                ν
                                                    ν
                                                   1
                                             )
                                  C (φ;Σ;ν =               è  ν  ø   æ 1 +  1  X Σ X  ö  2  dx      (11)
                                                                              T
                                                                                 -1
                                                                  m
                                                                  )
                                                 -∞  -∞  Γ æ ν  ö  (πν | Σ | è  ν    ø
                                                          è 2  ø
               式中: C (φ ,φ ,,φ       ) 为 m 维随机变量联合分布, φ ,φ ,,φ 分别表示 m 个预见时刻的入库
                         1   2       m                            1   2       m
               径流预报误差;t 为ν个自由度的 t 分布函数,其协方差矩阵为 Σ ; t (×) 为自由度为ν的 t 分布的逆函
                                                                             -1
                              Σν                                             ν
                                                                             (
               数; Γ(·) 为伽马分布;X 为不同预见时刻的预报误差变量矩阵, X = φ                         x ( ) i t ( ) 1  ,φ x ( ) i t ( ) 2  ,,φ x ( ) i t (m  ) )  ;
                                                         T
               φ为被积函数变量矩阵, φ = [φ ,φ ,,φ               ] 。
                                           1   2       m
                   当对整个入库径流预报过程进行不确定性分析时,需要依据入库径流过程预报误差联合分布对
               误差序列进行随机抽样,主要分为如下两步。
                  (1)依据联合分布 C (φ ,φ ,,φ            ) 生成随机序列矩阵 ω = [ω ,ω ,,ω             ] , ω 表示对应预
                                       1   2       m                        1   2        m     j
               见时刻误差分布的累积分布概率。
                                                                     φ
                  (2)推求对应预见时刻误差分布的逆累积分布函数 F ( ) ,将随机序列矩阵 ω 带入该函数,可
                                                                   -1
                                                                  j
                                                                      i
                                                                                        )
                                                                                     ω
                                                                        ω
                                                               ω
                                                                      -1
                                                             -1
               得到模拟的入库径流过程误差序列,表示为 e ′ = ( F ( ),F ( ),,F ( ) 。
                                                                                   -1
                                                            1   1    2   2        m    m
                   基于 IGMM-Copula 的入库径流过程预报误差随机模拟模型的研究流程如图 1 所示。
                 — 692  —
   59   60   61   62   63   64   65   66   67   68   69