Page 33 - 2025年第56卷第5期
P. 33
表 1 洪水过程特征指标及其计算方法
符号 单位 计算公式 备注
t 和 t 分别代表洪水始终时间;Q 和 Q 分别为日平
t end
i
R 亿 m 3 R sum = ∑ 86400 × Q i = Q sum × 86400 0 end sum
sum 3
均流量和洪水总流量(m /s)
i = t 0
Q m /s 洪水过程线出现的最大流量
3
p
T d 洪水从起涨到峰值的用时
rise
T d 洪水从峰值到结束的用时
down
RQ h -1 RQ rise = (Q p - Q 0 )/ [(t p - t 0 + 1) ⋅ Q sum ⋅ 24 ] 除以洪水总量消除量纲影响;Q 和 Q 分别为洪水开
rise
0 end
RQ h -1 RQ down = (Q p - Q end )/ [(t end - t p + 1) ⋅ Q sum ⋅ 24 ] 始和结束时流量(m /s)
3
down
-
t end - Q 为洪水过程平均流量(m /s);N 为洪水过程观测数;
3
CS CS = ∑ (Q i - Q ) / (σ ⋅ N )
3
3
σ 为标准偏差(m /s);CS 小于 0 表示形态左偏、大于 0
i = t 0
- 表示右偏
CV CV = σ/ Q
3.3 聚类分析 聚类分析是一种根据选定特征指标进行相似性判别的分类方法,旨在出筛选属性相似
的类型。本研究采用 K-means 聚类方法 [28] ,该方法使用距离函数作为相似性度量的指标。当两个数据
对象距离近,说明二者相似;当二者距离远,说明不相似。计算步骤如下:首先随意从 n 个数据样本
中选择 k 个对象作为原始聚类中心;计算其他样本与聚类中心距离,将它们划分到最相似的类别;其
次更新中心值,并再次计算任意样本与新中心的距离并进行类别划分。重复以上过程,收敛时停止。
聚类效果采用轮廓系数 SC、DBI(Davies-bouldin)和 CH(Calinski-Harbasz Score)评价,其中当轮廓系数
SC 越大、DBI 越小、CH 越大表明聚类效果越好。
b - a
SC = (7)
max (a,b)
1 k ( ) (8)
s i + s j
k max j ≠ i d ij
DBI = ∑ i = 1
T r (B k ) (k - 1)
CH = ⋅ (9)
T r (W k ) (n - k)
式中:a 为样本与同一集群中所有其他点之间的平均距离;b 为样本与最近集群中所有点之间的平均
距离;s 为集群 i 中每个点与集群 i 中心点之间的平均距离;d 为第 i 和第 j 聚类中心点之间的距离;
i
ij
T(B)为聚类中心与数据集所有中心之间的距离平方和;T(W )为每个聚类内部的距离平方和;n 为数
r
r
k
k
据点总数;k 为聚类数目。
3.4 随机森林模型 随机森林是一种基于决策树的集成机器学习算法,因其模型结构简单、训练速度
快和能够较好处理高维度数据等特点,成为了用途最广泛的机器学习算法之一。该模型能够有效模拟
和预测复杂的非线性过程 [29] ,并评估特征重要性,故具有较好的解释性,并评估特征重要性。本文基
于随机森林回归算法分析降雨特征对洪水过程的影响,选
取降雨特征和次洪前基底流量作为潜在驱动因子输入,洪
表 2 寸滩站以上流域降雨特征聚类效果评估
水多个特征指标作为模型输出,量化各潜在驱动因子的贡
聚类数目 SC DBI CH
献率,进而确定不同洪水特征的主要驱动因素。
2 0.416 0.882 79.274
4 结果与分析 3 0.377 0.966 71.890
4 0.377 0.888 74.503
4.1 降雨特征聚类下的洪水特征 为了探究整个流域降雨 5 0.381 0.790 71.238
与出口洪水过程的内在关联,对寸滩站以上流域的降雨数 6 0.366 0.852 67.783
据进行聚类分析。依据 SC 大、DBI 小和 CH 值大的标准,优 7 0.343 0.823 73.614
选最佳聚类数目,不同聚类数目下效果如表 2 所示,可以看 注:SC 和 CH 大、DBI 小,聚类效果佳。
— 579 —