Page 76 - 2023年第54卷第1期

P. 76

多目标问题转化为单目标进行求解，该方法称为基于惩罚因子的动态规划逐次逼近法（ｔｈｅＤＰＳＡ
ＢａｓｅｄｏｎＣｏｍｂｉｎａｔｉｏｎｏｆＰｅｎａｌｔｙＦａｃｔｏｒｓ，即ＣＰＦ－ＤＰＳＡ）。其计算流程与ＤＰＳＡ大体一致，但需做如
下处理：
（１）ＤＰ状态转移方程。在计算初始调度线时，ＤＰ顺序递推算法的寻优递推方程为：


ｆ（ｔ＋１，ｋ）＝ｍａｘ（ｆ（ｔ，ｊ）＋Ｅ（ｔ，ｊ，ｋ））（１０）
ｉｉｉ
ｊ＝１～Ｌｉ，ｔ

式中：Ｌ为第ｉ水库ｔ时段初状态（库蓄水量或水位）离散个数；ｆ（ｔ＋１，ｋ）为第ｉ水库ｔ时段末处于
ｉ，ｔｉ
第ｋ个状态时，第ｉ水库１～ｔ时段总的最优发电量，ｋＷ·ｈ；Ｅ（ｔ，ｊ，ｋ）为第ｉ水库ｔ时段初处于第ｊ状
ｉ
态、时段末处于第ｋ状态时，第ｔ时段的发电量，ｋＷ·ｈ。
在迭代计算时，使用ＤＰＳＡ算法的寻优递推方程为：


ｆ（ｔ＋１，ｋ）＝ｍａｘ（ｆ（ｔ，ｊ）＋Ｅ（ｔ，ｊ，ｋ）＋ ∑ Ｅｏｔｈｅｒ，ｌ（ｔ）－ｏＲ（ｔ）－ｏＲ（ｔ））（１１）
ｉ
ｉ
ｉ
２２
１１
ｊ＝１～Ｌｉ，ｔ
ｌ＝１～Ｉ，ｌ ≠ｉ
式中：Ｅｏｔｈｅｒ，ｌ（ｔ）为ｔ时段除ｉ以外的其他水电站在原先调度线上，运行状态不改变情况下计算所得的发
电量，由于当前时段ｉ水电站的不同决策会影响出库流量，故而下游所有水电站同时刻都会受到影响，
上游若受回水顶托也会有所影响，因而在寻优时考虑该项；ｏ、ｏ为对应于目标ｆ、ｆ的惩罚因子，取
１２２３
非负数；Ｒ（ｔ）、Ｒ（ｔ）为ｔ时段对于目标ｆ、ｆ的惩罚基本量，可应用不同的惩罚策略：
１２２３
①线性型。可认为每一时段对应目标的破坏是不等价的，考虑计算值与基本量的不足程度，表示
为线性变化，如对最小出力的惩罚，可采用如下线性公式计算：
Ｒ（ｔ）＝Ｎ－Ｎ（ｔ）ｔ＝１～Ｔ（１２）
１ｄＳ
式中：Ｎ为高于Ｎｍｉｎ的设计值，依此判断本时刻梯级总出力Ｎ（ｔ）的基本惩罚量。
Ｓ
ｄ
②非线性型。可认为每一时段对应目标的破坏是不等价的，依据计算值与基本量的不足程度来评
判惩罚量级，不足程度越大，惩罚力度越大，表示为非线性变化，如对最小出力的惩罚，也可采用如
下指数型惩罚公式计算：
Ｒ（ｔ）＝ａＮ（ｔ）?Ｎｄ × （Ｎ－Ｎ（ｔ））ｔ＝１～Ｔ（１３）
１
ｄ
式中ａ为底数，根据实际情况取适当值。
③常数型。可认为每一时段目标的破坏是等价的，不考虑破坏深度，如对生态目标，其惩罚基本
量可以常数的形式表示：
Ｒ（ｔ）＝ ψ （ｔ）（１４）
２
（２）惩罚因子（ｏ，ｏ）取值。一般地，一组惩罚因子有可能得到一个多目标的非劣解，为了获得
１２
分布较为均匀、广泛、真正的非劣解集，必须对（ｏ，ｏ）的影响范围和离散宽度做出判断。惩罚因子
１２
代入ＣＰＦ－ＤＰＳＡ时分两阶段策略：
第一阶段：惩罚因子影响范围探测：
①点绘ｆ－ｏ、ｆ－ｏ曲线；
３
１
２
２
②考查曲线变化趋势，分析排除接近于无影响区域得到惩罚因子的影响范围区间Ｓ和Ｓ，保证在
１
２
有效范围内确定因子取值；
③在Ｓ和Ｓ中，根据目标随因子变化的梯度选取因子离散值：在变化剧烈处可多选点，在变化平
１
２
缓处适量减少选点，得到相应的惩罚因子取值范围集合ｓ和ｓ，对应元素个数为ｄ和ｄ。
１２１２
第二阶段：组合ｓ和ｓ得到数量为ｄ× ｄ的取值空间，对组合中的每一个元素逐个代入ＣＰＦ－
２
２
１
１
ＤＰＳＡ求解非劣解，经过多目标筛选后得到非劣解集。
ＣＰＦ－ＤＰＳＡ算法的流程图以及梯级水库群多目标优化调度问题求解思路如图１和图２所示。
３．３评价指标在分析所得非劣解集的优劣时，需考虑其收敛性和分布的多样性，并与其他算法
比较［３０］。
（１）采用超体积指标［１９］（ＨＶ）来衡量个体所支配的空间，以综合评估解集Ａ的收敛性和多样性：

— ７１ —

71 72 73 74 75 76 77 78 79 80 81