Page 12 - 2024年第55卷第3期
P. 12
是否符合碾压工艺等问题没有进行考虑,碾压在作业过程中可能会出现不符合要求的动作,碾压机获
得的奖励值在大量的数据中难以起到指导作用,影响收敛速度。因此需要将碾压机群中各碾压机作业
的任务分为多个小任务 [29] ,对碾压机在作业过程中关键节点上选择的动作进行评价,用 r 表示第 i
2Ti
台碾压机在 T时刻获得的即时奖励,用 R 表示碾压机群在 T时刻获得的总体子奖励。基于势能奖励
2T
塑造的思想 [30] 设计 r ,其表达式如式(16)所示。
2Ti
+ 5,条带不合格时选择继续碾压
- 500,条带不合格时选择转移条带
- 500,条带合格时选择继续碾压
+ 5 ,条带合格时选择转移条带
- 10 ,碾压完不合格分段后前往条带较远一端
r = ( 16)
2Ti
+ 5,避障动态障碍物
+ 5 ,成功转移条带
- 500 ,转移至正在作业条带或其相邻条带
- 500,转移至已碾压完成的条带
0,其他情况
综上所述,碾压机群在 T时刻的总体子奖励 R 为各碾压机奖励总和,如式(17)表示,碾压机群
2T
的总体奖励 R 如式(18)表示。
总
n
R = r (17)
2T ∑ 2Ti
i =1
R = R + R 2T (18)
1T
总
式中 i = 1 ,2,…,n,n为碾压机群中碾压机数量。
4.3.2 探索利用策略 探索利用策略指碾压机在某一状态下选择动作的策略,探索是指尝试之前未做
过的动作,利用是指根据已知的奖励选择奖励最高的动作。在碾压机施工作业过程中,仓面环境给予
的反馈较少,会导致碾压机进行成功探索和获取有意义的反馈的概率降低,因此选取良好的探索利用
策略显得尤为重要。主要的探索利用策略有如下几种:
( 1) ε - greedy 策略。ε - greedy 策略是强化学习中最常用的探索策略,该策略是指在某一状态下以
概率 ε 随机选择任一动作,以 1 - ε 的概率选择奖励值最大的动作,其计算公式如式(19)所示。
ε
1 - ε + ,a = argmaxQ(s,a)
a
A(s)
π (a|s) = ( 19)
ε
,a ≠argmaxQ(s,a)
a
A(s)
式中:ε 为一个小于 1的数; A(s) 是指该状态 s下可选择的动作数量。 ε - greedy 策略的好处是不需要
复杂的计算公式,计算较容易,缺点是由于 ε 是一个大小不变的值,因此该策略没有考虑 Q值的不确
定性,在复杂环境下的探索效率较低。
( 2)置信区间上线 UCB策略。置信区间上线 UCB策略是不确定行为优先探索中最常用的一种方
法,指通过计算一个指标来选择动作,该指标由该状态下某一动作的回报平均值和置信区间组成,其
具体表达如式(20)所示。
( 2ln T ) (20)
a 槡
a = argmax μ a +
N (a)
是 回 报 平 均 值;第 二 项 衡 量 每 个 动 作 的 不 确 定 性,
式中:a为状 态 s下 被 选 择 的 动 作;第 一 项 μ a
槡 2lnT?N(a)中分母是该动作被执行的次数,分子是执行动作的总次数的对数。从表达式可看出该探
索利用策略可以使智能体在训练开始阶段更多的进行探索,从而更快收敛,具有很好的样本利用率。
综上所述,由于堆石坝碾压作业中填筑仓面划分条带数量较多,碾压机群中各碾压机在条带上的
位置对应有多种动作选择,状态集合和动作集合较多,因此本文选用收敛速度更快、在初始阶段进行
— 2 6 —
0