Page 13 - 2024年第55卷第3期
P. 13
更多探索的置信区间上限 UCB策略作为强化学习的探索利用策略。
4.4 耦合元胞自动机的强化学习碾压作业路径规划
方法 结合前文内容,可分析耦合元胞自动机的强化
学习堆石坝填筑仓面碾压作业动态路径规划方法的应
用流程如下,参见图 7。
( 1)现场 测 量 队 测 量 得 到 仓 面 边 界 与 障 碍 物 坐
标,输入坐标得到仓面 C;
( 2)将仓面 C划分为 i个碾压条带,每个条带宽
度为 L,相邻条带之间的搭接宽度为 W;
( 3)n台碾压机通过考虑安全避障的 D 算法随
机前往任一可碾压条带起点,开始以碾压速度 v进行
碾压作业,每个元胞通过 3.2节状态转移规则储存更
新碾压参数;
(4)将元胞储存的碾压参数和材料级配输入压实
质量评价模型,得到仓面干密度云图,提取各元胞的
图 7 耦合元胞自动机与强化学习的路径规划方法应用流程
干密度,通过 3.3节提出的方法评价条带整体压实质
量,结合碾压机位置和条带压实质量组成各碾压机状态 S;
n
(5)应用置信区间上限 UCB策略从各碾压机在其状态下的动作集中选择动作;
(6)实时更新仓面元胞自动机模型和干密度云图;
( 7)调用强化学习的奖励函数得到各碾压机的即时奖励 r ;
2Ti
(8)计算碾压机群的稀疏奖励奖励 R 和总体子奖励 R ;
1T
2T
( 9)计算碾压机群总奖励 R ;
总
( 10)重复步骤(1)到步骤(9)迭代 m次进行学习得到累积奖励最优的碾压路径。
5 工程应用
本研究以西南地区某Ⅰ等大(1)型工程为例,该工程为砾石土心墙堆石坝,大坝主体工程分为堆
石区、心墙区、过渡区等分区,其中堆石区和过渡区应用搭接法进行碾压作业。
5.1 碾压作业动态路径规划方法应用效果 选取该工程某一应用搭接法施工的填筑仓面,通过现场碾
压质量实时监控系统可知,该仓面存在多个障碍物,在施工过程中由于施工组织要求碾压机数量发生
变化。将本方法应用于该仓面,验证本方法能够综合考虑碾压机数量变化、压实质量感知等动态要素
进行碾压作业路径规划。
通过现场测量可获得该仓面边界及障碍物坐标,通过
元胞自动机建立填筑仓面信息模型,如图 8所示。
现场碾压过程中,碾压机群中碾压机 的数 量会因
现场施工组织协变化,因此设置碾压机数量控制面板
用以模拟碾压机数量的变化。
模拟堆石坝填筑仓面碾压作业过程,在仓面环境内
设置一个随机移动的动态障碍物,如图 9黑色方块所示。
首先在开始阶段组织 4台碾压机进行作业,碾压速度采
用本工程现场实际作业的平均碾压速度为 2.5km?h,在
碾压第 30分钟、第 60分钟、第 90分钟、第 120分钟
将碾压机群中碾压机的数量分别 - 1 、 - 1 、 + 1 、 + 1 ,最
终碾压机群完成施工的碾压距离为 26688m,该仓面 图 8 典型填筑仓面
— 2 6 1 —