Page 13 - 2024年第55卷第3期

P. 13

更多探索的置信区间上限ＵＣＢ策略作为强化学习的探索利用策略。
４．４耦合元胞自动机的强化学习碾压作业路径规划
方法结合前文内容，可分析耦合元胞自动机的强化
学习堆石坝填筑仓面碾压作业动态路径规划方法的应
用流程如下，参见图７。
（１）现场测量队测量得到仓面边界与障碍物坐
标，输入坐标得到仓面Ｃ；
（２）将仓面Ｃ划分为ｉ个碾压条带，每个条带宽
度为Ｌ，相邻条带之间的搭接宽度为Ｗ；
（３）ｎ台碾压机通过考虑安全避障的Ｄ 算法随
机前往任一可碾压条带起点，开始以碾压速度ｖ进行
碾压作业，每个元胞通过３．２节状态转移规则储存更
新碾压参数；
（４）将元胞储存的碾压参数和材料级配输入压实
质量评价模型，得到仓面干密度云图，提取各元胞的
图７耦合元胞自动机与强化学习的路径规划方法应用流程
干密度，通过３．３节提出的方法评价条带整体压实质
量，结合碾压机位置和条带压实质量组成各碾压机状态Ｓ；
ｎ
（５）应用置信区间上限ＵＣＢ策略从各碾压机在其状态下的动作集中选择动作；
（６）实时更新仓面元胞自动机模型和干密度云图；
（７）调用强化学习的奖励函数得到各碾压机的即时奖励ｒ；
２Ｔｉ
（８）计算碾压机群的稀疏奖励奖励Ｒ和总体子奖励Ｒ；
１Ｔ
２Ｔ
（９）计算碾压机群总奖励Ｒ；
总
（１０）重复步骤（１）到步骤（９）迭代ｍ次进行学习得到累积奖励最优的碾压路径。

５工程应用

本研究以西南地区某Ⅰ等大（１）型工程为例，该工程为砾石土心墙堆石坝，大坝主体工程分为堆
石区、心墙区、过渡区等分区，其中堆石区和过渡区应用搭接法进行碾压作业。
５．１碾压作业动态路径规划方法应用效果选取该工程某一应用搭接法施工的填筑仓面，通过现场碾
压质量实时监控系统可知，该仓面存在多个障碍物，在施工过程中由于施工组织要求碾压机数量发生
变化。将本方法应用于该仓面，验证本方法能够综合考虑碾压机数量变化、压实质量感知等动态要素
进行碾压作业路径规划。
通过现场测量可获得该仓面边界及障碍物坐标，通过
元胞自动机建立填筑仓面信息模型，如图８所示。
现场碾压过程中，碾压机群中碾压机的数量会因
现场施工组织协变化，因此设置碾压机数量控制面板
用以模拟碾压机数量的变化。
模拟堆石坝填筑仓面碾压作业过程，在仓面环境内
设置一个随机移动的动态障碍物，如图９黑色方块所示。
首先在开始阶段组织４台碾压机进行作业，碾压速度采
用本工程现场实际作业的平均碾压速度为２．５ｋｍ?ｈ，在
碾压第３０分钟、第６０分钟、第９０分钟、第１２０分钟
将碾压机群中碾压机的数量分别－１、－１、＋１、＋１，最
终碾压机群完成施工的碾压距离为２６６８８ｍ，该仓面图８典型填筑仓面

— ２６１ —

8 9 10 11 12 13 14 15 16 17 18